ACCELERAREA DEZVOLTĂRII UNUI CORPUS DIGITAL ADNOTAT CU RELAŢII DE DEPENDENŢĂ PENTRU LIMBA ROMÂNĂ UTILIZÂND RESURSE ŞI INSTRUMENTE CONSTRUITE PENTRU ALTE LIMBI
Un corpus adnotat sintactic este o resursă fundamentală pentru
supravieţuirea unei limbi în spaţiul digital. Am construit un corpus de dimensiuni
modeste (5000 de propoziţii) într-un timp scurt (12 luni) şi cu resurse umane
reduse, acesta urmând să funcţioneze ca bază în dezvoltarea de resurse şi
instrumente care să asigure suport pentru analiza sintactică a limbii române,
în cadrul grupului de cercetare în Prelucrarea Limbajului Natural de la ICIA.
De aceea, propoziţiile selectate pentru adnotare aparţin mai multor stiluri
funcţionale şi domenii, au lungimi variate şi complexitate sintactică ridicată şi
conţin verbe cu utilizare frecventă în limbă. Prin selecţia atentă, am urmărit
să asigurăm corpusului rezultat diversitate stilistică şi sintactică şi
reprezentativitate lingvistică.
ACCELERAREA DEZVOLTĂRII UNUI CORPUS DIGITAL ADNOTAT CU RELAŢII DE DEPENDENŢĂ PENTRU LIMBA ROMÂNĂ UTILIZÂND RESURSE ŞI INSTRUMENTE CONSTRUITE PENTRU ALTE LIMBI.
-
ACCELERAREA DEZVOLTĂRII UNUI CORPUS DIGITAL ADNOTAT CU RELAŢII DE DEPENDENŢĂ PENTRU LIMBA ROMÂNĂ UTILIZÂND RESURSE ŞI INSTRUMENTE CONSTRUITE PENTRU ALTE LIMBI.
Autori:
Elena
Irimia
[1]
[1]
Academia Română Bucureşti
Rezumat
Un corpus adnotat sintactic este o resursă fundamentală pentru
supravieţuirea unei limbi în spaţiul digital. Am construit un corpus de dimensiuni
modeste (5000 de propoziţii) într-un timp scurt (12 luni) şi cu resurse umane
reduse, acesta urmând să funcţioneze ca bază în dezvoltarea de resurse şi
instrumente care să asigure suport pentru analiza sintactică a limbii române,
în cadrul grupului de cercetare în Prelucrarea Limbajului Natural de la ICIA.
De aceea, propoziţiile selectate pentru adnotare aparţin mai multor stiluri
funcţionale şi domenii, au lungimi variate şi complexitate sintactică ridicată şi
conţin verbe cu utilizare frecventă în limbă. Prin selecţia atentă, am urmărit
să asigurăm corpusului rezultat diversitate stilistică şi sintactică şi
reprezentativitate lingvistică.
Cuvinte cheie:
corpus, gramatică de dependenţe, adnotare sintactică automată, model statistic
Bibliografie
Structure of the reference Corpus of the Contemporary Romanian Language (CoRoLa)
- BARBU MITITELU, V.; IRIMIA, E.
-
, Proceedings of the 10th International Conference “Linguistic resources and Tools for Processing the Romanian Language”
, 2014
Evaluarea articolului: