Resurse Lexicale
Wim Peters
NLP group
Department of Computer Science
University of Sheffield
w.peters@dcs.shef.ac.uk
Compararea resurselor utilizand metadatele
Pentru a ne face o impresie asupra utilitatii metadatelor in compararea si evaluarea resurselor lexicale, tabelul de mai jos listeaza continutul lingvistic a patru resurse, conform unei multimi de metadate care constituie un nivel general de submultime al multimilor ISLE discutate anterior. Resursele examinate sunt Longman Dictionary of Contemporary English (LDOCE) (1), baza de date Celex, WordNet si Cambridge International Dictionary of English (CIDE) (2).
LDOCE | CELEX | WORDNET | CIDE | |
ORTOGRAFIE | ||||
Ortografie | 1 | 1 | 1 | 1 |
Variante ortografice | 1 | 1 | 1 | 1 |
Silabificare | 1 | 1 | 0 | 0 |
Scriere cu majuscule | 1 | 1 | 1 | 1 |
FONOLOGIE | ||||
Transcriere fonetica | 0 | 1 | 0 | 1 |
Marcarea accentului | 0 | 1 | 0 | 1 |
MORFOSINTAXA | ||||
Parte de vorbire | 1 | 1 | 1 | 1 |
Flexiune | 1 | 1 | 1 | 1 |
Conjugare | 1 | 1 | 1 | 1 |
Numarare | 1 | 1 | 0 | 1 |
Gradare (e.g. ocupat, mai ocupat) | 1 | 1 | 1 | 1 |
Tip (e.g. verb auxiliar) | 1 | 1 | 0 | 1 |
Gen | 1 | 1 | 0 | 1 |
MORFOLOGIE | ||||
Derivare/compunere | 0 | 1 | 0 | 0 |
Segmentare | 0 | 1 | 0 | 0 |
SINTAXA | ||||
Alternare | 1 | 1 | 1 | 1 |
Complementare | 1 | 1 | 1 | 1 |
Pozitionare (atributiv, predicativ) | 1 | 1 | 0 | 0 |
Analiza unitatilor cu mai multe cuvinte | 0 | 0 | 0 | 1 |
Restrictii colocationale | 0 | 0 | 0 | 1 |
SEMANTICA | ||||
Sensuri | 1 | 0 | 1 | 1 |
Clasificare ontologica | 1 | 0 | 1 | 1 |
Relatie semantica | 1 | 0 | 1 | 1 |
Definitie | 1 | 0 | 1 | 1 |
Preferinta | 1 | 0 | 1 | 1 |
Polisemie obisnuita | 0 | 0 | 1 | 0 |
Domeniu | 1 | 0 | 0 | 1 |
Idiom | 1 | 0 | 0 | 1 |
ALTELE | ||||
Note de folosire | 1 | 0 | 0 | 1 |
Exemple | 1 | 0 | 1 | 1 |
Traducere | 0 | 0 | 0 | 0 |
Frecventa | 0 | 1 | 0 | 0 |
Pentru a rafina comparatia, informatia de nivel inalt furnizata de acest sistem de clasificare poate fi extinsa prin alegerea unor niveluri din ce in ce mai rafinate ale descrierii lingvistice (de pilda prin incorporarea listelor ISLE complete). De exemplu, o subclasificare a unitatilor alcatuite din mai multe cuvinte poate fi furnizata pe baza partilor lor constituente (grupuri sintactice fixe, idiomuri, cuvinte compuse, constructii verbale suport etc.). Rafinarea maxima este obtinuta atunci cand informatia lingvistica a fost descompusa in unitatile de informatie de baza. Rezultatul este o structura foarte complexa de blocuri cu informatie lingvistica minimala, aflate intr-o stransa relatie de interdependenta si este exemplificat prin arhitectura GENELEX.
Un exemplu de diferente intre resurse si intre modurile in care ele isi gasesc locul in schema de clasificare a metadatelor il constituie codificarea complementarii verbale si a informatiei legate de preferinta in cadrul celor patru resurse mentionate anterior. Pentru acest tip particular de continut lingvistic urmatoarele informatii au fost gasite:
CELEX
complementare: multime de etichete exprimate prin valori booleene in cadrul coloanelor: e.g. tranzitiv:Da; ditranzitiv:Nu
nici o preferinta semantica
LDOCE
complementare: coduri reprezentand clase de verbe e.g. D1:ditranzitiv
preferinta: 34 de clase semantice pentru sloturi corespunzand lui subiect/obiect/obiect indirect e.g. lichid/miscator
WordNet
complementare si preferinta: scheme de suprafata 'Cineva Vs cineva ceva'
CIDE
complementare: coduri reprezentand clase verbale e.g. 'T':tranzitiv
preferinta: 40 de clase semantice pentru sloturi corespunzand lui subiect/obiect/obiect indirect e.g. 'uman'/'imbracaminte'
Figura de mai jos ilustreaza cazul verbului "fall" (a cadea).
Complementation and preference for the verb 'fall'
Legarea fragmentelor de descriere specifice anumitor resurse de un metamodel cat mai fin granulat va prezenta mai multe avantaje:
'I*' = 'I' = 'intranzitiv' = 'cineva Vs'
forma flexionara <derivat din> lema <sinonim> cuvant cap
<morfologic_compus_din> tema