Resurse Lexicale
Wim Peters
NLP group
Department of Computer Science
University of Sheffield
w.peters@dcs.shef.ac.uk
Metadate pentru descrierea lexicala
Informatiile pe care le contin categoriile lingvistice, precum si relatiile structurale ale acestora, pot fi cel mai bine descrise, din motive de generalitate si claritate conceptuala, prin intermediul unor metadate, i.e. informatii despre tipurile de informatii lingvistice disponibile. De fapt, toate informatiile continute in lexicoane si alte resurse inrudite reprezinta metadate, dar aceste resurse difera din punctul de vedere al terminologiei, al nivelului de granularitate al descrierii lingvistice si al formatului datelor (a se vedea sectiunea 2.3). Toate acestea sunt exemplificate prin eforturile de standardizare descrise anterior (e.g. termenul ptOfSpeechDCS este specific OLIF si poate contine diferite valori ale e.g. EAGLES) si prin comparatia intre resurse realizata in sectiunea 5. Metadate sunt propuse prin intermediul unor initiative ca OLIF si ISLE. Functia lor este de a descrie si de a accesa resursele intr-un mod standard. Consortiul ISLE (1) a emis o propunere (2) care imparte metadatele lexicale in doua mari grupuri: externe (informatii cu privire la lexicon ca un intreg) si interne (informatii privitoare la intrarea lexicala).
4.1 Metadate externe
Unitati de informatie externe descriu lexiconul ca pe un obiect si pot fi urmatoarele:
Name | O denumire scurta care identifica lexiconul | ||
Title | Un titlu mai elaborat al lexiconului | ||
Date | Data crearii si a principalelor modificari | ||
Version | Indicatie referitoare la versiune | ||
Creator | Persoana care a creat sau care este responsabila de crearea resursei | ||
Name | Numele creatorilor | ||
Contact | bloc de caracteristici legate de persoana de contact sau de organizatie (a se vedea mai jos) | ||
Description | O descriere adecvata asociata cu multimea de autori | ||
Project | Un bloc care descrie proiectul | ||
Name | Numele scurt al proiectului | ||
ID | Identificator unic de proiect | ||
Contact | Adresa de contact | ||
Description | Spatiu rezervat unei descrieri asociate proiectului | ||
LexiconType | Tip care urmeaza unei taxonomii (a se vedea lista din sectiunea 1) | ||
Object Languages | Un bloc de descriere a limbajelor incluse in lexicon | ||
Description | Spatiu rezervat unei descrieri | ||
MultilingualityType | diversele limbi pot interveni ca intrari multilingve in lexicul ML, dar pot, de asemenea, interveni ca traduceri ale unor descrieri de sensuri, spre exemplu; aceste diferente pot fi indicate cu ajutorul unui vocabular controlat | ||
Language | o lista a limbilor incluse, fiecare limba fiind descrisa in cadrul unei substructuri | ||
Format | o descriere bruta a formatului lexiconului, descriere reprezentata printr-un tabel relational, text simplu structurat, un format XML, un format html,... | ||
AccessTool | Multe lexicoane sunt interpretabile numai prin intermediul unor unelte de acces concrete, cum ar fi Shoebox, ORACLE, FoxPro, Access, Web-Browser,... | ||
Media | Aceasta intrare spune daca lexiconul include esantioane de tip audio sau video ori grafica | ||
Character Encoding | Aceasta lista ar trebui sa creeze o impresie referitoare la tipurile de fonturi necesare pentru redarea tuturor datelor inclusa, cum ar fi UTF-8, ISO-latin | ||
Size | Marimea lexiconului in bytes | ||
No Lexical Entries | Numarul intrarilor lexicale incluse in lexicon | ||
Access | Schema in care sunt oferite informatii referitoare la acces (vezi mai jos) | ||
Keys | O posibilitate de a adauga perechi de tipul caracteristica/valoare pentru a defini noi cuvinte cheie | ||
Source | Aceasta intrare descrie ce surse au fost folosite in constructia lexiconului | ||
References | Bloc pentru bibliografie | ||
Access | |||
ResourceLink | URL care tinteste spre resursa, daca aceasta este direct accesibila | ||
Availability | codificarea conditiilor de acces | ||
Description | Descriere de tip proza asociata cu accesul | ||
Date | data afirmatiilor referitoare la acces | ||
Owner | defineste proprietarul lexiconului | ||
Publisher | defineste pe cel care publica lexiconul | ||
Contact | Informatie referitoare la persoana de contact | ||
Contact | |||
Name | numele persoanei de contact | ||
Address | Informatii referitoare la adresa | ||
Adresa de posta electronica | |||
Organization | numele unei institutii | ||
Language | |||
Language ID | Specificator formal al limbii preluat din listele ISO sau SIL | ||
Name | Numele general al limbii | ||
Description | Aici poate fi asociata si o descriere a limbii |
4.2 Metadate interne
Acest tip de date furnizeaza informatii despre continutul lingvistic al lexiconului. Urmatoarele unitati lingvistice de descriere au fost remarcate in cadrul initiativei ISLE referitoare la metadatele lexicale. Lista care urmeaza nu este exhaustiva.
Modality | indica
ce mod de comunicare este captat in lexicon. Valorile posibile sunt: Spoken vorbit Written scris Sign semn |
Headword type | indicatie
referitoare la natura lingvistica a intrarii din lexicon. Valori
posibile sunt: Sentence propozitie Phrase grup sintactic Wordform forma flexionara Lemma lema - intrare corespunzatoare formei flexionare nemarcate (e.g. infinitivul verbelor ) Abstract Lemma lema abstracta - intrare care nu se supune nici unei forme flexionare apartinand grupului la care se refera lema. Stem tema sau tulpina cuvantului Affix afix |
Orthography | Ortografie
valorile posibile sunt: Hyphenated Spelling ortografiere cu cratima Syllabified Spelling scriere in silabe Spelling Variants variante ortografice cu sau fara cratima Citations citat, nota (in josul paginii) |
Morphology | Morfologie
valorile posibile sunt: Stem tema - tema de adancime sau de suprafata Stem Allomorphy alomorfia temei cuvantului (variatii la nivelul temei) Segmentation segmentare - analiza la nivelul constituentilor morfologici de tip afixe Production rules reguli de productie - administreaza producerea formelor de suprafata pe baza temelor Typology tipologie - orice clasificare a unor intrari sau a unor entitati morfologice |
Morphosyntax | Morfosintaxa
valorile posibile sunt: Part of Speech Parte de vorbire - clasa sintactica a intrarii. Inflection Flexiune - orice informatie legata de flexiune sau de conjugare Countability Numarare - proprietati legate de formele de plural Gradability Gradare - constructii adjectivale comparative/superlative Gender Gen - e.g. neutru Typology Tipologie - Orice clasificare a intrarilor |
Syntax | Sintaxa
valorile posibile sunt: Complementation Complementare - Complementare sintactica Alternation Alternare - scheme de complementare alternative Modification Modificare - scheme de modificare adjectivala Shallow Parsing Analiza sintactica de suprafata - segmentare in bucati (mari) Deep Parsing Analiza sintactica in adancime - analiza granulata dincolo de nivelul obtinut in shallow parsing Functional Parsing Analiza sintactica functionala - functii sintactice cum ar fi aceea de subiect Collocations Colocatii - intrari/forme flexionare semnificative juxtapuse Typology Tipologie - Orice clasificare |
Phonology | Fonologie
valorile posibile sunt: Transcription Transcriere - orice tip de transcriere fonetica/fonologica IPA Transcription Transcriere IPA - transcriere in Alfabetul Fonetic International (International Phonetic Alphabet) CV pattern Schema CV - transcriere in termeni de combinatii consonantice/vocalice Constituent Structure segmentare in constituenti fonetici Intonation Intonatie - marcarea accentului, lungimea constituentilor etc. |
Semantics | Semantica
valorile posibile sunt: Sense distinction Distinctie intre sensuri - polisemie si/sau omonimie Ontological classification Clasificare ontologica - concepte inrudite si relatii conceptuale Gloss Glosa - descriere neformala in limbaj natural a sensului Definition Definitie - descriere formala a sensului folosind, de pilda, logica de ordinul intai Connotation Conotatie - informatie non-denotationala, cum ar fi peiorativele Idiom Folosire idiosincratica a idiomurilor Componential Features Trasaturi de componenta - formula sau lista continand o multime finita de atribute de sens Cross-references Referinte incrucisate - legaturi la alte intrari/forme flexionare Semantic relations Relatii semantice - relatii intre intrari sau concepte asociate |
Etymology | Etimologie
- informatie despre contextul istoric (morfologic, fonologic, sintactic,
semantic) al unei intrari lexicale sau forme flexionare. |
Usage | Folosire
- Informatie pragmatica/sociolingvistica; valorile posibile sunt: Region Regional e.g. dialect Style Stil e.g. slang |
Frequency | Frecventa - frecventa a ocurentei, calculata pe baza unui corpus |
O alta initiativa paralela in cadrul ISLE, Grupul de lucru pentru lexicoane multilingve EAGLE/ISLE, isi propune standardizarea intrarilor lexicale multilingve. In acest scop a fost creata o lista de verificare, care se suprapune in mare masura peste multimea de metadate anterioara, dar care in multe cazuri prezinta o acoperire de mai mare granularitate sau rafinare. Iata o scurta explicatie a abrevierilor folosite: SL=limba sursa ("source language"); TL=limba tinta ("target language"); IPA=Alfabet fonetic international ("International Phonetic Alphabet")(3).
|
Componenta de intrare
|
Continutul informatiei
|
Mod
|
Functie
|
|
1 | cuvant cap | Forma (formele) lexicale ale cuvantului cap: cum se ortografiaza cuvantul cap | SL | Ajuta utilizatorii atat de SL, cat si de TL, sa gaseasca informatia pe care o cauta | |
2 | Transcriere fonetica | Modul in care se pronunta cuvantul cap (sau varianta) in Alfabetul fonetic international | IPA | Ajuta utilizatorul sa pronunte corect cuvantul | |
3 | Forma varianta | Ortografiere alternativa a cuvantului cap sau mica variatie in forma acestui cuvant | SL | Ajuta ambele tipuri de utilizatori sa gaseasca informatia pe care o cauta | |
4 | Forma flexionara | Alte forme gramaticale ale lemei (cuvant cap) | SL | Ajuta utilizatorul sa gaseasca informatia pe care o cauta; ajuta utilizatorul sa foloseasca in mod corect cuvantul | |
5 | Referinta incrucisata | Indicatie asupra unui alt cuvant cap corespunzator caruia intrarea contine informatie relevanta sau asupra altei parti din dictionar unde poate fi gasit | cod | Ajuta ambele tipuri de utilizatori Ajuta ambele tipuri de utilizatori cauta sau alte informatii utile | |
6 | Informatie morfosintactica | ||||
a | marcaj pentru partea de vorbire | Partea de vorbire a cuvantului cap (sau a cuvantului cap secundar) | cod | Ajuta ambele tipuri de utilizatori sa gaseasca informatia pe care o cauta, prin centrarea cautarii | |
b | clasa flexionara | Paradigma inflexionala a intrarii | cod | Ajuta
utilizatorul SL sa foloseasca corect obiectul TL; ajuta utilizatorul TL
sa dezambiguizeze cuvantul TL; ajuta utilizatorul TL sa foloseasca corect obiectul SL; ajuta utilizatorul SL sa dezambiguizeze cuvantul SL |
|
c | derivare | Informatie incrucisata referitoare la partea de vorbire, forme derivate morfologic | SL | Ajuta
utilizatorul SL in identificarea sensului cuvantului cap sau al unui alt
obiect SL; ajuta utilizatorul TL sa identifice sensul unui echivalent TL |
|
d | gen | Informatie despre genul intrarii in SL si TL | cod | Ajuta
utilizatorul SL sa identifice sensul cuvantului cap sau al unui alt
obiect SL; ajuta utilizatorul TL sa identifice sensul unui echivalent TL |
|
e | numar | Informatie asupra numarului gramatical al intrarii in SL si in TL | cod | Ajuta
utilizatorul SL sa identifice sensul cuvantului cap sau al unui alt
obiect SL; ajuta utilizatorul TL sa identifice sensul unui echivalent TL |
|
f | Mass vs. Count | Information whether the a noun is mass or count, in SL and TL | cod | Ajuta
utilizatorul SL sa identifice sensul cuvantului cap sau al unui alt
obiect SL; ajuta utilizatorul TL sa identifice sensul unui echivalent TL |
|
g | gradare | Pentru adverbe si adjective | cod | Ajuta utilizatorul SL sa foloseasca corect obiectul TL; ajuta utilizatorul TL sa dezambiguizeze cuvantul TL | |
7 | Contor al subdiviziunii | Indica inceputul unei noi sectiuni sau subsectiuni | nr. / lit. | Indicator care ajuta utilizatorul sa se descurce in mod eficient cu referire la intrarea respectiva | |
8 | Subdiviziune a intrarii | Sectiune ori subsectiune separata in cadrul intrarii (adesea numita sens din dictionar) | text din dict. | "sparge" intrarea, facilitand citirea si gasirea a ceea ce se cauta | |
9 | Indicator de sens | Sinonim sau parafraza a Sinonim sau parafraza a corespunzator acestui sens sau un alt indiciu asupra sensului, care denota un sens specific al obiectului SL sau TL | SL | Ajuta
utilizatorul SL sa identifice sensul cuvantului cap sau al unui alt
obiect SL; ajuta utilizatorul TL sa identifice sensul unui echivalent TL |
|
10 | Eticheta lingvistica | the style, register, regional variety, etc. of the SL or TL item | cod | Ajuta
utilizatorul SL sa identifice sensul cuvantului cap; ajuta ambii
utilizatori sa traduca; ajuta utilizatorul TL sa inteleaga |
|
11 | Informatie sintactica | ||||
a | Cadru de subcategorizare | (i) Numar si tipuri de complemente (ii) introducator sintactic al unui complement (e.g. prepozitie) (iii) tipul reprezentarii sintactice (e.g. constituenti, functional etc.)etc. | cod | Ajuta
utilizatorul SL sa identifice sensul cuvantului cap sau al unui alt
obiect SL; ajuta utilizatorul TL sa identifice sensul unui echivalent TL |
|
b | Obligativitatea complementelor | Informatie care spune daca un anumit complement este obligatoriu sau nu | cod | Ajuta
utilizatorul SL sa identifice sensul cuvantului cap sau al unui alt
obiect SL; ajuta utilizatorul TL sa identifice sensul unui echivalent TL |
|
c | Auxiliar | Ce tip de auxiliar este selectat de un predicat dat | cod | Actioneaza ca un indicator al sensului; ajuta utilizatorul SL sa aleaga echivalentul TL adecvat | |
d | Constructii usoare sau de tip suport | Constructii cu verbe usoare | SL sau TL | Ajuta
utilizatorul SL sa identifice sensul cuvantului cap sau al unui alt
obiect SL; ajuta utilizatorul TL sa identifice sensul unui echivalent TL |
|
e | Constructii perifrastice | Constructii continand perifraze, valoare semantica etc. | SL sau TL | Ajuta
utilizatorul SL sa identifice sensul cuvantului cap sau al unui alt
obiect SL; ajuta utilizatorul TL sa identifice sensul unui echivalent TL |
|
f | Verbe de tip "phrasal" | Reprezentari Reprezentari constructii de tip locutiune | SL sau TL | Ajuta
utilizatorul SL sa identifice sensul cuvantului cap sau al unui alt
obiect SL; ajuta utilizatorul TL sa identifice sensul unui echivalent TL |
|
g | Collocator | (i) subiect/obiect tipic al verbului, substantiv modificat de un adjectiv etc. (ii) tipul relatiei de colocatie etc. | SL sau TL | Actioneaza ca un indicator de sens; ajuta utilizatorul SL sa aleaga echivalentul TL adecvat; ajuta utilizatorul TL sa traduca sau sa inteleaga obiectul SL | |
h | Alternatii | Alternatii sintactice pe care le poate avea o intrare | Cod | Actioneaza ca indicator de sens | |
12 | Informatie semantica | ||||
a | Tipul semantic | Referinta la o ontologie de tipuri care sunt folosite pentru a clasifica sensuri ale cuvintelor | Cod | Ajuta
utilizatorul SL sa identifice sensul cuvantului cap sau al unui alt
obiect SL; ajuta utilizatorul TL sa identifice sensul unui echivalent TL |
|
b | Structura argumentelor | Cadre ale argumentelor plus informatie semantica care identifica tipul argumentelor, constrangerile selectionale etc. | Cod | Ajuta
utilizatorul SL sa identifice sensul cuvantului cap sau al unui alt
obiect SL; ajuta utilizatorul TL sa identifice sensul unui echivalent TL |
|
c | Relatii semantice | Diferite tipuri de relatii (e.g. sinonimie, antonimie, meronimie, hiperonimie, roluri Qualia etc.) intre sensuri ale cuvintelor etc. | Cod | Actioneaza
ca un indicator SL de sens pentru utilizatorul SL; actioneaza ca un indicator TL de sens pentru utilizatorul TL |
|
d | Polisemie obisnuita | Reprezentarea alternantelor polisemice obisnuite | Cod | Ajuta
utilizatorul SL sa identifice sensul cuvantului cap sau al unui alt
obiect SL; ajuta utilizatorul TL sa identifice sensul unui echivalent TL |
|
e | Domeniu | Informatie privind domeniul terminologic caruia ii apartine un sens dat | Cod | Ajuta
utilizatorul SL sa identifice sensul cuvantului cap sau al unui alt
obiect SL; ajuta utilizatorul TL sa identifice sensul unui echivalent TL |
|
f | Descompunere | Reprezentarea componentei relevante a sensului, e.g. cauzalitate, agentivitate, miscare etc. | Cod | Actioneaza
ca un indicator SL de sens pentru utilizatorul SL; actioneaza ca un indicator TL de sens pentru utilizatorul TL |
|
13 | Traducere | Echivalentul TL al unui obiect SL | TL | Ajuta
utilizatorul TL sa inteleaga; ajuta ambii utilizatori sa traduca |
|
14 | Glosa | Explicatie TL a sensului unui obiect SL care nu are un echivalent direct in TL | TL | Ajuta
utilizatorul TL sa inteleaga; ajuta ambii utilizatori sa traduca |
|
15 | Echivalent apropiat | Obiect TL corespunzand unui obiect SL care nu are un echivalent direct in TL | TL | Ajuta
utilizatorul TL sa inteleaga; ajuta ambii utilizatori sa traduca |
|
16 | Grup sintactic dat ca exemplu (direct) | Un grup sintactic sau o propozitie ilustrand folosirea neidiomatica a cuvantului cap, intr-un context in care echivalentul TL este o traducere mot-a-mot | SL | Actioneaza ca un indicator SL de sens pentru utilizatorul SL; actioneaza ca un indicator TL de sens pentru utilizatorul TL; ajuta utilizatorii TS & SL sa foloseasca corect obiectul dintr-o limba straina | |
17 | Grup sintactic dat ca exemplu (problematic) | Un grup sintactic sau o propozitie ilustrand folosirea neidiomatica a cuvantului cap, intr-un context in care este cerut un anumit echivalent TL (i.e. un exemplu SL care este usor de inteles de catre vorbitorul TL, dar genereaza probleme de traducere pentru vorbitorul SL) | SL | Ajuta utilizatorul SL sa evite o greseala de traducere; actioneaza ca un indicator SL de sens pentru utilizatorul SL; ajuta ulterior utilizatorul TL sa foloseasca corect obiectul SL | |
18 | Unitate frazeologica | Unitate frazeologica idiomatica care contine cuvantul cap (in engleza desemnat prin MWE, termen care acopera expresii, colocatii fixe si semi fixe, compuse etc.) | SL | Ajuta ambii utilizatori sa traduca | |
19 | Cuvant cap secundar | Lema legata morfologic de cuvantul cap, care figureaza ca si cap al unei intrari secundare | SL | Economiseste spatiu; ajuta ambele tipuri de utilizatori sa gaseasca informatia pe care o cauta | |
20 | Nota referitoare la utilizare | Indica felul in care este folosit cuvantul cap; informatie de tip "macro" care nu poate sa apara in cazul fiecarei intrari; avertisment cu privire la diferentele culturale dintre cele doua limbi etc. | SL sau TL | Ajuta ambele tipuri de utilizator sa evite neintelegerile cu privire la obiectul intr-o limba straina, pe baza cunostintelor din propria limba | |
21 | Frecventa | Informatie privitoare la frecventa intrarii | cod | Ajuta ambii utilizatori sa traduca |