Resurse Lexicale
Wim Peters
NLP group
Department of Computer Science
University of Sheffield
w.peters@dcs.shef.ac.uk

Introducere

Formatul de reprezentare a resurselor lingvistice

Standardizarea descrierii lingvistice

Metadate pentru descrierea lexicala

Compararea resurselor utilizand metadatele

Formatul de reprezentare a resurselor lingvistice

 

Exista modalitati variate in care datele lexicale si textuale pot fi adnotate si structurate, in functie de convingerile teoretice si de uneltele corespunzatoare. O enumerare a principalelor tipuri de structuri de date intalnite se gaseste in sectiunea 2.3. Standardele cele mai folosite in reprezentarea resurselor sunt SGML, XML si RDF, descrise pe scurt in sectiunea urmatoare.

2.1 SGML si XML

Aceste doua standarde sunt extrem de folosite in adnotarea structurii textelor. XML a inlocuit SGML, dar exista inca numeroase resurse disponibile in format SGML. Pentru cateva pagini de informare referitoare la SGML si XML, vezi nota de subsol (1). In 1994 initiativa TEI (de la "Text Encoding Initiative") (2) a publicat o serie de recomandari detaliate pentru codificarea si transcrierea multor tipuri de materiale scrise si vorbite, utilizand un cadru de lucru de tip SGML extins. Acest format a influentat proiectele referitoare la crearea lexiconului, cum ar fi PAROLE si SIMPLE, precum si definirea standardului EAGLES si a altor standarde similare (vezi sectiunea 3).

Urmatorul exemplu TEI provine din indrumarile corespunzatoare referitoare la codificarea dictionarelor tiparite (3) si ilustreaza un articol (intrare) de dictionar care furnizeaza informatii asupra catorva aspecte refe

<entry>
   <form>
   <orth>competitor</orth>                      ortografie
   <hyph>com|peti|tor</hyph>                  silabificare
   <pron>k@m"petit@(r)</pron>             pronuntare
   </form>
   <gramGrp>
   <pos>n</pos>                                      parte de vorbire
   </gramGrp>
   <def>person who competes.</def>       definitie
</entry>

Aceasta specificatie TEI pentru dictionare a fost adoptata si extinsa in cadrul proiectului CONCEDE ("Consortium for Central European Dictionary Encoding" - Consortiu pentru codificare central europeana a dictionarelor)(4).

2.2 RDF

Cadrul de lucru pentru descrierea resurselor - "The Resource Description Framework" (RDF)(5) este, asa cum indica si numele sau, un cadru de lucru pentru descrierea si interschimbarea metadatelor. El furnizeaza un model si o sintaxa pentru metadate, astfel incat parti independente sa le poata folosi si sa poata face schimb de metadate.

Miezul RDF-ului consta din noduri si perechi de atribute/valori atasate. Nodurile pot fi orice resurse de pe web (pagini, servere, in speta orice pentru care se poate furniza un URI, adica un identificator de resurse universal - Universal Resource Identifier) si chiar si alte exemple de metadate. Atributele sunt proprietati ale nodurilor care poarta un anumit nume, iar valorile lor sunt fie atomice (siruri de caractere, numere etc.) sau alte exemple de resurse ori metadate. Pe scurt, acest mecanism ne permite sa construim grafuri orientate etichetate care pot fi convertite in format XML. Pentru documentatie, vezi nota (6).

Un exemplu este oferit mai jos, exemplu in care atributul "creator" atasat resursei identificate in mod unic de catre URI are valoarea John Smith.

<RDF:RDF>
    <RDF:Description RDF:HREF = "http://URI-of-Document">
    <DC:Creator>John Smith</DC:Creator>
    </RDF:Description>
</RDF:RDF>

Diferite sisteme lingvistice de clasificare vor furniza pachete diferite de resurse/proprietati/ combinatii de valori. Aceste pachete sunt numite vocabulare. RDF in sine nu contine vocabulare predefinite pentru crearea metadatelor (vezi sectiunea 3).

2.3 Tipuri principale de structuri de date

  1. Structuri de caracteristici cu tiO structura de caracteristici se compune din perechi de atribute (numite caracteristici) si valori ale lor, care pot fi, de asemenea, privite ca functii partiale de la caracteristici la valori. Fiecare intrare lexicala este organizata sub forma unei liste de caracteristici categorizate. Fiecare lista consta dintr-un simbol de tip urmat de zero sau mai multe perechi de tipul cuvant cheie - valoare. Fiecare valoare poate fi, la randul ei, un atom, un sir de caractere, o lista de siruri, o lista de tipul caracteristica-valoare, precum si o lista de liste de tipul caracteristica-valoare. Pentru o introducere mai detaliata, trimitem cititorul la Shieber(1986)(7). Un exemplu il constituie baza de date Comlex Syntax (8):

                     (noun        :orth   "assertion"                                             # orthography
                                      :subc  ((noun-that-s) (noun-be-that-s)))          # syntactic complementation

  2. Formatul relational:

    O baza de date relationala consta dintr-o multime de relatii intre entitati. Fiecare rol in aceasta relatie poarta denumirea de atribut. Din punct de vedere conceptual o relatie este un tabel ale carui coloane corespund atributelor si in care fiecare linie, sau tuplu, specifica toate valorile atributelor unei intrari date. Atributele au numai valori atomice, adica valori care nu pot fi descompuse. Cu alte cuvinte, fiecare intersectie rand-coloana contine o singura valoare.

    Urmatorul exemplu, preluat din baza de date numita Celex Lexical Database (9), arata structura morfologica a cuvantului "abbreviation" (prescurtare). Identificatorul unic exprimat prin intermediul numarului lemei (lemanr) furnizeaza cheia accesului la informatia ortografica, sintactica si fonetica continuta in diferite tabele.
    lemmano
    lemma
    morphstatus
    Imm1
    formation
    26
    abbreviation
    C
    abbreviate+ion
    -e#

    "morfostatut: C" inseamna ca lema este complexa din punct de vedere morfologic. "imm1" este una dintre analizele morfologice disponibile in Celex, in timp ce "formation" exprima regula pe baza careia a fost format acest substantiv deverbal, in cazul de fata prin stergerea lui -e final din radacina verbala.

    Urmatorul exemplu, preluat din LDOCE, arata o posibila conversie a unei intrari dintr-un dictionar scris ("abandon") la formatul relational.

    a-ban-don 1 /'b?nd n/ v [T1] 1 a parasi complet si pentru totdeauna; a abandona: Marinarii au abandonat vaporul care ardea. 2 a parasi (o relatie sau un prieten) intr-un mod nechibzuit sau crud: El si-a abandonat sotia si a plecat cu toti banii lor. 3 a renunta, in special fara a termina: Cautarea a fost abandonata cand a venit noaptea, desi copilul nu fusese gasit. 4 a se dedica complet unui sentiment, unei dorinte etc.: El s-a abandonat suferintei | comportament abandonat -- ~ment s [U].
    abandon 2 s [U] tstarea in care sentimentele si actiunile cuiva nu sunt controlate; eliberare de control: Oamenii erau atat de emotionati incat sareau si tipau cu abandon / intr-un abandon voios.

    Baza de date relationala derivata are patru tabele. Fiecare tabel exprima dependenta valorii (valorilor) uneia sau mai multor coloane de o multime de coloane cheie. Denumirile coloanelor sunt urmatoarele::

    HW = headword (cuvant cap)
    PS = part of speech (parte de vorbire)
    HN = homograph number (numar de omografe)
    SN = sense number (numarul sensului)
    DF = definition text (textul definitiei)
    EX = example (exemplu)
    GC = grammar code (cod gramatical)
    PR = pronunciation (pronuntie)

        DEFINITION (Key: HW, PS, HN, SN)

    HW
    PS
    HN
    SN
    DF
    abandon
    V
    1
    1
    a parasi complet si pentru totdeauna
    abandon
    V
    1
    1
    a parasi
    abandon
    V
    1
    2
    a parasi (o relatie sau un prieten) intr-un mod nechibzuit sau crud
    abandon
    V
    1
    3
    a renunta, in special fara a termina
    abandon
    V
    1
    4
    a se dedica complet unui sentiment, unei dorinte etc.
    abandon
    N
    2
    0
    Oamenii erau atat de emotionati incat sareau si tipau cu abandon / intr-un abandon voios.

    '0' este folosit in cazul intrarilor care au un singur sens si care nu au o numerotare explicita in cadrul intrarii din dictionarul tiparit (vezi deasupra).

       PRONUNCIATION (Key: HW, PS, HN)

    HW
    PS
    HN
    PR
    abandon
    V
    1
    /'b?nd n/
    abandon
    N
    2
    /'b?nd n/
     

        EXAMPLE (Key: HW, PS, HN, SN)

    HW
    PS
    HN
    SN
    EX
    abandon
    V
    1
    1
    Marinarii au abandonat vaporul care ardea
    abandon
    V
    1
    2
    El si-a abandonat sotia si a plecat cu toti banii lor
    abandon
    V
    1
    3
    Cautarea a fost abandonata cand a venit noaptea, desi copilul nu fusese gasit
    abandon
    V
    1
    4
    El s-a abandonat suferintei
    abandon
    N
    2
    0
    starea in care sentimentele si actiunile cuiva sunt necontrolate
    abandon
    N
    2
    0
    eliberare de control
     

        CODE (Key: HW, PS, HN, SN)

    HW
    PS
    HN
    SN
    GC
    abandon
    V
    1
    1
    T1
    abandon
    V
    1
    2
    T1
    abandon
    V
    1
    3
    T1
    abandon
    V
    1
    4
    T1
    abandon
    N
    2
    0
    U

    In ultimul tabel valoarea codului gramatical este dependenta de primele patru coloane. Aceasta inseamna ca codul gramatical se poate schimba de la un sens al cuvantului la altul, ceea ce se intampla destul de des in dictionar.

  3. Formatul specific resurselor

    Aceasta clasa acopera structurile de date specifice resurselor sau companiilor care sunt in general furnizate impreuna cu rutine de acces sau interfete. Exemple sunt WordNet (10) care utilizeaza fisiere de date indexate dupa offseturi, precum si EuroWordNet (11) care are propriul sau format de import-export, ca in urmatorul exemplu:

    Denumirile efective ale trasaturilor sau coloanelor (e.g."orth" in Comlex) si natura valorilor asociate (e.g. "-e#" in Celex) constituie vocabularul specific resurselor al metadescrierii lingvistice. In plus, diferite resurse descriu acelasi tip de informatie lingvistica prin intermediul unor termeni diferiti (e.g. "orth" vs "lemma") sau separa spatiul conceptual in grupuri diferite, de granularitate diferita (a se compara informatia privind subcategorizarea sintactica in Ldoce si WordNet; vezi mai jos).


  1. http://msdn.microsoft.com/library/default.asp?url=/library/en-us/xmlsdk30/htm/xmtutxmltutorial.asp
    http://www.projectcool.com/developer/xmlz/xmldtd/
    http://www.oasis-open.org/cover/xml.html
    http://www.oasis-open.org/cover/general.html
    http://www.w3.org/MarkUp/SGML/
  2. http://www.tei-c.org/
  3. http://www.tei-c.org/Guidelines/DI.htm
  4. http://www.itri.bton.ac.uk/projects/concede/
  5. http://www.w3.org/RDF/
  6. http://www710.univ-lyon1.fr/~champin/rdf-tutorial/rdf-tutorial.html
  7. Shieber, S.M. (1986), An introduction to Unification-based Approaches to Grammar, CSLI Lecture     Notes Series, Chicago: University of Chicago Press
  8. http://cs.nyu.edu/cs/faculty/grishman/comlex.html
  9. http://www.kun.nl/celex/
  10. http://www.cogsci.princeton.edu/~wn/
  11. http://www.hum.uva.nl/~ewn/