Resurse Lexicale
Wim Peters
NLP group
Department of Computer Science
University of Sheffield
w.peters@dcs.shef.ac.uk
Formatul de reprezentare a resurselor lingvistice
Exista modalitati variate in care datele lexicale si textuale pot fi adnotate si structurate, in functie de convingerile teoretice si de uneltele corespunzatoare. O enumerare a principalelor tipuri de structuri de date intalnite se gaseste in sectiunea 2.3. Standardele cele mai folosite in reprezentarea resurselor sunt SGML, XML si RDF, descrise pe scurt in sectiunea urmatoare.
2.1 SGML si XML
Aceste doua standarde sunt extrem de folosite in adnotarea structurii textelor. XML a inlocuit SGML, dar exista inca numeroase resurse disponibile in format SGML. Pentru cateva pagini de informare referitoare la SGML si XML, vezi nota de subsol (1). In 1994 initiativa TEI (de la "Text Encoding Initiative") (2) a publicat o serie de recomandari detaliate pentru codificarea si transcrierea multor tipuri de materiale scrise si vorbite, utilizand un cadru de lucru de tip SGML extins. Acest format a influentat proiectele referitoare la crearea lexiconului, cum ar fi PAROLE si SIMPLE, precum si definirea standardului EAGLES si a altor standarde similare (vezi sectiunea 3).
Urmatorul exemplu TEI provine din indrumarile corespunzatoare referitoare la codificarea dictionarelor tiparite (3) si ilustreaza un articol (intrare) de dictionar care furnizeaza informatii asupra catorva aspecte refe
<entry>
<form>
<orth>competitor</orth> ortografie
<hyph>com|peti|tor</hyph>
silabificare
<pron>k@m"petit@(r)</pron>
pronuntare
</form>
<gramGrp>
<pos>n</pos>
parte de vorbire
</gramGrp>
<def>person who competes.</def>
definitie
</entry>
Aceasta specificatie TEI pentru dictionare a fost adoptata si extinsa in cadrul proiectului CONCEDE ("Consortium for Central European Dictionary Encoding" - Consortiu pentru codificare central europeana a dictionarelor)(4).
2.2 RDF
Cadrul de lucru pentru descrierea resurselor - "The Resource Description Framework" (RDF)(5) este, asa cum indica si numele sau, un cadru de lucru pentru descrierea si interschimbarea metadatelor. El furnizeaza un model si o sintaxa pentru metadate, astfel incat parti independente sa le poata folosi si sa poata face schimb de metadate.
Miezul RDF-ului consta din noduri si perechi de atribute/valori atasate. Nodurile pot fi orice resurse de pe web (pagini, servere, in speta orice pentru care se poate furniza un URI, adica un identificator de resurse universal - Universal Resource Identifier) si chiar si alte exemple de metadate. Atributele sunt proprietati ale nodurilor care poarta un anumit nume, iar valorile lor sunt fie atomice (siruri de caractere, numere etc.) sau alte exemple de resurse ori metadate. Pe scurt, acest mecanism ne permite sa construim grafuri orientate etichetate care pot fi convertite in format XML. Pentru documentatie, vezi nota (6).
Un exemplu este oferit mai jos, exemplu in care atributul "creator" atasat resursei identificate in mod unic de catre URI are valoarea John Smith.
<RDF:RDF>
<RDF:Description RDF:HREF =
"http://URI-of-Document">
<DC:Creator>John Smith</DC:Creator>
</RDF:Description>
</RDF:RDF>
Diferite sisteme lingvistice de clasificare vor furniza pachete diferite de resurse/proprietati/ combinatii de valori. Aceste pachete sunt numite vocabulare. RDF in sine nu contine vocabulare predefinite pentru crearea metadatelor (vezi sectiunea 3).
2.3 Tipuri principale de structuri de date
Structuri de caracteristici cu tiO
structura de caracteristici se compune din perechi de atribute (numite
caracteristici) si valori ale lor, care pot fi, de asemenea, privite ca
functii partiale de la caracteristici la valori. Fiecare intrare lexicala
este organizata sub forma unei liste de caracteristici categorizate. Fiecare
lista consta dintr-un simbol de tip urmat de zero sau mai multe perechi de
tipul cuvant cheie - valoare. Fiecare valoare poate fi, la randul ei, un
atom, un sir de caractere, o lista de siruri, o lista de tipul
caracteristica-valoare, precum si o lista de liste de tipul
caracteristica-valoare. Pentru o introducere mai detaliata, trimitem
cititorul la Shieber(1986)(7). Un exemplu il constituie baza de date Comlex
Syntax (8):
(noun :orth
"assertion"
# orthography
:subc ((noun-that-s) (noun-be-that-s)))
# syntactic complementation
Formatul relational:
O baza de date relationala consta dintr-o multime de relatii intre
entitati. Fiecare rol in aceasta relatie poarta denumirea de atribut. Din
punct de vedere conceptual o relatie este un tabel ale carui coloane
corespund atributelor si in care fiecare linie, sau tuplu, specifica toate
valorile atributelor unei intrari date. Atributele au numai valori atomice,
adica valori care nu pot fi descompuse. Cu alte cuvinte, fiecare intersectie
rand-coloana contine o singura valoare.
Urmatorul exemplu, preluat din baza de date numita Celex Lexical Database
(9), arata structura morfologica a cuvantului "abbreviation"
(prescurtare). Identificatorul unic exprimat prin intermediul numarului
lemei (lemanr) furnizeaza cheia accesului la informatia ortografica,
sintactica si fonetica continuta in diferite tabele.
lemmano
|
lemma
|
morphstatus
|
Imm1
|
formation
|
26
|
abbreviation
|
C
|
abbreviate+ion
|
-e#
|
DEFINITION (Key: HW, PS, HN, SN)
HW
|
PS
|
HN
|
SN
|
DF
|
abandon
|
V
|
1
|
1
|
a parasi complet si pentru totdeauna |
abandon
|
V
|
1
|
1
|
a parasi |
abandon
|
V
|
1
|
2
|
a parasi (o relatie sau un prieten) intr-un mod nechibzuit sau crud |
abandon
|
V
|
1
|
3
|
a renunta, in special fara a termina |
abandon
|
V
|
1
|
4
|
a se dedica complet unui sentiment, unei dorinte etc. |
abandon
|
N
|
2
|
0
|
Oamenii erau atat de emotionati incat sareau si tipau cu abandon / intr-un abandon voios. |
'0' este folosit in cazul intrarilor care au un singur sens si care nu au o numerotare explicita in cadrul intrarii din dictionarul tiparit (vezi deasupra).
PRONUNCIATION (Key: HW, PS, HN)
HW
|
PS
|
HN
|
PR
|
abandon
|
V
|
1
|
/'b?nd n/
|
abandon
|
N
|
2
|
/'b?nd n/
|
EXAMPLE (Key: HW, PS, HN, SN)
HW
|
PS
|
HN
|
SN
|
EX
|
abandon
|
V
|
1
|
1
|
Marinarii au abandonat vaporul care ardea |
abandon
|
V
|
1
|
2
|
El si-a abandonat sotia si a plecat cu toti banii lor |
abandon
|
V
|
1
|
3
|
Cautarea a fost abandonata cand a venit noaptea, desi copilul nu fusese gasit |
abandon
|
V
|
1
|
4
|
El s-a abandonat suferintei |
abandon
|
N
|
2
|
0
|
starea in care sentimentele si actiunile cuiva sunt necontrolate |
abandon
|
N
|
2
|
0
|
eliberare de control |
CODE (Key: HW, PS, HN, SN)
HW
|
PS
|
HN
|
SN
|
GC
|
abandon
|
V
|
1
|
1
|
T1
|
abandon
|
V
|
1
|
2
|
T1
|
abandon
|
V
|
1
|
3
|
T1
|
abandon
|
V
|
1
|
4
|
T1
|
abandon
|
N
|
2
|
0
|
U
|
In ultimul tabel valoarea codului
gramatical este dependenta de primele patru coloane. Aceasta inseamna ca
codul gramatical se poate schimba de la un sens al cuvantului la altul, ceea
ce se intampla destul de des in dictionar.
Formatul specific resurselor
Aceasta clasa acopera structurile de date specifice resurselor sau
companiilor care sunt in general furnizate impreuna cu rutine de acces sau
interfete. Exemple sunt WordNet (10) care utilizeaza fisiere de date indexate
dupa offseturi, precum si EuroWordNet (11) care are propriul sau format de
import-export, ca in urmatorul exemplu:
Denumirile efective ale trasaturilor sau coloanelor (e.g."orth" in
Comlex) si natura valorilor asociate (e.g. "-e#" in Celex)
constituie vocabularul specific resurselor al metadescrierii lingvistice. In
plus, diferite resurse descriu acelasi tip de informatie lingvistica prin
intermediul unor termeni diferiti (e.g. "orth" vs "lemma")
sau separa spatiul conceptual in grupuri diferite, de granularitate diferita
(a se compara informatia privind subcategorizarea sintactica in Ldoce si
WordNet; vezi mai jos).