GenSynsets este un instrument conceput pentru a facilita dezvoltarea de WordNet-uri si pentru alte limbi in afara de limba engleza..  Acesta implementeaza algoritmii descrisi in articolul " Asupra generarii semiautomate a synset-urilor si cluster-elor de tip WordNet cu speciala referire la limba romana". GenSynsets poate fi folosit pentru orice limba pentru care exista dictionare bilingve in format electronic. Programul a fost testat pentru limba romana, iar rezultatul corespunzator (un fisier XML) poare fi consultat pe  Web.

Download GenSynsets

 

Instalare

GenSynsets este scris in limbajul de programare Java si ruleaza pe platforme Java 2.

Cerinte:

  1. Pentru a putea rula, GenSynsets are nevoie de mediul de executie Java 2. Deci  sistemul de operare al calculatorului pe care se doreste instalarea trebuie sa fie unul pentru care exista o implementare a lui Java 2 (Windows 95/98/ME/NT/000, majoritatea versiunilor de Unix, MacOS X).

  2. Sistemul pe care se va instala GenSynsets trebuie sa fie unul suficient de puternic (viteza procesor, memorie). In cazul unui PC sunt necesare minimum 133 MHz, 32M RAM.

Instalare:

  1. Instalati Java 2 pe sistemul dumneavoastra. Daca Java 2 este deja instalat, sariti peste acest pas. Pentru platformele Windows, Linux, Solaris, kiturile de instalare corespunzatoare se pot gasi la java.sun.com. Se poate instala intreg mediul de dezvoltare JDK sau doar mediul de executie JRE. Se recomanda folosirea versiunii 1.3 sau a uneia mai noi.

  2. Asigurati-va ca este pusa in PATH calea catre executabilul java. In Windows 95/98/NT aceasta se poate face punand in autoexec.bat o linie de forma: 

SET PATH=c:\cale; %PATH%

unde c:\cale se inlocuieste cu calea actuala catre directorul unde se afla executabilul java. Dupa aceasta operatie (si restartarea sistemului), ar trebui ca la comanda (indiferent de directorul din care este data aceasta):

java -version

raspunsul sistemului sa fie asemanator cu:

C:\>java -version
java version "1.3.0"
Java(TM) 2 Runtime Environment, Standard Edition (build 1.3.0-C)
Java HotSpot(TM) Client VM (build 1.3.0-C, mixed mode)

C:\>

  1. Desfaceti arhiva gensynsets.zip si plasati continutul acesteia oriunde doriti in structura de directoare.

Nota:  Instructiunile de mai sus s-au concentrat mai mult pe instalarea sub sistemul de operare Windows. Pentru a instala si rula GenSynsets pe orice sistem, in esenta, trebuie sa instalati mediul Java 2 pe acel sistem, sa desfaceti arhiva gensynsets.zip si apoi sa fiti capabili sa rulati clasa (Java) GenSynsets. 

Utilizare

GenSynsets este un utilitar conceput pentru a fi folosit din linia de comanda. Forma generala a liniei de comanda este:

java -classpath .;jwordnet.jar GenSynsets -pos noun|adj [-enrich] [-cs charset] [-l SynList] WnDictPath E_F F_E OutFile

unde:

Formatul fisierelor

dictionarele bilingve

eword fword1;fword2,fword3;fword4,fword5

In scopul de a distinge intre fword1,fword2, etc. sunt folositi doi separatori. Caracterul punct si virgula separa sensuri diferite ale unui cuvant dat (eword). Virgula separa diferitele sinonime referitoare la o anumita semnificatie a cuvantului (eword).

fword eword1;eword2,eword3;eword4,eword5

In scopul de a distinge intre eword1,eword2, etc. sunt folositi doi separatori. Caracterul punct si virgula separa sensuri diferite ale unui cuvant dat (fword). Virgula separa diferitele sinonime referitoare la o anumita semnificatie a cuvantului (fword).

fisierul de iesire

Iesirea este furnizata ca fisier in format XML. Astfel, fisierele XML produse de catre GenSynsets pot fi usor transformate, prin intermediul XSLT, in alte formate (XML, HTML, etc.) si pot fi utilizate de alte aplicatii. Structura fisierului este urmatoarea:

<FSynsetsDoc> <synset offset="offset"> <synset_en> <gloss> ... </gloss> <word> ... </word> . . . <word> ... </word> </synset_en> <e-sets> <e-set score="value"> <eword> ... </eword> <word> ... </word> . . . <word> ... </word> </e-set> . . . </e-sets> <fsynsets> <fsynset> <word> ... </word> . . . <word> ... </word> </fsynset> . . . </fsynsets> </synset> . . . </FSynsetsDoc>

unde:

Pentru mai multe detalii a se vedea fisierul DTD (fsynsets.dtd) pe care se bazeaza fisierul de iesire XML.