... | ... | @@ -3,3 +3,29 @@ O projektu Obeliks |
|
|
Dolgoročni cilj projekta Obeliks je izdelava in nadgrajevanje najbolj natančnega statističnega označevalnika za slovenski jezik. Oblikoskladenjsko označevanje je proces pripisovanja oblikoslovnih (in deloma skladenjskih) lastnosti besedam v poljubnem besedilu. Tako označeno besedilo je predpogoj za delovanje večine aplikacij, ki temeljijo na analizi naravnega jezika. Označevanje slovenskih besedil je zelo težak problem, saj mora algoritem za označevanje pravilno izbirati med skoraj dva tisoč oznakami (število različnih oznak za označevanje angleškega besedila je zgolj okoli šestdeset).
|
|
|
|
|
|
_The aim of the Obeliks project is to develop the most accurate statistical tagger for the Slovene language. Morphosyntactic tagging is the process of categorizing a word in a text into a particular part of speech category and describing it with various morphological features related to that category. This kind of markup is required by many applications involving natural language processing. The tagging of Slovene texts represents a major difficulty as the algorithm needs to choose from nearly 2,000 possible tags (as opposed to English where the number of tags is around 60)._
|
|
|
|
|
|
O tej spletni strani
|
|
|
==================
|
|
|
Na tej spletni strani se nahajajo navodila za uporabo oblikoslovnega označevalnika Obeliks iz ukazne vrstice. Označevalnik Obeliks je razdeljen na tri programe: LemmatizerTrain (program za izgradnjo lematizacijskega modela), PosTaggerTrain (program za izgradnjo modela za označevanje) in PosTaggerTag (program za označevanje besedil). Ti programi so bolj podrobno opisani v naslednjih razdelkih, kjer podajamo tudi primere uporabe in hitre povezave do datotek, ki so potrebne za delovanje programov in podanih primerov uporabe.
|
|
|
|
|
|
Program LemmatizerTrain
|
|
|
------------------
|
|
|
Program LemmatizerTrain iz označenega besedila v formatu XML-TEI zgradi model za lematizacijo besed (tj. za prevedbo besed v njihove osnovne oblike) in ga shrani v izhodno datoteko.
|
|
|
|
|
|
Navodila za uporabo programa LemmatizerTrain:
|
|
|
|
|
|
LemmatizerTrain [<nastavitve>] <korpus_xml> <model_bin>
|
|
|
|
|
|
<nastavitve>: Glej spodaj.
|
|
|
<korpus_xml>: Ucni korpus v formatu XML-TEI (vhod).
|
|
|
<model_bin>: Model za lematizacijo (izhod).
|
|
|
|
|
|
Nastavitve:
|
|
|
-v Izpisovanje na zaslon (verbose).
|
|
|
(privzeto: ni izpisovanja)
|
|
|
-t Upostevanje oblikoslovnih oznak.
|
|
|
(privzeto: oblikoslovne oznake niso upostevane)
|
|
|
-o Optimizacija lematizacijskega drevesa (oznake SSJ).
|
|
|
(privzeto: optimizacija se ne izvede)
|
|
|
-l:ime_datoteke Ucenje iz podanega leksikona.
|
|
|
(privzeto: ucenje brez leksikona) |
|
|
\ No newline at end of file |