*[LemmatizerModel.bin](http://sourceforge.net/projects/obeliks/files/Resources/LemmatizerModel.bin.zip/download)(izhodna datoteka; model za lematizacijo)
Program PosTaggerTrain
------------------
Program PosTaggerTrain iz označenega besedila v formatu XML-TEI zgradi model za označevanje besedila in ga shrani v izhodno datoteko.
*[TaggerModel.bin](http://sourceforge.net/projects/obeliks/files/Resources/TaggerModel.bin.zip/download)(izhodna datoteka; model za označevanje)
Program PosTaggerTag
------------------
Program PosTaggerTag omogoča oblikoslovno označevanje besedila. Za svoje delovanje potrebuje vhodno besedilo bodisi v tekstovnem formatu bodisi v formatu XML-TEI in model za označevanje, zgrajen s programom PosTaggerTrain. Na podlagi teh datotek PosTaggerTag tvori datoteko z označenim besedilom v formatu XML-TEI. Možno je podati tudi datoteko z modelom za lematizacijo, zgrajenim s programom LemmatizerTrain. V tem primeru izhodna datoteka vsebuje tudi besede v osnovnih oblikah.
Zapisujem oznaceno besedilo v datoteko ClanekDelo11maj2012.xml ...
Koncano.
### Datoteke za prenos ###
*[PosTaggerTag.exe in pripadajoče datoteke](http://sourceforge.net/projects/obeliks/files/ObeliksReleases/ObeliksMay2012.zip/download)(program)
*[ssj500kv1_0-fold-01-train_2012_lem.bin, ssj500kv1_0-fold-01-train_2012.bin, ssj500kv1_0-fold-01-validate_2012.xml, ssj500kv1_0-fold-01-validate_2012_tagged.xml](http://sourceforge.net/projects/obeliks/files/Resources/ValidationResourcesFold1.zip/download)(model za lematizacijo, model za označevanje, vhodna in izhodna datoteka; prvi primer uporabe)
*[LemmatizerModel.bin](http://sourceforge.net/projects/obeliks/files/Resources/LemmatizerModel.bin.zip/download)(vhodna datoteka; model za lematizacijo; drugi primer uporabe)
*[TaggerModel.bin](http://sourceforge.net/projects/obeliks/files/Resources/TaggerModel.bin.zip/download)(vhodna datoteka; model za označevanje; drugi primer uporabe)
*[ClanekDelo11maj2012.txt, ClanekDelo11maj2012.xml](http://sourceforge.net/projects/obeliks/files/Resources/ClanekDelo11maj2012.zip/download)(vhodna in izhodna datoteka; drugi primer uporabe)
Opomba
------------------
Vsi opisani programi so izdelani v razvojnem okolju Microsoft Visual Studio 2008. Za svoje delovanje zato potrebujejo zagonsko okolje .NET Framework 2.0. Če slednjega še nimate nastanjenega na računalniku, si ga prenesite s spleta ([povezava do 32-bitne različice](http://www.microsoft.com/downloads/details.aspx?familyid=0856eacb-4362-4b0d-8edd-aab15c5e04f5&displaylang=en), [povezava do 64-bitne različice](http://www.microsoft.com/downloads/details.aspx?FamilyID=B44A0000-ACF8-4FA1-AFFB-40E78D788B00&displaylang=en)), zaženite nastanitveni program (tj. dotnetfx.exe) in sledite navodilom za nastanitev.
Zadnja inačica in izvorna koda
------------------
Zadnja (delovna) inačica izvorne kode je na voljo v naših GIT-repozitorijih:
* Označevalnik se nahaja v repozitoriju http://source.ijs.si/mgrcar/obeliks.git
* LATINO, knjižnica, ki je potrebna za delovanje označevalnika, se nahaja v repozitoriju http://source.ijs.si/mgrcar/latino.git
Za vse, ki za dostop do kode ne želijo uporabljati orodja GIT, je posnetek izvorne kode na voljo v mapi [SourceCode](http://sourceforge.net/projects/obeliks/files/SourceCode). Zadnji posnetek, ki smo ga naredili, je na voljo [tukaj](http://sourceforge.net/projects/obeliks/files/SourceCode/ObeliksSrcMar2013.zip/download). Posnetek vsebuje inačico izvorne kode, pri kateri smo poskrbeli, da se prevede in da deluje. Pripadajoče zagonske datoteke za operacijski sistem Windows dobite [tukaj](http://sourceforge.net/projects/obeliks/files/ObeliksReleases/ObeliksMar2013.zip/download).
Skupaj z logiko označevalnika se spreminjata tudi format in vsebina modelov. Modeli, ki so združljivi z zadnjo inačico označevalnika, se nahajajo [tukaj](http://sourceforge.net/projects/obeliks/files/Resources/ModelsMar2013.zip/download).
Zasluge
------------------
Oblikoslovni označevalnik, dostopen na tej spletni strani, so v programskem jeziku C# implementirali Miha Grčar, Matjaž Juršič in Jan Rupnik pod vsebinskim vodstvom Simona Kreka. Segmentacijska, tokenizacijska in lematizacijska pravila, vključena v označevalnik, so izdelali Simon Krek, Kaja Dobrovoljc in Miha Grčar.
Lematizator, uporabljen v označevalniku, je zasnoval Matjaž Juršič v okviru svojega diplomskega dela pod mentorstvom Igorja Mozetiča. Več informacij o lematizatorju lahko dobite na spletni strani <http://lemmatise.ijs.si/Software/>.
Učni korpusi, uporabljeni pri učenju označevalnika in lematizatorja, so bili izdelani v okviru projektov Jezikoslovno označevanje slovenskega jezika (JOS) in Sporazumevanje v slovenskem jeziku (SSJ). Informacije o projektu JOS in pripadajočih korpusih so na spletni strani <http://nl.ijs.si/jos/>. Informacije o učnem korpusu, izdelanem v okviru projekta SSJ, so na spletni strani <http://www.slovenščina.eu/Vsebine/Sl/Kazalniki/K10.aspx>.
Leksikon, uporabljen pri učenju označevalnika in lematizatorja, je bil izdelan v okviru projekta Sporazumevanje v slovenskem jeziku. Več informacij o leksikonu lahko dobite na spletni strani <http://www.slovenščina.eu/Vsebine/Sl/Kazalniki/K12.aspx>.
Oblikoslovni označevalnik je bil izdelan v okviru projekta Sporazumevanje v slovenskem jeziku. Več informacij o projektu lahko dobite na spletni strani <http://www.slovenščina.eu/>.
Operacijo delno financira Evropska unija iz [Evropskega socialnega sklada](http://euskladi.si/) ter [Ministrstvo za izobraževanje, znanost, kulturo in šport](http://mss.gov.si/). Operacija se izvaja v okviru Operativnega programa razvoja človeških virov za obdobje 2007–2013, razvojne prioritete: razvoj človeških virov in vseživljenjskega učenja; prednostne usmeritve: izboljšanje kakovosti in učinkovitosti sistemov izobraževanja in usposabljanja 2007–2013.
* Giménez, J., Màrquez, L. (2004): SVMTool: A General POS Tagger Generator Based on Support Vector Machines. Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC’04), Lisbon. ([pdf](http://www.lsi.upc.es/~nlp/SVMTool/lrec2004-gm.pdf))
* Juršič, M., Mozetič, I., Lavrač, N. (2007): Learning Ripple Down Rules for Efficient Lemmatization. Proceedings of the 10th International Multiconference Information Society, IS 2007, str. 206–209, Ljubljana. ([pdf](http://kt.ijs.si/software/LemmaGen/v2/doc/LemmaGen.pdf))
* Nigam, K., Lafferty, J., McCallum, A. (1999): Using Maximum Entropy for Text Classification. Proceedings of IJCAI-99 Workshop on Machine Learning for Information Filtering, str. 61–67.
* Erjavec, T., Krek, S. (2008): Oblikoskladenjske specifikacije in označeni korpusi JOS. Zbornik Šeste konference Jezikovne tehnologije, Ljubljana. ([pdf](http://nl.ijs.si/jos/bib/jos_isltc08.pdf))
* Erjavec, T., Krek, S. (2008): The JOS Morphosyntactically Tagged Corpus of Slovene. Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC’08), Marrakech. ([pdf](http://nl.ijs.si/jos/bib/jos_lrec08.pdf))
Drugo gradivo
------------------
*[Miha Grčar: Oblikoskladenjski označevalnik SSJ](http://videolectures.net/korpusi2010_grcar_oos/), predstavitev na konferenci [Korpusi, več kot le statistika](http://www.slovenščina.eu/vsebine/Sl/Dogodki/Korpusi/Program.aspx)(Fakulteta za družbene vede, Ljubljana, 5. februar 2010)