Pri lematizaciji bi morali večjo težo dati leksikonu in ugibati šele po tem
Živjo Matjaž in Miha,
pri delu z Gigafido zdaj malo bolje spoznavamo delovanje lematizatorja (in označevalnika) in imam eno vprašanje za vaju. Kot primer za razlago problema bom vzel priimek "Russell": ta priimek ljudje sklanjajo na različne načine. Po pravopisu se sklanja Russell, Russlla, Russllu itd., v Gigafidi pa najdemo tudi Russell, Russella, Russellu itd. Vprašanje pa je naslednje: zelo prav bi nam prišlo, če lematizator v primeru, da ima v leksikonu podatek o lastnem imenu – torej da so vse zgoraj naštete oblike, tako pravilne kot nepravilne, vsebovane v leksikonski enoti pod lemo "Russell" – enostavno pripisal lemo "Russell" in ne bi naprej ugibal. Zdaj namreč pri vseh oblikah, kjer e-ja ni, pripiše lemo "Russll". Pri lematizaciji bi torej morali večjo težo dati leksikonu in ugibati šele po tem, če leme ne najdemo, vendar to velja zgolj in samo za lastna imena (označena z oznako Sl.*), ki se kažejo kot daleč najbolj problematična kategorija.
LP Simon
Primer: Russlla že dolgo ni bilo na obisku.
<s>
<w msd="Slmer" lemma="Russll">Russlla</w>
<S/>
<w msd="L" lemma="že">že</w>
<S/>
<w msd="Rsn" lemma="dolgo">dolgo</w>
<S/>
<w msd="Gp-ste-d" lemma="biti">ni</w>
<S/>
<w msd="Gp-d-es" lemma="biti">bilo</w>
<S/>
<w msd="Dm" lemma="na">na</w>
<S/>
<w msd="Somem" lemma="obisk">obisku</w>
<c>.</c>
<S/>
</s>