Skip to content
GitLab
Projects Groups Snippets
  • /
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in
  • O Obeliks
  • Project information
    • Project information
    • Activity
    • Labels
    • Members
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 0
    • Issues 0
    • List
    • Boards
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • CI/CD
    • CI/CD
    • Pipelines
    • Jobs
    • Schedules
  • Deployments
    • Deployments
    • Environments
    • Releases
  • Monitor
    • Monitor
    • Incidents
  • Analytics
    • Analytics
    • Value stream
    • CI/CD
    • Repository
  • Wiki
    • Wiki
  • Snippets
    • Snippets
  • Activity
  • Graph
  • Create a new issue
  • Jobs
  • Commits
  • Issue Boards
Collapse sidebar
  • Miha
  • Obeliks
  • Issues
  • #2
Closed
Open
Issue created Mar 19, 2013 by Miha@mgrcarOwner

Pri lematizaciji bi morali večjo težo dati leksikonu in ugibati šele po tem

Živjo Matjaž in Miha,

pri delu z Gigafido zdaj malo bolje spoznavamo delovanje lematizatorja (in označevalnika) in imam eno vprašanje za vaju. Kot primer za razlago problema bom vzel priimek "Russell": ta priimek ljudje sklanjajo na različne načine. Po pravopisu se sklanja Russell, Russlla, Russllu itd., v Gigafidi pa najdemo tudi Russell, Russella, Russellu itd. Vprašanje pa je naslednje: zelo prav bi nam prišlo, če lematizator v primeru, da ima v leksikonu podatek o lastnem imenu – torej da so vse zgoraj naštete oblike, tako pravilne kot nepravilne, vsebovane v leksikonski enoti pod lemo "Russell" – enostavno pripisal lemo "Russell" in ne bi naprej ugibal. Zdaj namreč pri vseh oblikah, kjer e-ja ni, pripiše lemo "Russll". Pri lematizaciji bi torej morali večjo težo dati leksikonu in ugibati šele po tem, če leme ne najdemo, vendar to velja zgolj in samo za lastna imena (označena z oznako Sl.*), ki se kažejo kot daleč najbolj problematična kategorija.

LP Simon

Primer: Russlla že dolgo ni bilo na obisku.

			<s>
				<w msd="Slmer" lemma="Russll">Russlla</w>
				<S/>
				<w msd="L" lemma="že">že</w>
				<S/>
				<w msd="Rsn" lemma="dolgo">dolgo</w>
				<S/>
				<w msd="Gp-ste-d" lemma="biti">ni</w>
				<S/>
				<w msd="Gp-d-es" lemma="biti">bilo</w>
				<S/>
				<w msd="Dm" lemma="na">na</w>
				<S/>
				<w msd="Somem" lemma="obisk">obisku</w>
				<c>.</c>
				<S/>
			</s>
Assignee
Assign to
Time tracking