Spis treści Artykuł originalny « Poprzedni artykul Nastepny artykul »

Słownik i glosariusz w tłumaczeniu maszynowym

Vortaro kaj glosaro en maŝina tradukado

Orignał w języku EsperantoMaszynowe tłumaczenie na język polski

Bona glosaro estas tre grava por bonkvalita maŝina tradukado. La aspekto de vortlistoj, kiuj estas uzataj en maŝina tradukado, havas aliajn necesojn ol vortaroj uzataj de homoj. Kutimaj vortaroj estas preparitaj por homoj, kiuj konas minimume bone unu lingvon. Tial unu lingvo en vortaro estas ofte nur skeme priskribita. Homoj uzas ofte laŭ bezono pliajn vortarojn por plenumigi ilian laboron, kaj povas ankaŭ uzi aliajn fontojn de lingva scio, ekzemple gramatikaj libroj. Homoj konas sufiĉe bone la lingvon por mem trovi la bazan formon de vorto kaj derivi bezonatan formon de vorto. Esceptoj estas priskribitaj kiel normala teksto aŭ kiel ekzemplo de uzado.

Kutimaj vortaroj de esperanto, kiujn oni povas trovi en reto, havas aspekton.

-ilo; ~zeug, Werkzeug
adjukti; (öffentlich) aufschreiben
administra; Verwaltungs~
~ad~ ;Nachsilbe für andauernde Handlung, z.B. "kuradi" = "Dauerlaufen"
rapida; schnell
fermi; schliessen
arbo; Baum

Oni povas bone rimarki, ke la listo enhavas ne nur normalajn vortajn parojn, sed ankaŭ priskriboj pri esperanta aŭ germana vortfarado aŭ eĉ gramatiko. La vortaro kondiĉas, ke la uzanto bone regas la germanan lingvon kaj konas ankaŭ la esperantan lingvon. Oni vane serĉas vortojn kiel: rapide, komputila, malfermi. La preparinto de vortaro supozas, ke la uzanto mem scias, kiel konstrui adverbon de adjektivo kaj ankaŭ bone konas la malan vorton al ‘fermi’ (malfermi = öffnen). Germano ankaŭ scias, ke la genro de vorto ‘Baum‘ estas vira (’der Baum‘) kaj ke pluralo estas ‘Bäume‘, li ankaŭ povas konstrui la akuzativon de ĝi ‘den Baum‘.

Sed por komputilo la nura scio pri lingvo devenas de algoritmoj de programo kaj de glosaro. Enmeti tiun scion en algoritmojn ne estas bona ideo, do tiu scio pri lingvo devas esti plejparte en glosaro.

Tial la glosaro por maŝina tradukado enhavas aliajn pluajn informojn kaj ĝia kovro devas esti pli granda.

Ekzemploj por pola aŭ germana lingvo

  • Por substantivoj oni bezonas genron.
  • Oni bezonas fleksian grupon aŭ listo de esceptoj por fleksio.
  • Pliaj gramatikaj priskriboj ekzemple: tipo de substantivo (abstrakta, gruponomo, nekalkulebla), ĉu verbo estas transitiva, aspekto de verbo.

Projekto de tiuj pliaj priskriboj estas tre malfacila laboro. Estas ankaŭ tre malfacile aŭtomate pliriĉigi la kutimajn vortlistojn je tiuj necesaj priskriboj. Ofte oni povas uzi statistikajn analizojn sur granda teksta korpuso por diveni la necesajn informojn. Aliokaze oni povas feliĉe trovi tiujn informojn de aliaj fontoj. Fine restas nur unu vojo, entajpi tiujn informojn mane.

Esperantilo enhavas redaktilon de vortaro, kiu facile ebligas redaktadon de glosaro. La redaktilo ankaŭ helpas korekte ekkoni kaj enmeti necesajn priskribojn.

Unu enskribo en glosaro enhavas sekvantajn kampojn:

  • traduko - unu esperanta vorta en baza formo
  • senco - la kampo estas ĝis nun ne uzata, sed povas enhavi priskriboj por multsencaj vortoj
  • fgrupo - fleksia grupo, tiu priskribo estas necesa pro fleksilo
  • gramatiko - tie oni enmetas pliaj informoj necesaj por tradukado

Precizaj informoj pri priskriboj oni trovu sur pagoj de esperantilo, ekzemple germana lingvo. En glosaro mi ankaŭ enmetis regulojn, kiuj estas necesaj por transformigo de prepozicioj kaj kazoj.

Asemblo de tiu glosaro estas peniga laboro, ĉar por bona kvalito, ĉiu de 50000 enskriboj devas esti kontrolitaj. Nun la programo funkcias ankaŭ, kiam la priskribojn mankas, en tiu kazo, la algoritmoj uzas la plej verŝajnan kombinon kaj tio ofte rezultigas per malalta kvalito de tradukita teksto.

Mi nun koncentriĝas pri programado de algoritmoj, ĉar nun nur mi tiun povas fari. La glosaron povas kompletigi la uzanto mem. La programo permesas eksportadon kaj importadon de glosaro, tiel la maŝina tradukado povas progresi eĉ sen mia partopreno.

Alia bona afero estas, ke la rezulta glosaro de tiu projekto povas esti libere uzata en aliaj projektoj laŭ la GPL Permisilo. Tiumaniere la sekvontaj projektoj povos komenci de fora punkto.

Dobry glosariusz jest bardzo ważny dla wysokojakościowego tłumaczenia maszynowego. Aspekt listy słów, które są użytkowane w maszynowym tłumaczeniu, ma inne konieczności aniżeli słowniki użytkowane przez ludzi. Zwyczajne słowniki są przygotowane dla ludzi, którzy znają minimalnie dobrze jeden język. Dlatego jeden język we słowniku jest często jedynie schematycznie opisany. Ludzie użytkują często według zapotrzebowanie dalsze słowniki aby dopełniać ich pracę, i mógą także użytkować inne źródła językowej wiedzy, na przykład gramatyczne książki. Ludzie znają nieźle język aby samą znaleźć kluczową kondycję słowa i wywodzić potrzebną kondycję słowa. Wyjątki są opisane jak normalny tekst albo jak przykład użycia.

Zwyczajne słowniki esperanto, które można znaleźć w sieci, mają aspekt.

-ilo; ~zeug, Werkzeug
adjukti; (öffentlich) aufschreiben
administra; Verwaltungs~
~ad~ ;Nachsilbe für andauernde Handlung, z.B. "kuradi" = "Dauerlaufen"
rapida; schnell
fermi; schliessen
arbo; Baum

Można dobrze zauważyć, że spis mieści nie jedynie normalne pary wyrazowe, lecz także opisy o esperanckim albo niemieckim słowotwórstwie albo nawet gramatyce. Słownik uzależnia, że użytkownik dobrze włada językiem niemieckim i zna także esperancki język. Na próżno szuka się słów jak: szybko, komputerowy, otworzyć. Wcześniej przygotowujący słownika przypuszcza, że użytkownik sam wie, jak budować przysłówek przymiotniku i także dobrze zna przeciwne słowo do ‘zamykać’ (otworzyć = {öffnen}). Niemiec także wie, że rodzaj słowa ‘Baum‘ jest męski (’{der} Baum‘) i, że liczba mnoga jest ‘Bäume‘, on także może budować jego ‘biernik {den}‘Baum.

Lecz dla komputera jedyna wiedza o języku pochodzi z algorytmów programu i glosariusza. Wstawiać tą wiedza do algorytmów nie jest dobry pomysł, więc ta wiedza o języku musi być przeważnie w glosariuszu.

Dlatego glosariusz dla tłumaczenia maszynowego mieści inne dodatkowe informacje i jego pokrycie musi być większe.

Przykłady dla polskiego albo niemieckiego języka

  • Dla rzeczowników potrzebuje się rodzaj.
  • Potrzebuje się fleksyjną grupę albo spis wyjątków dla fleksji.
  • Dalsze gramatyczne opisy na przykład: typ rzeczowniku (abstrakcyjny, nazwa grupy, nieobliczalny), czy czasownik jest przechodni, aspekt czasownika.

Projekt tych dalszych opisów jest bardzo trudną pracą. Jest także bardzo trudno automatycznie wzbogacać zwyczajne listy słów o tych koniecznych opisach. Często można użytkować statystyczne analizy na dużym korpusie tekstowym aby zgadywać konieczne informacje. W innej okazji można szczęśliwie znaleźć te informacje innych źródeł. W końcu zostaje jedynie jedna droga, {entajpi} te informacje ręcznie.

Esperantilo mieści edytora tekstu słownika, który lekko umożliwia edycję glosariusza. Edytor tekstu także pomaga poprawnie poznać i wstawiać konieczne opisy.

Jeden zapis w glosariuszu mieści następujące zakresy:

  • tłumaczenie - jeden esperancki wyrazowy w kluczowej kondycji
  • znaczenie - zakres jest do teraz nie użytkowany, lecz mógą mieścić opisy dla słów wieloznaczeniowych
  • {fgrupo} - fleksyjna grupa, ten opis jest konieczny z powodu {fleksilo}
  • gramatyka - tam wstawia się dalsze informacje konieczne dla tłumaczenia

Dokładne informacje o opisach powine znaleźć na wypłatach Esperantilo, na przykład niemiecki język. W glosariuszu także wstawiałem prawidła, które są konieczne dla transformacji przyimków i przypadków.

{Asemblo} tego glosariusza jest żmudną pracą, ponieważ dla dobrej jakości, każdy 50000 zapisów musi zostać sprawdzony. Teraz program funkcjonuje także, kiedy opisy brakują, w tym przypadku, algorytmy użytkują najprawdopodobniejsze zestawienie i to często rezultuje niską jakością przetłumaczonego tekstu.

Teraz koncentruję się o programowaniu algorytmów, ponieważ teraz jedynie ja tego mogę zrobić. Glosariusz może uzupełniać użytkownik sam. Program zezwala eksportowanie i importowanie glosariusza, tak tłumaczenie maszynowe może robić postępy nawet bez mojego wzięcia udziału.

Inna dobra sprawa jest, że glosariusz wynikowy tego projektu może być wolnie użytkowanym w innych projektach według GPL {Permisilo}. W tym sposobie następne projekty będą mogły zacząć od odległego punktu.

Artukuł został przetłumaczony w pełni maszynowo przez wolny program Esperantilo
Adres kontaktowy:
mail@xdobry.de