Spis treści Artykuł originalny « Poprzedni artykul Nastepny artykul »

Zdatność Esperanto jak lingua franca w tłumaczeniu maszynowym

Taŭgeco de Esperanto kiel interlingvo en maŝina tradukado

Orignał w języku EsperantoMaszynowe tłumaczenie na język polski

Ofte Esperanto estas proponita, kiel tiel nomata interlingvo por maŝina tradukado. DLT estas projekto, kiu reale tion provis. Ĝis nun neniu projekto rezultigis uzeblan sistemon.

Esperantistoj ofte mem sugestas la uzadon de Esperanto por tiuj kialoj. Mi devas konstati, ke kvankam ideo de interlingvo estas tre avantaĝa, Esperanto vere ne taŭgas por tiu tasko. Esperanto estas kreita kiel facile lernebla (por eŭropanoj) lingvo por internacia komunikado inter homoj. Tial Esperanto havas kelkajn specialajn trajtojn por atingi tiun celon.
Plej grava trajto estis granda lernebleco. Tiujn celojn Esperanto atingas per senescepta gramatiko kaj potenca vortfarado.
Esperanto estas kreita laŭ praktikaj bezonoj kaj spertoj kun multaj naturaj lingvoj. En Esperanto oni trovas vortojn de naciaj lingvoj kaj ankaŭ gramatikajn regulojn, kiuj funkcias en naciaj lingvoj. La kreito (aŭ kreintoj) de Esperanto neniam pensis pri maŝina tradukado kaj komputila lingvistiko, ĉar tiam tiuj temoj ne ekzistis.

La plej granda problemo ĉe komputila prilaboro de naturaj lingvoj estas multnivela multsenco de natura lingvo.
Oni ofte priskribas tri nivelojn.

  1. leksikona nivelo - sinonimoj. Ekzemple vorto: observi
  2. sintaksa nivelo - multaj eblaj kaj korektaj sintaksaj interpretadoj. Ekzemple frazo: Ŝi ricevis florojn de sia patro.
  3. pragmatika nivelo - kion celas la lingva esprimo.

Maŝina tradukado ĝis nun praktike pritraktas nur du nivelojn. Ŝajne la kreinto de Esperanto volis malaltigi unuflanke la multsencojn ĉe leksikona nivelo, sed aliflanke la sintaksa multsenco estas alta, ĉar tio ebligis facilan gramatikon.

La perfekta interlingvo por kialoj de maŝina tradukado devas ne havi mulsencojn. Ĝi devas havi la saman kapablon konservi informojn kiel ĉiuj lingvoj, ĉar oni volas eviti informoperdon ĉe tradukado jam pro maltaŭga interlingvo.

Mi volas prezenti kelkajn ekzemplojn

Leksikona multsenco

Ŝi observis birdojn. (pole: Ona obserwuje ptaki)
Li ne observis la leĝon. (pole: On nie przestrzegał prawa)

Vorto ‘observi’ havas 3 sencojn. Malfeliĉe en pola lingvo oni devas uzi por 2 sencoj tute aliajn tradukojn.

Sintaksa multsenco

Ŝi ricevis florojn de sia patro. (pole: Ona otrzymała kwiaty ojca, aŭ Ona otrzymała kwiaty od ojca)

Oni ne povas en Esperanto tute klare difini, kiel oni devas interpreti la frazon.
Ŝi ricevis florojn [de sia patro]. aŭ Ŝi ricevis [florojn [de sia patro]].

Perdo de informoj

La informo-enhavo de gramatikaj strukturoj estas por naciaj lingvoj tre diferencaj. Tio malfaciligas la tradukadon.

Mi legis la libron.

Eblaj polaj tradukoj:

  1. Czytałem książkę
  2. Czytałam książkę
  3. Przeczytałem książkę
  4. Przytałam książkę

En pola lingvo fleksio de verboj signifas ankaŭ genron de subjekto. Por preskaŭ ĉiu pola verbo ekzistas 2 variantoj, kun signifo, ĉu la tasko estas plenumigita. Alia ekzemplo estas la pronomo ‘vi’, kiu en Esperanto povas esti singulara aŭ plurala.

Aliaj teknikaj kialoj

Esperanto ne estas ankaŭ ideala por sintaksa analizo. Kelkajn vortetoj povas havi multajn rolojn en frazo.
Ekzemple la prepozicioj: al, de

Mi donas la libron al vi.
Mi veturas al pariso.
La libro estas skribita de fama aŭtoro.
Tio estas libro de fama aŭtoro.

Tiuj vortetoj devas esti tradukitaj al pola lingvo depende de rolo tute alie.

Daję książkę tobie.
Jadę do Paryża.
Książka została napisane przez sławnego autora.
To jest książka sławnego autora.

Esperanto ne estas normita

Esperanta lingvo lasas al la uzantoj tre grandan liberecon de sia uzado. Fundamento preskaŭ tute ne pritraktas la sintakson de la lingvo. La frazoj devas esti laŭ fundamento kompreneblaj, sed ĝi ne difinis de kiu. Ofte Esperantistoj nur kopias sian nacian lingvon. Tiaj frazoj estas korektaj sed certe ne kutimaj. La maŝina traduko estas tre malfacila.

Grandan mi legis libron. (sintaksa dispartigo)
Mi vidis lin veni hieraŭ. (germana kutimo)
Filo similas patron. (libera vortfarado)

Esperantistoj mem per evoluaj procesoj kreas regulojn pri la uzado. Esperanto evoluas laŭ reguloj de naturaj lingvoj, ĉar uzas ĝin homoj. En Esperanto ekzistas tre multaj ebloj esprimi ion. Ekzistas multaj sinonimoj (legu Ne ŝatataj vortoj).
Interlingvo devas esti firme normita kun difinita sintakso, kiun oni povas matematike (kaj logike) pruvi. Interlingvo devas havi difinitan vortaron kun tradukoj al ĉiuj koncernataj celaj lingvoj. Tiujn postulojn Esperanto ne plenumas.

En projekto DLT fine oni kreis propran normitan (regulitan) lingvon, kiu baziĝas sur Esperanto. Sed kial krei novan lingvon de Esperanto, se oni povas uzi por tiu alian nacian lingvon, kun pli bonaj vortaroj, kun pli vasta tekstaro, kaj kun pli ampleksaj lingvistikaj iloj.

La ideala interlingvo por maŝina tradukado devas havi trajtojn de formalaj lingvoj konataj de komputila scienco (ekzemple programaj lingvoj).

Aldonaj priskriboj de teksto

Ebla teknika solvo de tiuj problemoj estas pliriĉigo de tekstoj per aldonaj priskriboj.
Tiu tekniko (nomata angle tagging, vidu ankaŭ Tags) estas vaste uzata en lingvistika analizo en medio de XML kaj estas ofte pridiskutata ĉe tiel nomata semantika reto.

La kvanto de bezonataj aldonaj priskriboj dependas de cela lingvo de traduko.
Oni povas imagi, ke komputilo povus helpi en tiu tasko.
La komputila analizo povus trovi lokojn en tekstoj, kiuj havas multajn sencojn aŭ ne estas unusignife tradukebla al iu lingvo.

Mi{genro=ina} legis{aspekto=perfektiva} la libron.
Li ne observis{senco=2obei) la leĝon.
Ŝi ricevis [florojn de patro].

Imageble estas ankaŭ, ke komputilo aŭtomate aldonos tiujn priskribojn (uzante statistikajn metodojn aŭ profundan semantikan analizon) , kaj poste homo nur ekzamenos la rezulton.

Softvaraj patentoj pri Esperanto

Eĉ se la uzo de Esperanto kiel interlingvo en maŝina tradukado ne estas tiel avantaĝa, kiel oni ofte pensas, ekzistas
kelkaj softvaraj patentoj pri tio.
Vidu: United States Patent 5615301.
La patentoj mem estas tre ĝeneralaj kaj el teknika vidpunkto tre amatoraj. Por lingvistoj tiu eblo estas ja memkomprenebla. Aŭtoroj evidente ne priskribis ian inventaĵon, sed volis rezervi rajton por iu inventaĵo, kiu povus veni.
La afero de softvaraj patentoj estas ĝenerale tre dubinda (vidu www.nosoftwarepatents.com), kaj se temas pri Esperanto tre malkontentiga.

Często Esperanto jest zaproponowane, jak tak zwana lingua franca dla tłumaczenia maszynowego. DLT jest projektem, który realnie to próbował. Do teraz żaden projekt nie rezultował w zdatnym systemie.

Esperantyści często samą podsuwają użycie Esperanto dla tych motywów. Muszę stwierdzać, że aczkolwiek pomysł linguy franca jest bardzo przyjazny, Esperanto naprawdę nie nadaje się dla tego zadania. Esperanto jest stworzone jak lekko możliwy do nauki (dla europejczyków) język dla międzynarodowej komunikacji pomiędzy ludźmi. Dlatego Esperanto ma kilka specjalnych cech aby osiągnąć ten cel.
Najbardziej ważna cecha była dużym {lernebleco}. Te cele Esperanto osiąga gramatyką bez wyjątku i przemożnym słowotwórstwem.
Esperanto jest stworzone według praktyczne zapotrzebowania i doświadczenia z licznymi naturalnymi językami. W Esperanto znajduje się słowa narodowych języków i także gramatyczne prawidła, które funkcjonują w narodowych językach. Istota (albo twórcy) od Esperanto nigdy nie myślała o tłumaczeniu maszynowym i językoznawstwie komputerowym, ponieważ wtedy te tematy nie istniały.

Największy problem przy obróbce komputerowej naturalnych języków jest {multsenco} wielopoziomowym naturalnego języka.
Często opisuje się trzy poziomy.

  1. leksykalny poziom - bliskoznaczniki. Na przykład słowo: obserwować
  2. syntaktyczny poziom - liczni możliwe i korektowe syntaktyczne tłumaczenia. Na przykład zdanie: Ona otrzymywała kwiaty swojego ojca.
  3. pragmatyczny poziom - do czego dąży językowe wyrażenie.

Tłumaczenie maszynowe do teraz w praktyce zajmuje się jedynie dwa poziomy. Na pozór twórca Esperanto chciał spuszczać z jednej strony {multsencojn} przy leksykalnym poziomie, lecz skądinąd syntaktyczny {multsenco} jest wysoki, ponieważ to umożliwiło łatwą gramatykę.

Perferkcyjna lingua franca dla motywów tłumaczenia maszynowego nie może mieć {mulsencojn}. Ono musi mieć taką samą umiejętność dochować informacje jako wszystkie języki, ponieważ chce się unikać utratę informacji przy tłumaczeniu już z powodu zdatnej inaczej linguy franca.

Chcę prezentować kilka przykładów

Leksykalny {multsenco}

Ŝi observis birdojn. (pole: Ona obserwuje ptaki)
Li ne observis la leĝon. (pole: On nie przestrzegał prawa)

Słowo ‘obserwować’ ma 3 znaczenia. Nieszczęśliwie w języku polskim trzeba użytkować dla 2 znaczeń całkiem inne tłumaczenia.

Syntaktyczny {multsenco}

Ŝi ricevis florojn de sia patro. (pole: Ona otrzymała kwiaty ojca, aŭ Ona otrzymała kwiaty od ojca)

Nie można w Esperanto całkiem jasno definiować, jak trzeba objaśniać zdanie.
Ona otrzymywała kwiaty [ od swojego ojca ]. albo Ona otrzymywała [ kwiaty [ od swojego ojca ] ].

Utrata informacji

Zawartość informacji gramatycznych struktur jest dla narodowych języków bardzo różnych. To utrudnia tłumaczenie.

Mi legis la libron.

Możliwe tłumaczenia polskie:

  1. Czytałem {książkę}
  2. Czytałam {książkę}
  3. Przeczytałem {książkę}
  4. Przytałam {książkę}

W języku polskim fleksja czasowniki znaczy także rodzaj subiekta. Dla nieomal każdego czasownika polskiego istnieją 2 warianty, ze znaczeniem, czy zadanie jest wcześniej dopełniane. Inny przykład jest zaimkiem ‘ty’, który w Esperanto może być pojedynczy albo {plurala}.

Inne techniczne motywy

Esperanto nie jest także idealne dla syntaktycznej analizy. Kilku słówka mógą mieć liczne role we zdaniu.
Na przykład przyimki: do, od

Mi donas la libron al vi.
Mi veturas al pariso.
La libro estas skribita de fama aŭtoro.
Tio estas libro de fama aŭtoro.

Tiuj vortetoj devas esti tradukitaj al pola lingvo depende de rolo tute alie.

Daję książkę tobie.
Jadę więc Paryża.
Książka {została} {napisane} {przez} {sławnego} {autora}.
{To} {jest} {książka} {sławnego} {autor}{a}.

Esperanto nie jest unormowane

Esperancki język pozwala do użytkowników bardzo dużą swobodę swojego użycia. Fundament nieomal całkiem nie zajmuje się synktaktyki języka. Zdania muszą być według fundament zrozumiałe, lecz ono nie definiowało od kogo. Często Esperantyści jedynie kopiują swój narodowy język. Takie zdania są korektowe lecz z pewnością nie zwyczajne. Tłumaczenie maszynowe jest bardzo trudne.

Grandan mi legis libron. (sintaksa dispartigo)
Mi vidis lin veni hieraŭ. (germana kutimo)
Filo similas patron. (libera vortfarado)

Esperantyści samą rozwojowymi procesami stwarzają prawidła o użyciu. Esperanto rozwija się według prawidła naturalnych języków, ponieważ użytkują jego ludzie. W Esperanto istnieją bardzo liczne możliwości wyrażać coś. Istnieją liczne bliskoznaczniki (powine odtwarzać Nie umiłowane słowa).
Lingua franca musi zostać trwale unormowana z konieczną synktaktyką, którą można matematycznie (i logicznie) dowieść. Lingua franca musi mieć konieczny słownik z tłumaczeniami do wszystkich tyczonych się docelowych języków. Tych wymagań Esperanto nie załatwia.

W projekcie DLT w końcu stworzyło własnego unormowany (nastawionego) język, który opiera się na Esperanto. Lecz dlaczego stworzyć nowy język Esperanto, jeśli można użytkować dla tego inny narodowy język, z lepszymi słownikami, z rozleglejszą grupą tekstów, i z przestronniejszymi lingwistycznymi przyrządami.

Idealna lingua franca dla tłumaczenia maszynowego musi mieć cechy przepisowych języków znanych przez komputerową wiedzę (na przykład programowe języki).

Dodatkowe opisy tekstu

Możliwe techniczne rozwiązanie tych problemów jest wzbogacaniem tekstów dodatkowymi opisami.
Tym technika (zwany z angielskiego {tagging}, widź także Tags) jest szeroko użytkowana w lingwistycznej analizie w środowisku przez XML i jest często przedyskutowana przy tak zwana semantyczna sieć.

Ilość potrzebnych dodatkowych opisów zależy od docelowego języka tłumaczenia.
Można wyobrażać sobie, że komputer mógłby pomóc w tym zadaniu.
Analiza komputerowa mogłaby znaleźć miejsca w tekstach, które mają liczne znaczenia albo nie jest jednodostrzegalnie możliwy do tłumaczenia do jakiegoś języka.

Mi{genro=ina} legis{aspekto=perfektiva} la libron.
On nie obserwowałla leĝon.
ŝi ricevis {[florojn} de patro\].

imageble estas ankaŭ, ke komputilo aŭtomate aldonos tiujn priskribojn (uzante statistikajn metodojn aŭ profundan semantikan analizon) , kaj poste homo nur ekzamenos la rezulton.

softvaraj patentoj pri esperanto

eĉ se la uzo de esperanto kiel interlingvo en maŝina tradukado ne estas tiel avantaĝa, kiel oni ofte pensas, ekzistas
kelkaj softvaraj patentoj pri tio.
vidu: united states patent 5615301.
la patentoj mem estas tre ĝeneralaj kaj el teknika vidpunkto tre amatoraj. por lingvistoj tiu eblo estas ja memkomprenebla. aŭtoroj evidente ne priskribis ian inventaĵon, sed volis rezervi rajton por iu inventaĵo, kiu povus veni.
la afero de softvaraj patentoj estas ĝenerale tre dubinda (vidu www.nosoftwarepatents.com), kaj se temas pri esperanto tre malkontentiga.

Artukuł został przetłumaczony w pełni maszynowo przez wolny program Esperantilo
Adres kontaktowy:
mail@xdobry.de