Spis treści Artykuł originalny « Poprzedni artykul Nastepny artykul »

Wybór tłumaczeń przy tłumaczeniu maszynowym

Elekto de tradukoj ĉe maŝina tradukado

Orignał w języku EsperantoMaszynowe tłumaczenie na język polski

Unu de plej malfacilaj problemoj ĉe maŝina tradukado, kiu estas bazita sur leksikono, estas la elekto de la plej taŭga traduko de vortaro. Estas normala afero, ke por unu fonta vorto oni trovas kelkajn tradukojn en vortaro. Ofte tiuj tradukoj estas sinonimoj, do ĉiu traduko estas egale korekta. En alia kazo la fonta vorto povas havi kelkajn sencojn kaj tiuj sencoj estas tradukita diference. Ni trovas en vortarojn ofte suban strukturon:

fonta vorto:
senco1: traduko_1_1, traduko_1_2
senco2: traduko_2_1, traduko_2_2

La difino de senco (aŭ sencokampoj) estas en tiu punkto tre malklara afero. Precipe oni povas ĉiam dividi sencojn en pri detalaj sencoj. Do ne ekzistas metodo por klare difini la sencojn. En naturaj lingvoj (ankaŭ en Esperanto) vortojn ofte iom post iom ŝanĝiĝas la sencojn. En diferencaj fakoj aŭ homgrupoj vortojn havas iom alian sencon. Tial ankaŭ la difino de sinonimo ne estas klara. Diferencaj nacioj komprenas la sencojn diference kaj tio estas la trajto de ilia kulturo. En tradukaj vortaroj ne estas ankaŭ evidente, ĉu la sencoj estis difinitaj laŭ fonta aŭ cela lingvo. Tial ankaŭ la difino de sinonimo, kiel samsenca vorto, estas dubinda. La tradukaj vortaroj venkas tiujn malfacilaĵojn per aldonaj priskriboj. Ofte estas uzataj ekzemploj.

Ekzemploj

Ni rigardu la vorton “granda” kaj ĝiaj tradukoj por pola, germana kaj angla lingvo.

Pola lingvo “granda: duży, wielki, silny, spory”
Germana lingvo “granda: groß, berühmnt, heftig, stark”
Angla lingvo “granda: big, large, great”

La vortaro REVO difinas por la vorto “granda” 2 sencojn.

  1. Superanta la ordinarajn dimensiojn
  2. Superanta la ordinaran gradon, intensa, altkvalita.

Unue la vorto povas priskribi aĵojn, kiuj havas dimension en alia kaŭzo ĉiujn aĵojn, kiujn oni povas ordigi (Do logike senco 2 enhavas ankaŭ la sencon 1). La vorto granda povas esti anstataŭigata en apartaj kuntekstoj (laŭ la tezaŭro) per vortoj: ega, kolosa, fama, glora, renoma, forta, impetega, fortega, potenca, alta. Ĉiuj tiuj vortoj priskribas malkutiman gradon de iu kvalito. Evidentiĝas, ke tiu vorto estas tre malfacila por difino kaj traduko. Ni pritraktu kelkajn tradukojn de vorto “granda” kun substantivo.

Esperanta Lingvo Pola Lingvo
granda domo duży dom
granda komponisto wielki kompozytor
granda tertremo silne trzęsienie ziemi, wielkie trzęsienie ziemi
granda problemo duży problem, wielki problem
granda milito wielka wojna

Ne estas facile diri, kio diferencas la polan tradukon “duży” kaj “wielki”. La vorto “duży” precipe pritraktas dimension kaj vorto “wielki” aliajn kvalitojn. Sed oni povas priskribi per “granda” ankaŭ abstraktaj nociojn kiel “problemo”. Ŝajnas ankaŭ, ke vorto “wielki” estas stile pli nobla ol popola aŭ parolata “duży”. En pola korpuso Poliqarp “duży problem” estas iom pli ofta ol “wielki problem” (granda problemo). Se ni priskribas personojn kaj oni ne volas priskribi la altecon de homo, oni devas uzi la vorton “wielki”. En pola lingvo la vorto “wielki” emfazas ankaŭ la signifon de iu objekto por homoj. Do oni parolas pri “wielka wojna” (granda milito), se temas pri la dua mondmilito. La duopon “duża wojna” mi trovis nur unu fojon. Oni parolas pri “silne trzęsienie ziemi” (forta tertremo), se temas pri fizike mezurebla forteco, sed la tertremon en San Francisco 1906 oni nomiĝas “wielkie trzęsienie ziemi”.

Implikoj por maŝina tradukado

Oni vidas, ke la elekto de taŭga traduko estas tre grava por kvalito de tradukado. Unue oni povas elekti por tradukado tiun tradukon, kiu estas oportuna por la plej granda kvanto de tekstoj. Tiu estas traduko, kies senco korespondas tre preciza al la senco de fonta vorto. Precipe la plej ofta vorto de cela lingvo estas la plej taŭga. Sed tio ne solvas la problemon kun la vorto “granda”. Ankaŭ se la tradukilo ne povas difini la sencon de fonta teksto, ĝi povas analizi la kuntekston de vorto. Tie helpas la statistika metodo kaj granda korpuso de cela lingvo. Ĉe elekto de la plej taŭga traduko oni analizas la oftecon de kunteksto ĉe cela lingvo. Evidente oni povas komputi, ke la traduko “wielka wojna” estas multoble pli ofta ol la traduko “duża wojna”. La malavantaĝo de tiu solvo estas, ke ĝi bezonas longdaŭran kalkuladon. Parton de tiu kalkulado oni povas prepari frue en speciala datumbanko, simile kiel mi tion faris en Esperantilo ĉe bazo de frazpartoj (Menuo Lingvistiko->Uzado de frazpartoj). La dua eblo estas la traduka vortaro de tutaj frazpartoj. Tia vortaro estas tre komforta por difini esceptojn sed iĝus tro abunda por tutaj klasoj de tradukado. Oni do devus difini tutajn seriojn de tradukoj: “granda poeto, granda matematikisto, granda homo, granda instruisto”. La lasta eble devenas de kutimaj vortaroj, kiuj simple donas ekzemplojn de uzado aŭ mallongan klarigon. En kaŭzo de komputila prilaboro tiu priskribo devas esti kompreneble de komputilo. La natura kunteksto de adjektivo estas la priskribata substantivo. Ĉar Esperantilo havas ĉe tradukado la kompletan sintaksan arbon, ĝi povas facili trovi koncernan substantivon.

Ekzemple en frazo: “Adam Mickiewicz estas granda pola poeto.” la natura kunteksto de adjektivo “granda” estas la substantivo “poeto”. Nun oni devas informigi la tradukilon, ke ĉe personoj kaj aliaj difinitaj vortoj, ĝi traduku la vorton “granda” al vorto “wielki”. Mi nun enprogramis tiun eblecon en Esperantilo. En traduka vortaro oni povas priskribi en kampo “senco” tiujn aldonajn informojn. Ekzemple por la vorto “granda” ni havas.

traduko senco ordo
duży {kun %persono milito} 2
traduko 1

Nova estas la esprimo “{kun %persono milito}“, kiu influas la elekton de sinonimo depende de kunteksto. Tiu esprimo signifas, ke tiu traduko estas uzate, se la priskribata persono estas de tipo “%persono” aŭ estas vorto “milito”. Se tiu testo ne sukcesis, la plej grava por elekto de traduko estas la kampo “ordo”. En tiu kazo la traduko “duży” havas pli malgrandan valoron al la traduko “wielki”, do la traduko “duży” estos uzata. La nocio “%persono” dependas al tiel nomataj semantikaj retojtaksonomio. Esperantilo nun ne enhavas taksonomian sistemon, sed tio estas mia celo por venonta programado. La prototipo estas pro mi la semantika reto de projekto WordNet. En Esperanto oni tre facile povas indiki, ĉu la vorto signifas personon. Oni povas ja ekzameni la sufikson je “ano, ino, isto, estro” aŭ ĉe “-o”, aŭ ekzameni ĉu pro radiko la sufikso “-ino” ekzistas (filo, filino). La vera semantika reto por Esperanto estas granda defio. Mi pensas, ke interesa solvo estas aŭtomate aldoni tiujn priskribojn laŭ aŭtomata analizo de pola korpuso. Por tiu mi devis programi almenaŭ minimuman sintaksan analizilon por pola lingvo.

Preciza fonta teksto

Se oni mem preparas la tekston por maŝina tradukado, oni povas eviti la problemojn ĉe tradukado jam dum la kompilo de fonta teksto. La strategio estas uzi ĉiam la plej specialajn vortojn. Do oni povas skribi: “granda komponisto” - “fama, elstara komponisto” “granda princo” - “potenca princo” “granda tertremo” - “forta tertremo” Sed aliflanke tiuj specialaj vortoj estas pli maloftaj, kaj tial la teksto ne estas bone legebla aŭ eĉ tro faka.

Kiom da strategioj plu?

Nun Esperantilo konas kelkajn strategiojn de maŝina tradukado. Tio estas:

  1. Kampo “ordo” ĉe ĉiu traduko
  2. Vortaro de frazpartoj
  3. Reguloj fikse enprogramitaj por plej komplikaj kazoj
  4. priskribo de fako je ĉiu vorto (komputiko, medicino, …)
  5. priskribo de kunteksto

En la maŝina tradukado konataj estas ankaŭ multaj aliaj strategioj. Nuntempe tre popularaj estas statistikaj metodoj, kiuj tamen bezonas grandajn paralelajn tekstarojn. La demando estas: Kiom da ili estas bezonataj? Mi opinias, ke oni devas kombini multajn strategiojn por atingi bonajn rezultojn. La praktika kaŭzo estas, ke mi ne disponas je altkvalitaj vortaroj kaj produkto de tiuj vortaroj estas tre temporaba. Feliĉe la kompletigon de vortaroj mi povas transdoni al uzantoj. Ankaŭ se mi ne plu disvolvigos la programon, la kvalito de tradukado povus daŭre plialtigi helpe de uzantoj. Mia takso estas nun pretigi la teknikan framon por multaj metodoj.

Jeden od najbardziej trudnych problemów przy tłumaczeniu maszynowym, które jest oparte na leksykonie, jest wybór najzdatniejszego tłumaczenia słownika. Jest normalna sprawa, że dla jednego źródłowego słowa znajduje się kilka tłumaczeń we słowniku. Często tymi tłumaczeniami są bliskoznaczniki, więc każde tłumaczenie jest jednakowo korektowe. W innym przypadku źródłowe słowo może mieć kilka znaczeń i te znaczenia są przetłumaczone różnie. Znajdujemy do słowników często spodnią strukturę:

fonta vorto:
senco1: traduko_1_1, traduko_1_2
senco2: traduko_2_1, traduko_2_2

Definicja znaczenia (albo zakresy znaczenia) jest w tym punkcie bardzo niewyraźną sprawą. Przede wszystkim można zawsze dzielić znaczenia w o dokładnych znaczeniach. Więc nie istnieje metoda aby jasno definiować znaczenia. W naturalnych językach (także w Esperanto) słowa często krok po kroku zmienia się znaczenia. W różnych dziedzinach albo grupach ludzi słowa ma trochę inne znaczenie. Dlatego także definicja bliskoznaczniku nie jest czysta. Różne narody rozumieją znaczenia różnie i to jest cecha ich kultury. W słownikach tłumaczeniowych nie jest także oczywiście, czy znaczenia zostały konieczne według źródłowy albo docelowy język. Dlatego także definicja bliskoznaczniku, jak słowo równoznaczne, jest wątpliwa. Słowniki tłumaczeniowe zwyciężają te trudności dodatkowymi opisami. Często są użytkowane przykłady.

Przykłady

Powiniśmy patrzeć na słowo “granda” i jego tłumaczenia dla polskiego, niemieckiego i angielskiego języka.

Język polski “granda: duży, wielki, silny, spory”
Język niemiecki “granda: groß, berühmnt, heftig, stark”
Język angielski “granda: big, large, great”

Słownik REVO definiuje dla słowa “granda” 2 znaczenia.

  1. Przewyższający zwykłe rozmiary
  2. Przewyższający zwykły stopień, intensywny, wysokojakościowy.

Po pierwsze słowo może opisać rzeczy, które mają rozmiar w innym powodu wszystkie rzeczy,, które można segregować (Więc logicznie znaczenie 2 mieści także znaczenie 1). Słowo duże może być zastąpione w oddzielnych kontekstach (według tezaurus) słowami: olbrzymi, kolosalny, sławny, zaszczytny, renomowany, silny, siłą zamaszysty, wszechsilny, przemożny, wysoki. Wszyscy te słowa opisują zwyczajny inaczej stopień jakiejś jakości. Wyjdzie na jaw, że to słowo jest bardzo trudne dla definicji i tłumaczenia. Powiniśmy zajmować się kilka tłumaczeń słowa “dużego” z rzeczownikiem.

Esperancki Język Język polski
granda domo duży dom
granda komponisto wielki kompozytor
granda tertremo silne trzęsienie ziemi, wielkie trzęsienie ziemi
granda problemo duży problem, wielki problem
granda milito wielka wojna

Nie jest lekko powiedzieć, co rozróżnia tłumaczenie polskie “duży” i “wielki”. Słowo “{duży}” przede wszystkim zajmuje się rozmiar i słowo “{wielki}” inne jakości. Lecz można opisać “granda” także abstrakcyjni pojęcia jak “problem”. Wydaje się także, że słowo “{wielki}” jest stylowo zacniejsze aniżeli ludowe albo mówione “{duży}”. W korpusie polskim Poliqarp “duży problem” jest trochę częstszy aniżeli “wielki problem” (duży problem). Jeśli opisujemy osoby i nie chce się opisać wysokość człowieka, trzeba użytkować słowo “wielki”. W języku polskim słowo “{wielki}” uwypukla także znaczenie jakiejś rzeczy dla ludzi. Więc mówi się o “wielka wojna” (wielka wojna), jeśli dotyczy drugiej wojny światowej. Duet “{duża} {wojna}” znalazłem jedynie jeden raz. Mówi się o “{silne} {trzęsienie} {ziemi}” (silne trzęsienie ziemi), jeśli dotyczy o fizycznie wymierna tęgość, lecz trzęsienie ziemi w San {Francisco} 1906 nazywa się “{wielkie} {trzęsienie} {ziemi}”.

Zawikłania dla tłumaczenia maszynowego

Widzi się, że wybór zdatnego tłumaczenia jest bardzo ważny dla jakości tłumaczenia. Po pierwsze można wybrać dla tłumaczenia to tłumaczenie, które jest wygodne dla największej ilości tekstów. Tym jest tłumaczenie, czyjego znaczenie koresponduje bardzo dokładne do znaczenia źródłowego słowa. Przede wszystkim najczęstsze słowo docelowego języka jest najzdatniejsze. Lecz to nie rozwiązuje problemu ze słowem “dużym”. Także, jeśli kompilator nie może definiować znaczenie źródłowego tekstu, ono może rozpatrywać kontekst słowa. Tam pomagają statystyczna metoda i duży korpus docelowego języka. Przy wyborze najzdatniejszego tłumaczenia rozpatruje się częstość kontekstu przy docelowym języku. Oczywiście można komputować, że tłumaczenie “{wielka} {wojna}” jest wielokrotnie częstsze aniżeli tłumaczenie “{duża} {wojna}”. Wada tego rozwiązania jest, że ono potrzebuje obliczenie długie. Część tego obliczenia można przygotować wcześnie we specjalnym banku danych, podobnie jak ja to zrobiono w Esperantilo przy bazie części zdania (Jadłospis językoznawstwo > Użycie części zdania). Druga możliwość jest słownikiem tłumaczeniowym całych części zdania. Taki słownik jest bardzo wygodny aby definiować wyjątki, lecz stałoby się zbyt rzęsisty dla całych klas tłumaczenia. Więc trzeba by było definiować całe szeregi funkcyjne tłumaczeń: “wielki poeta, wielki matematyk, wielki człowiek, wielki nauczyciel”. Ostatni przypuszczalnie pochodzi ze zwyczajnych słowników, które po prostu dają przykłady użycia albo krótkie wyjaśnienie. W powodu obróbki komputerowej ten opis musi być oczywiście od komputera. Naturalny kontekst przymiotniku jest opisanym rzeczownikiem. Ponieważ Esperantilo ma przy tłumaczeniu kompletne syntaktyczne drzewo, ono może być łatwe znaleźć dany rzeczownik.

Na przykład we zdaniu: “Adam Mickiewicz jest wielkim poetą polskim.” naturalny kontekst przymiotniku “dużego” jest rzeczownikiem “poeta”. Teraz trzeba czynić informyjące kompilatora, że przy osobach i innych koniecznych słowach, ono powina tłumaczyć słowo “duże” do słowa “{wielki}”. Teraz {enprogramis} tą możliwość w Esperantilo. W słowniku tłumaczeniowym można opisać w zakresie “znaczenie” te dodatkowe informacje. Na przykład dla słowa “dużego” mamy.

tłumaczenie znaczenie ład
{duży} %persono milito 2
tłumaczenie 1

Nowe jest wyrażenie “{kun %persono milito}“, który wywiera wpływ na wybór bliskoznaczniku zależnie kontekstu. To wyrażenie znaczy, że to tłumaczenie jest użytkując, jeśli opisana osoba jest od typu “% osoba” albo jest słowo “wojną”. Jeśli ten test nie miał powodzenie, najważniejszy dla wyboru tłumaczenia jest zakres “ład”. W tym przypadku tłumaczenie “{duży}” ma mniejszą wartość do tłumaczenia “{wielki}”, więc tłumaczenie “{duży}” będzie użytkowane. Pojęcie “% osoba” zależy do tak zwane semantyczne sieci albo taksonomia. Esperantilo teraz nie mieści {taksonomian} systemu, lecz to jest mój cel dla przyszłego programowania. Pierwowzór jest z powodu mnie semantyczną siecią projektu {WordNet}. W Esperanto bardzo lekko można oznaczać, czy słowo znaczy osobę. Można wszakże zbadać przyrostek o “członku, samica, {isto}, wódz” albo przy “- {o}”, albo zbadać czy z powodu pierwiastku przyrostek “- samica” istnieje (syn, córka). Prawdziwa semantyczna sieć dla Esperanto jest dużym wyzwaniem. Myślę, że interesujące rozwiązanie jest automatycznie dokładać te opisy według automatyczna analiza polskiego korpusu. Dla tego musiałem programować co najmniej minimalnego syntaktycznego analizatora dla języka polskiego.

Dokładny źródłowy tekst

Jeśli sami sposobi się tekst dla tłumaczenia maszynowego, można unikać problemy przy tłumaczeniu już w czasie zestawiania źródłowego tekstu. Strategia jest użytkować zawsze najspecjalniejsze słowa. Więc można pisać: “wielki kompozytor” - “sławny, wybitny kompozytor” “wielki książę” - “przemożny książę” “duże trzęsienie ziemi” - “silne trzęsienie ziemi” Lecz skądinąd tymi specjalnymi słowami jest rzadsze, i dlatego tekst nie jest dobrze czytelny albo nawet zbyt naukowy.

Ile strategi dalej?

Teraz Esperantilo zna kilka strategi maszynowego tłumaczenia. To jest:

  1. Zakres “ład” przy każdym tłumaczeniu
  2. Słownik części zdania
  3. Prawidła sztywno {enprogramitaj} dla najbardziej skomplikowanych przypadków
  4. opis dziedziny o każdym słowo (informatyka, medycyna, …)
  5. opis kontekstu

W tłumaczeniu maszynowym znane są także liczne inne strategie. Obecnie bardzo słynne są statystyczne metody, które jednak potrzebują duże równoległe grupy tekstów. Pytanie jest: Ilu nich jest potrzebnych? Uważam, że trzeba układać liczne strategie aby osiągnąć dobre wyniki. Praktyczny powód jest, że nie dysponuję o wysokojakościowych słownikach i wytwór tych słowników jest bardzo {temporaba}. Szczęśliwie uzupełnianie słowników mogę zdawać do użytkowników. Także, jeśli więcej nie {disvolvigos} program, jakość tłumaczenia mogłaby nadal powiększyć za pomocą użytkowników. Moja taksa jest teraz szykować techniczną futrynę dla licznych metod.

Artukuł został przetłumaczony w pełni maszynowo przez wolny program Esperantilo
Adres kontaktowy:
mail@xdobry.de