Orignał w języku Esperanto | Maszynowe tłumaczenie na język polski | ||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Unu de plej malfacilaj problemoj ĉe maŝina tradukado, kiu estas bazita sur leksikono, estas la elekto de la plej taŭga traduko de vortaro. Estas normala afero, ke por unu fonta vorto oni trovas kelkajn tradukojn en vortaro. Ofte tiuj tradukoj estas sinonimoj, do ĉiu traduko estas egale korekta. En alia kazo la fonta vorto povas havi kelkajn sencojn kaj tiuj sencoj estas tradukita diference. Ni trovas en vortarojn ofte suban strukturon:
La difino de senco (aŭ sencokampoj) estas en tiu punkto tre malklara afero. Precipe oni povas ĉiam dividi sencojn en pri detalaj sencoj. Do ne ekzistas metodo por klare difini la sencojn. En naturaj lingvoj (ankaŭ en Esperanto) vortojn ofte iom post iom ŝanĝiĝas la sencojn. En diferencaj fakoj aŭ homgrupoj vortojn havas iom alian sencon. Tial ankaŭ la difino de sinonimo ne estas klara. Diferencaj nacioj komprenas la sencojn diference kaj tio estas la trajto de ilia kulturo. En tradukaj vortaroj ne estas ankaŭ evidente, ĉu la sencoj estis difinitaj laŭ fonta aŭ cela lingvo. Tial ankaŭ la difino de sinonimo, kiel samsenca vorto, estas dubinda. La tradukaj vortaroj venkas tiujn malfacilaĵojn per aldonaj priskriboj. Ofte estas uzataj ekzemploj. EkzemplojNi rigardu la vorton “granda” kaj ĝiaj tradukoj por pola, germana kaj angla lingvo. Pola lingvo “granda: duży, wielki, silny, spory” La vortaro REVO difinas por la vorto “granda” 2 sencojn.
Unue la vorto povas priskribi aĵojn, kiuj havas dimension en alia kaŭzo ĉiujn aĵojn, kiujn oni povas ordigi (Do logike senco 2 enhavas ankaŭ la sencon 1). La vorto granda povas esti anstataŭigata en apartaj kuntekstoj (laŭ la tezaŭro) per vortoj: ega, kolosa, fama, glora, renoma, forta, impetega, fortega, potenca, alta. Ĉiuj tiuj vortoj priskribas malkutiman gradon de iu kvalito. Evidentiĝas, ke tiu vorto estas tre malfacila por difino kaj traduko. Ni pritraktu kelkajn tradukojn de vorto “granda” kun substantivo.
Ne estas facile diri, kio diferencas la polan tradukon “duży” kaj “wielki”. La vorto “duży” precipe pritraktas dimension kaj vorto “wielki” aliajn kvalitojn. Sed oni povas priskribi per “granda” ankaŭ abstraktaj nociojn kiel “problemo”. Ŝajnas ankaŭ, ke vorto “wielki” estas stile pli nobla ol popola aŭ parolata “duży”. En pola korpuso Poliqarp “duży problem” estas iom pli ofta ol “wielki problem” (granda problemo). Se ni priskribas personojn kaj oni ne volas priskribi la altecon de homo, oni devas uzi la vorton “wielki”. En pola lingvo la vorto “wielki” emfazas ankaŭ la signifon de iu objekto por homoj. Do oni parolas pri “wielka wojna” (granda milito), se temas pri la dua mondmilito. La duopon “duża wojna” mi trovis nur unu fojon. Oni parolas pri “silne trzęsienie ziemi” (forta tertremo), se temas pri fizike mezurebla forteco, sed la tertremon en San Francisco 1906 oni nomiĝas “wielkie trzęsienie ziemi”. Implikoj por maŝina tradukadoOni vidas, ke la elekto de taŭga traduko estas tre grava por kvalito de tradukado. Unue oni povas elekti por tradukado tiun tradukon, kiu estas oportuna por la plej granda kvanto de tekstoj. Tiu estas traduko, kies senco korespondas tre preciza al la senco de fonta vorto. Precipe la plej ofta vorto de cela lingvo estas la plej taŭga. Sed tio ne solvas la problemon kun la vorto “granda”. Ankaŭ se la tradukilo ne povas difini la sencon de fonta teksto, ĝi povas analizi la kuntekston de vorto. Tie helpas la statistika metodo kaj granda korpuso de cela lingvo. Ĉe elekto de la plej taŭga traduko oni analizas la oftecon de kunteksto ĉe cela lingvo. Evidente oni povas komputi, ke la traduko “wielka wojna” estas multoble pli ofta ol la traduko “duża wojna”. La malavantaĝo de tiu solvo estas, ke ĝi bezonas longdaŭran kalkuladon. Parton de tiu kalkulado oni povas prepari frue en speciala datumbanko, simile kiel mi tion faris en Esperantilo ĉe bazo de frazpartoj (Menuo Lingvistiko->Uzado de frazpartoj). La dua eblo estas la traduka vortaro de tutaj frazpartoj. Tia vortaro estas tre komforta por difini esceptojn sed iĝus tro abunda por tutaj klasoj de tradukado. Oni do devus difini tutajn seriojn de tradukoj: “granda poeto, granda matematikisto, granda homo, granda instruisto”. La lasta eble devenas de kutimaj vortaroj, kiuj simple donas ekzemplojn de uzado aŭ mallongan klarigon. En kaŭzo de komputila prilaboro tiu priskribo devas esti kompreneble de komputilo. La natura kunteksto de adjektivo estas la priskribata substantivo. Ĉar Esperantilo havas ĉe tradukado la kompletan sintaksan arbon, ĝi povas facili trovi koncernan substantivon. Ekzemple en frazo: “Adam Mickiewicz estas granda pola poeto.” la natura kunteksto de adjektivo “granda” estas la substantivo “poeto”. Nun oni devas informigi la tradukilon, ke ĉe personoj kaj aliaj difinitaj vortoj, ĝi traduku la vorton “granda” al vorto “wielki”. Mi nun enprogramis tiun eblecon en Esperantilo. En traduka vortaro oni povas priskribi en kampo “senco” tiujn aldonajn informojn. Ekzemple por la vorto “granda” ni havas.
Nova estas la esprimo “ Preciza fonta tekstoSe oni mem preparas la tekston por maŝina tradukado, oni povas eviti la problemojn ĉe tradukado jam dum la kompilo de fonta teksto. La strategio estas uzi ĉiam la plej specialajn vortojn. Do oni povas skribi: “granda komponisto” - “fama, elstara komponisto” “granda princo” - “potenca princo” “granda tertremo” - “forta tertremo” Sed aliflanke tiuj specialaj vortoj estas pli maloftaj, kaj tial la teksto ne estas bone legebla aŭ eĉ tro faka. Kiom da strategioj plu?Nun Esperantilo konas kelkajn strategiojn de maŝina tradukado. Tio estas:
En la maŝina tradukado konataj estas ankaŭ multaj aliaj strategioj. Nuntempe tre popularaj estas statistikaj metodoj, kiuj tamen bezonas grandajn paralelajn tekstarojn. La demando estas: Kiom da ili estas bezonataj? Mi opinias, ke oni devas kombini multajn strategiojn por atingi bonajn rezultojn. La praktika kaŭzo estas, ke mi ne disponas je altkvalitaj vortaroj kaj produkto de tiuj vortaroj estas tre temporaba. Feliĉe la kompletigon de vortaroj mi povas transdoni al uzantoj. Ankaŭ se mi ne plu disvolvigos la programon, la kvalito de tradukado povus daŭre plialtigi helpe de uzantoj. Mia takso estas nun pretigi la teknikan framon por multaj metodoj. |
Jeden od najbardziej trudnych problemów przy tłumaczeniu maszynowym, które jest oparte na leksykonie, jest wybór najzdatniejszego tłumaczenia słownika. Jest normalna sprawa, że dla jednego źródłowego słowa znajduje się kilka tłumaczeń we słowniku. Często tymi tłumaczeniami są bliskoznaczniki, więc każde tłumaczenie jest jednakowo korektowe. W innym przypadku źródłowe słowo może mieć kilka znaczeń i te znaczenia są przetłumaczone różnie. Znajdujemy do słowników często spodnią strukturę:
Definicja znaczenia (albo zakresy znaczenia) jest w tym punkcie bardzo niewyraźną sprawą. Przede wszystkim można zawsze dzielić znaczenia w o dokładnych znaczeniach. Więc nie istnieje metoda aby jasno definiować znaczenia. W naturalnych językach (także w Esperanto) słowa często krok po kroku zmienia się znaczenia. W różnych dziedzinach albo grupach ludzi słowa ma trochę inne znaczenie. Dlatego także definicja bliskoznaczniku nie jest czysta. Różne narody rozumieją znaczenia różnie i to jest cecha ich kultury. W słownikach tłumaczeniowych nie jest także oczywiście, czy znaczenia zostały konieczne według źródłowy albo docelowy język. Dlatego także definicja bliskoznaczniku, jak słowo równoznaczne, jest wątpliwa. Słowniki tłumaczeniowe zwyciężają te trudności dodatkowymi opisami. Często są użytkowane przykłady. PrzykładyPowiniśmy patrzeć na słowo “granda” i jego tłumaczenia dla polskiego, niemieckiego i angielskiego języka. Język polski “granda: duży, wielki, silny, spory” Słownik REVO definiuje dla słowa “granda” 2 znaczenia.
Po pierwsze słowo może opisać rzeczy, które mają rozmiar w innym powodu wszystkie rzeczy,, które można segregować (Więc logicznie znaczenie 2 mieści także znaczenie 1). Słowo duże może być zastąpione w oddzielnych kontekstach (według tezaurus) słowami: olbrzymi, kolosalny, sławny, zaszczytny, renomowany, silny, siłą zamaszysty, wszechsilny, przemożny, wysoki. Wszyscy te słowa opisują zwyczajny inaczej stopień jakiejś jakości. Wyjdzie na jaw, że to słowo jest bardzo trudne dla definicji i tłumaczenia. Powiniśmy zajmować się kilka tłumaczeń słowa “dużego” z rzeczownikiem.
Nie jest lekko powiedzieć, co rozróżnia tłumaczenie polskie “duży” i “wielki”. Słowo “{duży}” przede wszystkim zajmuje się rozmiar i słowo “{wielki}” inne jakości. Lecz można opisać “granda” także abstrakcyjni pojęcia jak “problem”. Wydaje się także, że słowo “{wielki}” jest stylowo zacniejsze aniżeli ludowe albo mówione “{duży}”. W korpusie polskim Poliqarp “duży problem” jest trochę częstszy aniżeli “wielki problem” (duży problem). Jeśli opisujemy osoby i nie chce się opisać wysokość człowieka, trzeba użytkować słowo “wielki”. W języku polskim słowo “{wielki}” uwypukla także znaczenie jakiejś rzeczy dla ludzi. Więc mówi się o “wielka wojna” (wielka wojna), jeśli dotyczy drugiej wojny światowej. Duet “{duża} {wojna}” znalazłem jedynie jeden raz. Mówi się o “{silne} {trzęsienie} {ziemi}” (silne trzęsienie ziemi), jeśli dotyczy o fizycznie wymierna tęgość, lecz trzęsienie ziemi w San {Francisco} 1906 nazywa się “{wielkie} {trzęsienie} {ziemi}”. Zawikłania dla tłumaczenia maszynowegoWidzi się, że wybór zdatnego tłumaczenia jest bardzo ważny dla jakości tłumaczenia. Po pierwsze można wybrać dla tłumaczenia to tłumaczenie, które jest wygodne dla największej ilości tekstów. Tym jest tłumaczenie, czyjego znaczenie koresponduje bardzo dokładne do znaczenia źródłowego słowa. Przede wszystkim najczęstsze słowo docelowego języka jest najzdatniejsze. Lecz to nie rozwiązuje problemu ze słowem “dużym”. Także, jeśli kompilator nie może definiować znaczenie źródłowego tekstu, ono może rozpatrywać kontekst słowa. Tam pomagają statystyczna metoda i duży korpus docelowego języka. Przy wyborze najzdatniejszego tłumaczenia rozpatruje się częstość kontekstu przy docelowym języku. Oczywiście można komputować, że tłumaczenie “{wielka} {wojna}” jest wielokrotnie częstsze aniżeli tłumaczenie “{duża} {wojna}”. Wada tego rozwiązania jest, że ono potrzebuje obliczenie długie. Część tego obliczenia można przygotować wcześnie we specjalnym banku danych, podobnie jak ja to zrobiono w Esperantilo przy bazie części zdania (Jadłospis językoznawstwo > Użycie części zdania). Druga możliwość jest słownikiem tłumaczeniowym całych części zdania. Taki słownik jest bardzo wygodny aby definiować wyjątki, lecz stałoby się zbyt rzęsisty dla całych klas tłumaczenia. Więc trzeba by było definiować całe szeregi funkcyjne tłumaczeń: “wielki poeta, wielki matematyk, wielki człowiek, wielki nauczyciel”. Ostatni przypuszczalnie pochodzi ze zwyczajnych słowników, które po prostu dają przykłady użycia albo krótkie wyjaśnienie. W powodu obróbki komputerowej ten opis musi być oczywiście od komputera. Naturalny kontekst przymiotniku jest opisanym rzeczownikiem. Ponieważ Esperantilo ma przy tłumaczeniu kompletne syntaktyczne drzewo, ono może być łatwe znaleźć dany rzeczownik. Na przykład we zdaniu: “Adam Mickiewicz jest wielkim poetą polskim.” naturalny kontekst przymiotniku “dużego” jest rzeczownikiem “poeta”. Teraz trzeba czynić informyjące kompilatora, że przy osobach i innych koniecznych słowach, ono powina tłumaczyć słowo “duże” do słowa “{wielki}”. Teraz {enprogramis} tą możliwość w Esperantilo. W słowniku tłumaczeniowym można opisać w zakresie “znaczenie” te dodatkowe informacje. Na przykład dla słowa “dużego” mamy.
Nowe jest wyrażenie “ Dokładny źródłowy tekstJeśli sami sposobi się tekst dla tłumaczenia maszynowego, można unikać problemy przy tłumaczeniu już w czasie zestawiania źródłowego tekstu. Strategia jest użytkować zawsze najspecjalniejsze słowa. Więc można pisać: “wielki kompozytor” - “sławny, wybitny kompozytor” “wielki książę” - “przemożny książę” “duże trzęsienie ziemi” - “silne trzęsienie ziemi” Lecz skądinąd tymi specjalnymi słowami jest rzadsze, i dlatego tekst nie jest dobrze czytelny albo nawet zbyt naukowy. Ile strategi dalej?Teraz Esperantilo zna kilka strategi maszynowego tłumaczenia. To jest:
W tłumaczeniu maszynowym znane są także liczne inne strategie. Obecnie bardzo słynne są statystyczne metody, które jednak potrzebują duże równoległe grupy tekstów. Pytanie jest: Ilu nich jest potrzebnych? Uważam, że trzeba układać liczne strategie aby osiągnąć dobre wyniki. Praktyczny powód jest, że nie dysponuję o wysokojakościowych słownikach i wytwór tych słowników jest bardzo {temporaba}. Szczęśliwie uzupełnianie słowników mogę zdawać do użytkowników. Także, jeśli więcej nie {disvolvigos} program, jakość tłumaczenia mogłaby nadal powiększyć za pomocą użytkowników. Moja taksa jest teraz szykować techniczną futrynę dla licznych metod. |