Spis treści Artykuł originalny « Poprzedni artykul Nastepny artykul »

Twórczość słownika artykułów wikipedi

Kreado de vortaro de artikoloj de vikipedio

Orignał w języku EsperantoMaszynowe tłumaczenie na język polski

Sen bona multlingva leksikono (aŭ glosaro) ne estas ebla bona maŝina tradukado. Tial la grandan parton de tempo mi prilaboras la vortaron de Esperantilo. (vidu ankaŭ blogojn 1 kaj 2). Nun mi koncentriĝas nur pri pola lingvo. Ĉar kiel ĉiu programisto mi estas laca, mi serĉas la eblon plifaciligi tiun leksikan laboron per iu programo. Due mi ne estas la plej kompetenta persono por kreado de vortaroj kaj tiu takso ne estas tiel facila, kiel oni povus pensi.

Mi delonge pensis, kiel utiligi la grandegan vortprovizon de Vikipedio. Oni povas libere kaj aŭtomate elŝuti ĉiujn artikolojn en XML-fonto per speciala adreso http://eo.wikipedia.org/wiki/Speciala:Export (ekzempla enhavo por: “Floro”). Estas ankaŭ eble elŝuti la tutan vikipedion kiel granda Xml-dosiero kun ĉiuj artikoloj (Wikimedia Downloads).

Ekzistas multaj ebloj aŭtomate krei vortarojn de paralelaj tekstoj, tio estas ofte priskribite teorie. Bedaŭrinde ne ekzistas multaj libere atingeblaj paralelaj tekstoj en esperanta kaj pola lingvoj. Kelkaj grandaj tekstoj ne estas ankaŭ tre bonaj por tiu takso, ĉar tiuj estas ofte nur tradukoj de polaj tekstoj faritaj de poloj. Tio rezultas, ke la tradukita esperanta teksto ofte havas la polan stilon. Plej bonaj estas originalaj esperantaj tekstoj, skribitaj de homoj de diferencaj nacioj, kiuj estis poste tradukitaj al pola lingvo.

Tamen ekzistas tekniko, kiu uzante statistikajn metodojn ne bezonas ekzakte la samajn tekstojn (paralelaj tekstoj) sed nur similajn tekstojn. La teorio priskribas la suba laboraĵo ( Translating collocations for bilingual lexicons: a statistical approach (Frank Smadja, Kathleen R. McKeown, Vasileios Hatzivassiloglou) Tiu ideo estas tre konforma al vikipedio, ĉar vikipedio oferas direkte la eblon kunligi artikolojn de diferencaj lingvoj. Do ni jam havas ligojn inter multaj polaj kaj esperantaj artikoloj.

Unue mi programis programeton, kiu legas unu artikolon de esperanta vikipedio kaj la korespondan artikolon de pola vikipedio. Ni hipotezas, ke en artikoloj estas uzataj la samajn aŭ tre similaj vortoj, ĉar la artikoloj priskribas la saman ideon. La ideo estas trovi vortojn, kiuj ankoraŭ ne ekzistas en vortaro. Ekzistas granda verŝajno, ke tiuj vortoj korespondas unu kun alia. La algoritmo funkcias kiel priskribite:

  • Elŝuto tekston de esperanta artikolo
  • Trovi kaj elŝuti la polan artikolon
  • Forigu ĉiujn vortetojn (pronomoj, interpunkcioj, konjunkcioj, partikloj)
  • Trovu por ĉiu vorto la radikan formon.
  • Serĉu ĉiujn formojn, kiuj ne havas tradukon en traduka vortaro
  • La restaj formoj estas tre verŝajne tradukoj

Por radikigi polajn vortojn mi uzas la programon Stempelator de projekto Morphologic. La programo estas skribita per Java, mi skribis simplan Tcp/Ip servilon por tiu programo kaj tiel mi konektis Esperantilon kun “Stempelator”.

Kreado de Vortaro per Vikipedio

Mi analizis rezultojn kaj povas konstati ke:

  • Por cetera artikolo la programo rezultas multaj nekonataj polaj vortoj kaj nur kelkaj nekonataj esperantaj vortoj
  • Esperantaj artikoloj estas ofte multe pli mallongaj kiel polaj
  • La enhavo de artikoloj estas ofte tre diferenca (Pies, Hundo)
  • Plej ofte mankas tradukoj por esperantaj adjektivoj
  • La trarigardo de paralelaj artikoloj estas bona fonto por fakaj vortoj.
  • La stilo kaj vortprovizo de esperantaj artikoloj tre varias.
  • La artikoloj ne estas tradukitaj (ebla de angla fonto), sed kreitaj de komenco

La kaŭzo por mankantaj tradukoj de adjektivoj havas multajn fontojn. Unue mia baza komenca vortaro (unua fonto estis REVO) estas farita por homoj. Tial la aŭtoroj ofte ne pritraktas adjektivojn, kiu devenas rekte do substantivoj, ĉar ĉiu polo povas derivi la adjektivon de substantivo preskaŭ aŭtomate (komputer - komputerowy). La dua kaŭzo estas, ke verŝajne la esperanta lingvo uzas pli da adjektivigoj ol la pola lingvo. Tio estis por mi iom surpriza, ĉar ankaŭ en pola lingvo adjektivigo estas kutima metodo por krei novajn nociojn. Ni komparu polan kaj germanan lingvojn,

  • system komputerowy - Komputersystem
  • książka telefoniczna - Telefonbuch

Sed la esperanta lingvo ŝajnas esti eĉ pli adjektivema ol la pola. Mi rimarkis sekvan ekzemplon. Esperanta frazparto (komunika problemo) povus esti tradukita al pola (problem komunikacyjny), sed tiu traduko ne estas tre bona kaj sonas strange por poloj. Aliaj eblaj tradukoj:

  • problem komunikacyjny - direkta traduko
  • problem z komunikacją - portempa problemo
  • problem w komunikacji - ĝenerala problemo

Flanke de tio la germana esperantisto eble diris “Komunikproblemo” laŭ sia nacia kutimo. Mi konstatas, ke por kreado de vortaroj la metodo devas esti pli speciala. Tre ofte la tradukoj ne povas estas kovritaj per simpla modelo: (unu vorto = unu vorto), sed eble de traduko de tutaj frazpartoj

  • substantivo = substantivo + adjektivo
  • adjektivo substantivo = substantivo + prepozicio + substantivo
  • verbo = verbo + adverbo
  • adjektivo = adverbo + adjektivo

Tiu funkcias ankaŭ en dua direkto. Por programi tiun modelon mi bezonus la sintaksan analizilon por pola lingvo, sed nun tio estas nur revo. La plene aŭtomata kreado de vortaroj de vikipediaj artikoloj (”Artukułów z Wikipedii”) ne estas facila, sed tamen tio povas esti granda helpilo por aŭtoroj de fakaj vortaroj. La plej avantaĝa afero estas, ke la vortoj aperas en sia natura medio, tio estas teksto. Do mi jam enskribis kelkdek novajn tradukojn en polan vortaron. Vorto sen kunteksto estas ofte nur senesprima ĉeno de signoj. Mi esperas, ke la kvalito de esperantaj artikoj plibonigos kaj artikoloj ne enhavos en venonto nur unu frazon.

Mi enmetos tiun malgrandajn programetojn en venontan eldonon de “Esperantilo”, sed ne direkte atingebla. La problemo estas la instalado kaj preparo de komuniko kun alia programo “Stemplator”. Tiu tasko ne estas solvebla por averaĝaj uzantoj de komputiloj. Se iu volas tamen ludi kun tiu programo, bonvolu skribu al mi. Mi aldonos tiam priskribon kiel tion fari.

Bez dobrego wielojęzycznego leksykonu (albo glosariusz) nie jest możliwe dobre tłumaczenie maszynowe. Dlatego dużą część czasu przetwarzam słownik Esperantilo. (widź także weblogi 1 i 2). Teraz koncentruję się jedynie o języku polskim. Ponieważ jak każdy programista jestem zmęczony, szukam możliwość uprościć tą leksykonową pracę jakimś programem. Po drugie nie jestem najkompetentniejszą osobą dla twórczości słowników i ta taksa nie jest tak łatwa, jak można by było myśleć.

Od dawna myślałem, jak wykorzystać ogromne słownictwo Wikipedi. Można wolnie i automatycznie pobierać plik wszystkie artykuły w {XML-fonto} specjalnym adresem {http://eo.wikipedia.org/wiki/Speciala:Export} (przykładowa zawartość dla: “Kwiat”). Są także przypuszczalnie pobierać plik całą wikipedię jak duży {Xml-dosiero} ze wszystkimi artykuły (Wikimedia Downloads).

Istnieją liczne możliwości automatycznie stworzyć słowniki równoległych tekstów, to jest często opisawszy teoretycznie. Niestety nie istnieją liczni wolnie osiągalne równoległe teksty w esperanckich i polskich językach. Kilka dużych tekstów nie jest także bardzo dobre dla tej taksy, ponieważ tymi są często jedynie tłumaczenia tekstów polskich zrobionych przez Polaków. To wynika, że przetłumaczony esperancki tekst często ma styl polski. Najbardziej dobre są autentyczne esperanckie teksty, napisani przez ludzi przez różne narody, które zostały potem przetłumaczone do polskiego języka.

Jednak istnieje technika, która użytkując statystycznych metod nie potrzebuje akurat takich samych tekstów (równoległe teksty) lecz jedynie podobnych tekstów. Teoria opisuje spodnie urządzenie ( Translating {collocations} dalej {bilingual} {lexicons}: {a} {statistical} {approach} (Frank Smadja, Kathleen R. {McKeown}, Vasileii Hatzivassiloglou) Ten pomysł jest bardzo odpowiedni do wikipedi, ponieważ wikipedia ofiaruje w kierunku możliwość powiązać artykuły różnych języków. Więc już mamy odnośniki pomiędzy licznymi polskie i esperanckie artykuły.

Po pierwsze programowałem skrypt, który odtwarza jeden artykuł esperanckiej wikipedi i przynależnego artykułu polskiej wikipedi. Metodycznie przypuszczamy, że w artykułach jest użytkowani takich samych albo bardzo podobne słowa, ponieważ artykuły opisują taki samy pomysł. Pomysł jest znaleźć słowa, które jeszcze nie istnieją we słowniku. Istnieje duże prawdopodobieństwo, że te słowa korespondują jeden z drugim. Algorytm funkcjonuje jak opisawszy:

  • Download tekst esperanckiego artykułu
  • Znaleźć i pobierać plik artykuł polski
  • Usuń wszystkich słówka (zaimki, znaki przestankowe, spójniki, cząstki)
  • Znajdź dla każdego słowa kondycję korzeniową.
  • Szukaj wszystkich kondycje, które nie mają tłumaczenia w tłumaczeniowym słowniku
  • Pozostałe kondycje są bardzo prawdopodobnie tłumaczeniami

Aby pierwiastkować słowa polskie użytkuję program Stempelator od projektu Morphologic. Program jest napisany {Java}, pisałem prostego Tcp / Ip komputer usługowy dla tego programu i tak łączyłem Esperantilo ze “Stempelator”.

Kreado de Vortaro per Vikipedio

Rozpatrywałem wyniki i mogę stwierdzać że:

  • Dla pozostałego artykułu program wynika liczne nieznane słowa polskie i jedynie kilka nieznanych esperanckich słów
  • Esperanckie artykuły są często o wiele krótsze jak polskie
  • Zawartość artykułów jest często bardzo różna (Pies, Pies)
  • Najczęściej brakują tłumaczeń dla esperanckich przymiotników
  • Zwiedzanie równoległych artykułów jest dobrym źródłem dla naukowych słów.
  • Styl i słownictwo esperanckich artykułów bardzo zmieniają się.
  • Artykuły nie są przetłumaczone (możliwy od źródła angielskiego), lecz stworzeni przez początek

Powód dla brakujących tłumaczeń przymiotników ma liczne źródła. Po pierwsze mój kluczowy początkowy słownik (pierwsze źródło było REVO) jest zrobiony dla ludzi. Dlatego autorzy często nie zajmują się przymiotników, który pochodzi wprost więc rzeczowniki, ponieważ każdy Polak może wywodzić przymiotnik rzeczowniku nieomal automatycznie (komputer - komputerowy). Drugi powód jest, że prawdopodobnie esperancki język użytkuje więcej uprzymiotnikowania aniżeli język polski. To było dla mnie trochę zaskakującego, ponieważ także w języku polskim uprzymiotnikowanie jest zwyczajną metodą aby stworzyć nowe pojęcia. Powiniśmy porównywać polskie i niemieckie języki,

  • system komputerowy - Komputersystem
  • {książka} {telefoniczna} - Telefonbuch

Lecz esperancki język wydaje się być nawet więcej {adjektivema} aniżeli polskim. Zauważyłem kolejny przykład. Esperancka część zdania (komunika problemo) mogłoby zostać przetłumaczony do polski (problem komunikacyjny), lecz to tłumaczenie nie jest bardzo dobre i dźwięczy dziwnie dla Polaków. Inne możliwe tłumaczenia:

  • problem komunikacyjny - bezpośrednie tłumaczenie
  • problem z komunikacją - czasowy problem
  • problem w komunikacji - ogólny problem

Z boku tego esperantysta niemiecki przypuszczalnie powiedział “{Komunikproblemo}” według swoje narodowe przyzwyczajenie. Stwierdzam, że dla twórczości słowników metoda musi być specjalniejsza. Bardzo często tłumaczenia nie mógą są okryte prostym modelem: (jedno słowo = jedno słowo), lecz przypuszczalnie od tłumaczenia całych części zdania

  • rzeczownik = rzeczownik + przymiotnik
  • przymiotnik rzeczownik = rzeczownik + przyimek + rzeczownik
  • czasownik = czasownik + przysłówek
  • przymiotnik = przysłówek + przymiotnik

Ten funkcjonuje także w drugim kierunku. Aby programować ten model potrzebowałbym syntaktycznego analizatora dla języka polskiego, lecz teraz to jest jedynie marzenie. Pełno automatyczna twórczość słowników wikipediowych artykułów (”Artukułów {z} Wikipedii”) nie jest łatwa, lecz jednak to może być dużą pomocą dla autorów naukowych słowników. Najbardziej przyjazna sprawa jest, że słowa pojawiają się we swoim naturalnym środowisku, to jest tekst. Więc już wpisywałem kilkadziesiąt nowych tłumaczeń do słownika polskiego. Słowo bez kontekstu jest często jedynie bez wyrażenia łańcuchem skinień. Mam nadzieję, że jakość esperanckich stawów ulepszy i artykuły nie będą mieścić we w przyszłości przychodzącym jedynie jednego zdania.

Będę wstawiać tego małe skrypty do przyszłej lini bazowej “Esperantilo”, lecz nie w kierunku osiągalny. Problem jest instalowaniem i przygotowaniem komunikatu z innym programem “Stemplator”. To zadanie nie jest rozpuszczalne dla przeciętnych użytkowników komputerów. Jeśli ktoś chce jednak grać z tym programem, zechciej pisz do mnie. Będę dokładać wtedy opis jako to zrobić.

Artukuł został przetłumaczony w pełni maszynowo przez wolny program Esperantilo
Adres kontaktowy:
mail@xdobry.de