Spis treści Artykuł originalny « Poprzedni artykul Nastepny artykul »

Projekt polski {Denise-Myth} o sztucznej inteligencji

Pola projekto Denise-Myth pri artefarita inteligento

Orignał w języku EsperantoMaszynowe tłumaczenie na język polski

Mi regule traserĉas la interreton je projektoj en la kampo de komputila ligvistiko. Nun mi trovis la projekton Denise-Myth. La projekto estis kreita kiel fina laboraĵo de pola universitato de Szymon Jessa. La celo de projekto estis krei la programon, kiu povus per natura lingvo komuniki kun uzanto kaj
krei bazon de kono (bazo de faktoj). La programo kolektas per dialogo kun uzanto informojn. Ĝi povas mem demandi. Fine la programo povas respondi je demandoj. Kvankam ĝenerale la problemo estas tre malfacila, la programo en komenca stato plenigas bone siajn taskojn. Ĝi povas analizi kaj kompreni simplajn polajn frazojn. Se oni povas bone demandi, la programo povas ankaŭ bone respondi. La programo regas ankaŭ la bazan logikon kaj povas rezoni. La aŭtoro de projekto devis solvi multajn problemojn. Ĉiu de tiuj problemoj estas por si mem tre ambicia kaj ĝis nun ne
sufiĉe solvita.
Tiuj problemoj estas:

  • Kompreno de natura lingvo
  • Konservado de faktoj en programaj strukturoj
  • Traserĉado de bazo de faktoj
  • Rezonado kaj provado de faktoj
  • Genero de respondoj en natura lingvo

Interesa estas ankaŭ la teknika aspekto de projekto. La problemoj estus kutime la domeno de altnivelaj lingvoj kiel prolog kaj lisp. Pro rezonado kaj konservado de faktoj la programa lingvo “prolog” havas specialajn funkciojn, kiuj estas normala parto de tiu programa lingvo. Tamen la aŭtoro decidis programi en simpla programa lingvo “C”. Li volis, ke la programo rulos sur ĉiu ebla sistemo. Nun tre ofte sistemoj de altnivelaj lingvoj kiel: calm, prolog, schema, haskel, tcl, python kuras sur multaj operaciumaj sistemoj. Tio estas ebla, ĉar ili ofte esta programite en C, do tiu argumento ne estas pro mi tre konvinka. Mi supozas, ke aŭtoro simple tre ŝatis tiun programan lingvon. En bona maniero de programistoj la aŭtoro enmetas kompleksan logikon kaj multajn regulojn en specialjn dosierojn laŭ propra teksta formato. Por mi la plej interesa parto en tiu projekto estis la analizo de pola lingvo. Tiu tasko estas multe pli komplika ol analizo de esperanta lingvo, kiun mi programis en la programo Esperantilo. Bedaŭrinde la plena priskribo de analizo ne ekzistas kiel iu dokumento, do la nura eblo estas legi la programan kodon. La programo enhavas tabelojn kun finiloj de pola lingvo kaj povas de tiuj informoj mem derivi la kazon, arton kaj bazan formoj de vorto.
Tiu estas alia maniero de prilaboro ol la projekto de morfologik, kiu enhavas la grandegan bazon de ĉiuj eblaj polaj vortoj kun gramatika priskribo kaj baza formo. La kompleta sintaksa analizo ne estas farata, ĉar la programo akceptas nur kutimajn frazojn en kutima ordo de pola lingvo. La faktoj estas konstruitaj helpe de tiel nomataj ŝlosilaj vortoj kiel: “esti”, “signifi”, “estas parto de”. La programo me povas rekoni ĉu la uzanto aldonas novan fakton aŭ ĉu ili demandas pri io. La programa teksto ne estas eĉ tro longa kaj tamen funkcias por siaj celoj.
Interesa fakto en tiu projekto estas, ke en bazo de faktoj la ĉefan rolon havas subjekto. Aŭtoro diras pri tn.
lineaj frazoj. Do la programo transformas la sintaksaj arboj de frazo al lineaj strukturoj. Laŭ tiu modelo la frazo: “Roberto iras rapide sur la vojo” havas 2 lineaj frazojn: “Roberto iras rapide” kaj “Roberto iras sur la vojo”.
La kutima semantika prezento de tiu frazo estas: iri(Roberto,sur(vojo),rapide). Do predikato havas la unuan pozicion. En la sistemo Denise tio estus Roberto -> iri -> rapide.
Kial la aŭtoro elektis alian metodon? Ĉu ekzistis la kultura kialo por tio? Mi pensas, ke por slavoj la substantivo estas pli grava elemento de frazo. En rusa lingvo kutime mallongaj frazoj tute ne havas verbon (ekzistas do nur latenta predikato).
La laboraĵo donas ankaŭ multajn ekzemplojn kiel ekstrakti logikaj faktoj de frazoj. La programo povas rezoni laŭ logikaj reguloj kaj regas la vortetojn: “iu, ĉiu, neniu”. Mi iom ludis kun la programo, kaj povas eĉ kelkfoje ricevi veraj informoj. Tio estas tre ĝoiga sperto.

Projekto Cyc

Dum la legado de laboraĵo mi ankaŭ eksciis pri pli fama projekto Cyc. La celo de tiu projekto estas la kolekto de ĉiuj faktoj de baza nivelo.
Ekzemple:

  • Homo, kiu studas, estas studanto.
  • Oni studas en universitato.
  • Studanto estas homo.

Tiu bazo povus servi por krei programon, kiu mem elektos informojn de tekstoj en natura lingvo. Poste la sistemo povos mem derivi novajn faktojn de konataj faktoj. Ĝi povos respondi je ĉiuj demandoj. La sistemo estas nun evoluita dum multaj jaroj kaj jam povas funkcii kaj plenumi planitajn taskojn. Do eĉ kompleksa rezonado funkcias.
La bazo de faktoj estas libere atingebla. Tiuj faktoj (precipe ontologio) estas tre similaj al projekto WordNet.
Ankaŭ en maŝina tradukado la aŭtomata kompreno de teksto estas tre grava por bona kvalito de traduko. Mi pensas, ke kun metodoj de similaj programoj kaj bazoj de sistemoj CycWordNet la kvalito de tradukado povos atingi la akcepteblan kvaliton. Tie la vorto “akceptebla” signifas, ke la maŝina tradukado estas same bona kiel la homa tradukado.

Kvankam oni nun pensas, ke komputiloj neniam povus kompreni tekstojn en natura lingvo, tio tamen iom post iom okazas.
“Komprenado” en tiu kazo ne estas egala al homa komprenado. Tamen maŝinoj povas kolekti faktojn de tekstoj kaj rezonadi sur bazo de tiuj faktoj. La laboraĵo de Szymon Jess enhavas kelkajn interesajn pensojn pri tiu temo. Se mi observas la serĉmaŝinon “Google”, mi pensas, ke nun ĝi estas la plej granda leganto de interreto. Tiu sistemo laboras nun laŭ tre primitivaj metodoj, tamen tiuj metodoj pliboniĝas konstante. La celo de google ne estas kompreno, sed komerca varbado, tamen iam tiu funkciado similos al komprenado.

Nun tekniko kaj interreto helpos al Esperanto ĉe ĝi evoluo kaj disvastigado. Sed la evoluo de tekniko povus signifi ankaŭ la morton de Esperanto. Tio okazos, kiam la komputiloj povus kompreni tekstojn, kaj estos mem la plej grandaj legantoj de tekstoj. Tiuj programoj plej verŝajne komprenus unue nur kelkajn lingvojn. Tiuj lingvoj certe estos: “angla, franca, japana, ĉina, germana, …”.

Regularnie przebieram sieć globalną o projektach w zakresie komputerowego {ligvistiko}. Teraz znalazłem projekt {Denise-Myth}. Projekt został stworzony jak końcowe urządzenie przez uniwersytet polski przez Szymona Jessa. Cel projektu był stworzyć program, który mógłby naturalnym językiem komunikować z użytkownikiem i
stworzyć bazę wiedzy (baza faktów). Program zbiera dialogiem z użytkownikiem informacje. Ono może samo zapytać. W końcu program może odpowiedzieć o pytaniach. Aczkolwiek ogólnie problem jest bardzo trudny, program w początkowym stanie zaprząta dobrze swoje zadania. Ono może rozpatrywać i rozumieć proste zdania polskie. Jeśli można dobrze zapytać, program może także dobrze odpowiedzieć. Program włada także kluczową logiką i może rozumować. Autor projektu musiał rozwiązywać liczne problemy. Każdy tych problemów jest dla siebie samego bardzo ambitnego i do teraz nie
dosyć rozwiązany.
Te problemy są:

  • Zrozumienie naturalnego języka
  • Zachowanie faktów w strukturach programowych
  • Przebieranie bazy faktów
  • Rezonans i badanie faktów
  • Szczep odpowiedzi w naturalnym języku

Interesujący jest także techniczny aspekt projektu. Problemy byłyby zazwyczaj dominem nych wysokim poziomie języków jak prolog i lisp. Z powodu rezonansa i zachowania faktów język programowy “{prolog}” ma specjalne funkcje, którymi jest normalna część tego programowego języka. Jednak autor decydował programować w prostym języku programowym “C”. On chciał, że program będzie toczyć na każdym możliwym systemie. Teraz bardzo często systemy nych wysokim poziomie języków jak: {calm}, prolog, schema, haskel, tcl, python kuras sur multaj operaciumaj sistemoj. To jest możliwe, ponieważ oni często {esta} programowawszy w C, więc ten argument nie jest z powodu mnie bardzo przekonywującego. Przypuszczam, że autor po prostu bardzo lubił ten język programowy. W dobrym sposobie programistów autor wstawia skąplikowaną logikę i liczne prawidła we {specialjn} pliki według własny format tekstowy. Dla mnie najbardziej interesująca część w tym projekcie była analizą polskiego języka. To zadanie jest o wiele skomplikowane aniżeli analiza esperanckiego języka, który programowałem w programie Esperantilo. Niestety pełny opis analizy nie istnieje jako jakiś dokument, więc jedyna możliwość jest odtwarzać prawodawstwo programowe. Program mieści tablice z końcówkami języka polskiego i może od tych informacji same wywodzić przypadek, sztukę i kluczowego kondycje słowa.
Tym jest inny sposób obróbki aniżeli projekt od {morfologik}, który mieści ogromną bazę wszystkich możliwych polskich słów z gramatycznym opisem i kluczową kondycją. Kompletna syntaktyczna analiza nie jest zrobiona, ponieważ program akceptuje jedynie zwyczajne zdania we zwyczajnym ładzie polskiego języka. Fakty są zbudowane za pomocą od tak zwane kluczowe słowa jak: “być”, “znaczyć”, “jest część od”. Program {me} może rozpoznać, czy użytkownik dokłada nowy fakt albo, czy oni pytają o coś. Tekst programowy nie jest nawet zbyt długi i jednak funkcjonuje dla swoich celów.
Interesujący fakt w tym projekcie jest, że w bazie faktów główną rolę ma subiekt. Autor mówi o tzw.
zdania piękne. Więc program przeistacza syntaktyczne drzewa zdania do struktur pięknych. Według ten model zdanie: “Robert idzie szybko po drogi” ma 2 piękny zdania: “Robert idzie szybko” i “Robert idzie po drogi”.
Zwyczajna semantyczna notacja tego zdania jest: iri(Roberto,sur(vojo),rapide). Więc orzeczenie ma pierwszą pozycję. W systemie {Denise} to byłoby Roberto -> iri -> rapide.
Dlaczego autor wybrał inną metodę? Czy istniał kulturowy motyw dla tego? Myślę, że dla Słowian rzeczownik jest ważniejszym elementem zdania. W rosyjskim języku zazwyczaj krótkie zdania całkiem nie mają czasownika (istnieje więc jedynie ukryte orzeczenie).
Urządzenie daje także liczne przykłady jak wydobyć logiczne fakty zdań. Program może rozumować według logiczne prawidła i włada słówkami: “ktoś, każdy, nikt”. Trochę grałem z programem, i mógą nawet kilkakrotnie otrzymywać prawdziwe informacje. To jest bardzo {ĝoiga} doświadczenie.

Projekt Cyc

W czasie lektury urządzenia także dowiedziałem się o sławniejszym projekcie o Cyc. Cel tego projektu jest kolekcją wszystkich faktów kluczowego poziomu.
Na przykład:

  • Człowiek, który studiuje, jest studiującym.
  • Studiuje się na uniwersytecie.
  • Studiujący jest człowiekiem.

Ta baza mogłaby służyć aby stworzyć program, który sam wybierze informacje tekstów w naturalnym języku. Potem system będzie mógł sam wywodzić nowe fakty znanych faktów. Ono będzie mogło odpowiedzieć o wszystkich pytaniach. System jest teraz wcześniej rozwijany się w czasie licznych lat i już może funkcjonować i załatwiać zaplanowane zadania. Więc nawet skąplikowany rezonans funkcjonuje.
Baza faktów jest wolnie osiągalna. Tymi fakty (przede wszystkim ontologia) są bardzo podobne do projektu {WordNet}.
Także w tłumaczeniu maszynowym automatyczne zrozumienie tekstu jest bardzo ważne dla dobrej jakości tłumaczenia. Myślę, że z metodami podobnych programów i baz systemów Cyc albo WordNet jakość tłumaczenia będzie mogła osiągnąć jakość możliwą do przyjęcia. Tam słowo “możliwe do przyjęcia” znaczy, że tłumaczenie maszynowe jest zarówno dobre jak człowiecze tłumaczenie.

Aczkolwiek teraz myśli się, że komputery nigdy nie mogłyby rozumieć teksty w naturalnym języku, to jednak krok po kroku odbywa się.
“Zrozumienie” w tym przypadku nie jest jednakowe do człowieczego zrozumienia. Jednak maszyny mógą zbierać fakty tekstów i rozumować na bazie od tych faktów. Urządzenie Szymonu Jess mieści kilka interesujących myśli o tym temacie. Jeśli obserwuję {serĉmaŝinon} “{Google}”, myślę, że teraz ono jest największym czytelnikiem sieci globalnej. Ten system pracuje teraz według bardzo prymitywne metody, jednak te metody stają się lepsze stale. Cel od {google} nie jest zrozumieniem, lecz handlowy werbunek, jednak kiedyś ta operacja będzie podobna do zrozumienia.

Teraz technika i sieć globalna pomogą Esperanto przy nim ewolucja i upowszechnianie. Lecz ewolucja techniki mogłaby znaczyć także zgon Esperanto. To zdarzy się, kiedy komputery mogłyby rozumieć teksty, i będą samą najwięksi czytelnicy tekstów. Te programy najprawdopodobniej rozumiałyby po pierwsze jedynie kilka języków. Te języki z pewnością będą: “angielski, francuski, japoński, chiński, niemiecki, …”.

Artukuł został przetłumaczony w pełni maszynowo przez wolny program Esperantilo
Adres kontaktowy:
mail@xdobry.de