Pređi na sadržaj

Generisanje prirodnog jezika

S Vikipedije, slobodne enciklopedije

Generisanje prirodnog jezika (NLG – Natural Language Generation) je zadatak obrade prirodnog jezika koji podrazumeva stvaranje prirodnog jezika od mašinskih reprezentativnih sistema kao što su baza znanja ili logička forma.

Obrada[uredi | uredi izvor]

Obrada prirodnog jezika je područje u okviru oblasti veštačke inteligencije i lingvistike i bavi se problemima automatizovanog generisanja i razumevanja prirodnih ljudskih jezika. Sistemi za generisanje prirodnih jezika pretvaraju informacije iz računarskih baza u normalan ljudski jezik, dok sistemi za razumevanje prirodnih jezika pretvaraju uzorke ljudskog jezika u formalnije oblike koji olakšavaju rad računarskim programima.

Neki ljudi smatraju NLG suprotnim od razumevanja prirodnog jezika. Razlika može biti objašnjena na sledeći način: dok u razumevanju prirodnog jezika sistem treba da razreši dvosmislenosti datu rečenicu kako bi proizveo jezik mašinske reprezentacije, u NLG, sistem treba da donese odluke kako da koncept predstavi rečima.

Faze[uredi | uredi izvor]

Proces generisanja može biti jednostavan kao vođenje liste konzerviranog teksta koji se kopira i možda je povezan sa još nekim tekstom. Rezultati mogu biti zadovoljavajući u nekim jednostavnijim oblastima kao što su horoskopske mašine ili mašine za proizvodnju personalizovanih poslovnih pisama. Prefinjen NLG sistem zahteva uključivanje faza planiranja i spajanje informacija kako bi se omogućilo generisanje taksta koji izgleda prirodno i ne ponavlja se. Tipične faze su:

Određivanje sadržaja: određivanje najznačajnijih karakteristika koje su vredne pomena. Metodi korišćeni u ovoj fazi se vezuju za istraživanje podataka (data mining).

Planiranje diskursa: sveobuhvatni pregled informacija koje treba obraditi.

Slaganje rečenica: spajanje sličnih rečenica kako bi se poboljšala čitljivost i prirodnost. Na primer, rečenice „Sledeći voz je „Caledonian Express“.“ i „Sledeći voz kreće u 10.“ mogu se spojiti u rečenicu „Sledeći voz, koji kreće u 10 je „Caledonian Express“.“

Leksikalizacija: stavljanje reči u koncept.

Stvaranje odnosnih izraza: povezivanje reči u rečenicama uvođenjem zamenica i drugih tipova odnosnih jedinica.

Sintaksička i morfološka realizacija: ova faza je inverzna sintaksičkoj analizi: uzevši u obzir sve prethodno date informacije, sintaksička i morfološka pravila se primenjuju kako bi proizvela površinski string.

Ortografska realizacija: Rešava pitanja interpunkcije i formatiranja.