Fonetski algoritam
Appearance
Fonetski algoritam je algoritam za indeksiranje reči po njihovom izgovoru. Većina fonetskih algoritama su razvijeni za upotrebu sa Engleskim Jezikom; zbog toga, primena pravila na reči iz drugih jezika ne mora dati smislene rezultate.
To su neophodno kompleksni algoritmi sa mnogo pravila i izuzetaka, zato što je spelovanje i izgovor reči u engleskom iskomplikovan istorijskim promenama u izgovoru i rečima pozajmljenim iz mnogih Jezika.
Među najpoznatijim fonetskim algoritmima su:
- Saundeks, koji je razvijen da bi kodirao prezimena pri popisu stanovništva. Saundeks kodovi su četvoro-karakterne niske sačinjene od jednog slova za kojim slede 3 broja.
- Dejč-Mokotov Saundeks, koji je prečišćen Saundeks, dizajniran da bolje uklapa prezimena Slovenskog i Germanskog porekla. Dejč-Mokotov Saundeks kodovi su niske sačinjene od 6 cifara.
- Kolner Fonetik: Sličan Saundeksu, ali pogodniji za Nemačke reči.
- Metafon and Dupli Metafon, koji je pogodan za engleske reči, a ne samo za prezimena. Metafoni algoritmi su osnova za mnoge popularne provere pravopisa.
- Sistem Države Njujork za Identifikaciju i Inteligenciju (NYSIIS), koji mapire slične glasove na isto slovo. Rezultat je niska that koju čitalac može da izgovori bez dekodiranja.
- Pristup Rejtinga Poklapanja razvijen od strane Zapadnih Aviolinija u 1977. - ovaj algoritam ima kodiranje i tehniku poređenja dometa.
- Kejverfon, stvoren da pomogne u spajanju podataka između političkih izbora kasnog 19-og veka i ranog 20-og veka, optimizovan za akcente prisutne u delovima Novog Zelanda.
Upotreba
[uredi | uredi izvor]- Provere pravopisa često koriste fonetske algoritme. Metafoni algoritam, na primer, može da uzme pogrešno napisanu reč i kodira je. Kod se onda traži u direktorijumu za reči sa istim ili sličnim Metafonom. Reči koje imaju isti ili sličan metafon postaju moguća alternativna spelovanja te reči.
- Mašine za pretragu često koriste fonetske algoritme da nađu rezultate koji ne odgovaraju tačno izrazu koji je korišćen za pretragu. Pretraga imena može biti teška zato što često postoje različiti oblici istog imena. Na primer, englesko ime Kler (Claire) se izgovara isto kao i Clare i Clair. Pretraga za jednim oblikom ne bi dala rezultate vezane za ostala dva oblika. Koristeći Saundeks, sva tri oblika daju isti kod, C460. Pretraga pomoću Saundeks koda će vratiti rezultate vezane za sva tri oblika.
Vidi još
[uredi | uredi izvor]- Približno uparivanje stringova
- Hamingovo rastojanje
- Levenštajnovo rastojanje
- Damerau–Levenštajnovo rastojanje
Spoljašnje veze
[uredi | uredi izvor]- Algoritam za konvertovanje reči u foneme i nazad.
- StringMetric projekat biblioteka fonetskih algoritama Scala programskog jezika.