Korpusna lingvistika — разлика између измена

Верзија на датум 24. новембар 2016. у 04:52

Korpusna lingvistika je dinamična oblast lingvistike koja se razvija velikom brzinom u savremenom dobu. U ovom članku biće ukratko prikazan istorijski razvoj korpusne lingvistike i njenih metoda.

Začeci korpusne lingvistike javljaju se u vidu popisivanja višestrukih upotreba reči i izraza u tekstovima. U početku su ovi poslovi bili vezani za popisivanje svih reči iz Biblije i mesta u tekstu gde su se te reči javile, odakle potiče izraz konkordansa. Prve takve konkordanse Biblije datiraju iz XIII veka i na njima je po pravilu radio veliki broj monaha koji su indekse reči iz Biblije pravili ručno. Osim Biblije, na isti način su indeksirana i dela pisaca poput Šekspira radi lakšeg proučavanje njihovih opusa; primer takve konkordanse je A Concordance to Shakespeare Endrua Beketa iz 1787. godine^[1].

Jezuita Roberto Busa pedesetih godina XX veka započeo Index Thomisticus, indeks svih dela Tome Akvinskog, koji je kasnije prenesen na bušene kartice i predstavlja prvi korpus koji se mogao kompjuterski pretraživati i konkordansirati^[2]^[1].

Veoma važan bio je rad leksikografa, koji su rečnike izrađivali na osnovu primera stvarne upotrebe jezika. Rad dr Semjuela Džonsona na rečniku engleskog jezika iz 1755. godine oslanjao se na ogroman korpus sastavljen od papirnih traka sa primerima upotrebe reči zabeleženih između 1560. i 1660. godine. Oksfordov rečnik engleskog jezika (Oxford English Dictionary) izrađen je na isti način uz pomoć više od tri miliona papirnih traka^[1].

Ova metoda korišćena je i za potrebe izrade gramatika. Među takvim primerima su višetomna gramatika Ota Jespersena A Modern English Grammar on Historical Principles (1909–1949), kao i korpus Survey of English Usage (SEU) Corpus na osnovu kojeg je izrađena gramatika A Comprehensive Grammar of the English Language^[3]^[4].

Još jedan doprinos razvoju pretraživih zbirki dali su bibliotekari. Sedamdesetih godina XX veka bibliotekari su osmislili neke sisteme za pretraživanje ključnih reči u kontekstu radi lakše izrade bibliotečkih kataloga, bibliografija i sl^[1].

Američki lingvisti strukturalisti zagovarali su korišćenje i proučavanje autentičnih primera jezika u spontanoj upotrebi^[1]. Zbirke uzoraka teksta bile su neizostavne u istorijskoj lingvistici, gde nije bilo moguće doći do izvornih govornika, recimo srednjevekovnog engleskog jezika. Zatim, fonetičari i lingvisti koji proučavaju usvajanje jezika kod dece počeli su da koriste korpuse. U usvajanju jezika su tokom šezdesetih godina XX veka već korišćeni transkribovani primeri upotrebe jezika u govoru dece (CHILDES)^[1].

Korpusna lingvistika je na kratko oslabljena širenjem postavki transformaciono-generativne gramatike Noama Čomskog. Zbog naglaska na jezičkoj kompetenciji (jezičkoj intuiciji govornika), a ne na performansi (stvarnoj upotrebi jezika), korpusne metode su bile zanemarene u proučavanju jezika od kraja pedesetih do osamdesetih godina XX veka. Ipak, korpusna lingvistika nije nestala i šezdesete i sedamdesete godine XX. veka donele su neke prekretnice u razvoju ove oblasti.

Prvi elektronski korpus pisanog jezika, the Brown Corpus, sastavili su šezdesetih godina XX veka Nelson Frensis i Henri Kučera. Ovaj korpus je prvo zapisan na bušenim karticama, a kasnije je prenesen na magnetne trake^[1]^[3]. The Brown Corpus se sastojao od oko milion reči iz tekstova na engleskom jeziku sa američkog govornog područja. Materijal je prikupljen tokom 1961. godine iz petnaest različitih jezičkih žanrova i bio je sastavljen specijalno za potrebe lingvističke analize. Ovaj korpus je postavio prve standarde u izradi opštih korpusa i poslužio je kao model za sastavljanje drugih korpusa. Po ugledu na njega nastao je britanski pandan Lancaster-Oslo/Bergen Corpus (LOB)^[3].

Prvi korpus govornog engleskog jezika izrađen je na Univerzitetu u Edinburgu je između 1963. i 1965. godine. Sastojao se od 166.000 reči^[1]. Između 1975. i 1990. izrađen je korpus govornog engleskog jezika the London-Lund Corpus of Spoken English (LLC) koji je sadržao pola miliona reči.

Tokom sedamdesetih godina XX veka postepeno se umnožavao broj elektronskih korpusa. Pored engleskog, javljaju se i korpusi na drugim jezicima. Javljaju se i drugačije vrste jezičkih korpusa. Tokom osamdesetih i devedesetih godina XX veka korpusna lingvistika je doživela pravi procvat^[1].Razvoj korpusne lingvistike u ovom periodu omogućili su sve veća dostupnost kompjutera i napredak tehnologije u pogledu kapaciteta i brzine prikupljanja i obrade podataka.

Reference

^ ^а ^б ^в ^г ^д ^ђ ^е ^ж ^з O’Keeffe, A., & McCarthy, M. (eds.). (2010). The Routledge Handbook of Corpus Linguistics. Abingdon: Routledge.
^ McEnery, T. and Wilson, A. (2001).Corpus Linguistics.Edinburgh University Press.
^ ^а ^б ^в Kennedy, G. (1998). An Introduction to Corpus Linguistics. London: Adison Wesley Longman.
^ Meyer, C. F. (2004). English Corpus Linguistics: An Introduction. Cambridge: Cambridge University Press.

[:0-1] а ^б ^в ^г ^д ^ђ ^е ^ж ^з O’Keeffe, A., & McCarthy, M. (eds.). (2010). The Routledge Handbook of Corpus Linguistics. Abingdon: Routledge.

[2] McEnery, T. and Wilson, A. (2001).Corpus Linguistics.Edinburgh University Press.

[:1-3] а ^б ^в Kennedy, G. (1998). An Introduction to Corpus Linguistics. London: Adison Wesley Longman.

[4] Meyer, C. F. (2004). English Corpus Linguistics: An Introduction. Cambridge: Cambridge University Press.

[1]

[2]

[3]

[4]