Korpusna lingvistika

Korpusna lingvistika je naziv za metod u lingvističkim istraživanjima u kome se koriste veliki uzorci prirodnog govora (korpusi). Korpusi se sastoje od više stotina hiljada (ili nekoliko miliona ili više) reči i njih je moguće automatski pretraživati. Analizom korpusa donose se pouzdani zaključci o frekvenciji upotrebe reči i izraza, kontekstu upotrebe konstrukcija koje želimo da proučimo, o različitim značenjima jedne reči, odlikama žanrova itd^[1]. Korpusi se dele na: opšte korpuse, koji se sastoje od tekstova svih žanrova, i specijalizovane korpuse, koji se fokusiraju na uzorke jezika iz jedne epohe ili određene grupe govornika (npr. korpus jezika dece).

Primena korpusa u leksikografiji

Pošto daju pristup velikim uzorcima spontano upotrebljenog jezika, korpusi su danas neizbežan izvor podataka prilikom izrade rečnika. Veliki broj primera upotrebe koji su dostupni u elektronskoj formi ne samo da olakšava izradu, dopunjavanje i osavremenjivanje rečnika, već uvečava tačnost i preciznost informacija u rečniku. Opšti korpusi (koji sadrže više desetina ili stotina miliona reči) daju nam uvid u upotrebu i učestalost korišćenja reči, što je posebno važno za opis manje frekventnih reči. Uz to, mnogi korpusi sadrže i informacije poput mesta i vremena gde je tekst nastao, pola osobe koja je autor teksta, žanra kome tekst pripada i slične podatke koji mogu biti od koristi leksikografima. Korpusi koji se stalno dopunjavaju (engl. monitor corpora) daju uvid i u nove reči i izraze i tačne načine na koje ih govornici upotrebljavaju^[2].

Primena korpusa u sintaksičkim istraživanjima

U izučavanju sintakse, korpusi omogućavaju da se težište u istraživanjima stavi na kvantitativnu umesto kvalitativne analize. Umesto subjektivnih procena prihvatljivosti ili učestalosti određenih sintaktičkih konstrukcija, korpusi daju empirijski uvid u najtipičnije upotrebe i varijacije do kojih dolazi u odnosu na jezički varijetet, žanr i slične varijable^[2].

Istorijat korpusne lingvistike

Začeci korpusne lingvistike bila su popisivanja višestrukih upotreba reči i izraza u tekstovima. U početku su ovi poslovi bili vezani za popisivanje svih reči iz Biblije i mesta u tekstu gde su se te reči javile. Prve takve konkordanse Biblije datiraju iz XIII veka i na njima je po pravilu radio veliki broj monaha koji su indekse reči iz Biblije pravili ručno. Osim Biblije, na isti način su indeksirana i dela pisaca poput Šekspira radi lakšeg proučavanje njihovih opusa; primer takve konkordanse je A Concordance to Shakespeare Endrua Beketa iz 1787. godine^[3].

Jezuita Roberto Busa pedesetih godina XX veka započeo Index Thomisticus, indeks svih dela Tome Akvinskog, koji je kasnije prenesen na bušene kartice i predstavlja prvi korpus koji se mogao kompjuterski pretraživati i konkordansirati^[2]^[3].

Veoma važan bio je rad leksikografa, koji su rečnike izrađivali na osnovu primera stvarne upotrebe jezika. Rad dr Semjuela Džonsona na rečniku engleskog jezika iz 1755. godine oslanjao se na ogroman korpus sastavljen od papirnih traka sa primerima upotrebe reči zabeleženih između 1560. i 1660. godine. Oksfordov rečnik engleskog jezika (Oxford English Dictionary) izrađen je na isti način uz pomoć više od tri miliona papirnih traka^[3].

Ova metoda korišćena je i za potrebe izrade gramatika. Među takvim primerima su višetomna gramatika Ota Jespersena A Modern English Grammar on Historical Principles (1909–1949), kao i korpus Survey of English Usage (SEU) Corpus na osnovu kojeg je izrađena gramatika A Comprehensive Grammar of the English Language^[4]^[5].

Još jedan doprinos razvoju pretraživih zbirki dali su bibliotekari. Sedamdesetih godina XX veka bibliotekari su osmislili neke sisteme za pretraživanje ključnih reči u kontekstu radi lakše izrade bibliotečkih kataloga, bibliografija i sl^[3].

Američki lingvisti strukturalisti zagovarali su korišćenje i proučavanje autentičnih primera jezika u spontanoj upotrebi^[3]. Zbirke uzoraka teksta bile su neizostavne u istorijskoj lingvistici, gde nije bilo moguće doći do izvornih govornika, recimo srednjevekovnog engleskog jezika. Zatim, fonetičari i lingvisti koji proučavaju usvajanje jezika kod dece počeli su da koriste korpuse. U usvajanju jezika su tokom šezdesetih godina XX veka već korišćeni transkribovani primeri upotrebe jezika u govoru dece (CHILDES)^[3].

Korpusna lingvistika je na kratko oslabljena širenjem postavki transformaciono-generativne gramatike Noama Čomskog. Zbog naglaska na jezičkoj kompetenciji (jezičkoj intuiciji govornika), a ne na performansi (stvarnoj upotrebi jezika), korpusne metode su bile zanemarene u proučavanju jezika od kraja pedesetih do osamdesetih godina XX veka. Ipak, korpusna lingvistika nije nestala i šezdesete i sedamdesete godine XX veka donele su neke prekretnice u razvoju ove oblasti.

Prvi elektronski korpus pisanog jezika, the Brown Corpus, sastavili su šezdesetih godina XX veka Nelson Frensis i Henri Kučera. Ovaj korpus je prvo zapisan na bušenim karticama, a kasnije je prenesen na magnetne trake^[3]^[4]. The Brown Corpus se sastojao od oko milion reči iz tekstova na engleskom jeziku sa američkog govornog područja. Materijal je prikupljen tokom 1961. godine iz petnaest različitih jezičkih žanrova i bio je sastavljen specijalno za potrebe lingvističke analize. Ovaj korpus je postavio prve standarde u izradi opštih korpusa i poslužio je kao model za sastavljanje drugih korpusa. Po ugledu na njega nastao je britanski pandan Lancaster-Oslo/Bergen Corpus (LOB)^[4].

Prvi korpus govornog engleskog jezika izrađen je na Univerzitetu u Edinburgu je između 1963. i 1965. godine. Sastojao se od 166.000 reči^[3]. Između 1975. i 1990. izrađen je korpus govornog engleskog jezika the London-Lund Corpus of Spoken English (LLC) koji je sadržao pola miliona reči.

Tokom sedamdesetih godina XX veka postepeno se umnožavao broj elektronskih korpusa. Pored engleskog, javljaju se i korpusi na drugim jezicima. Javljaju se i drugačije vrste jezičkih korpusa. Tokom osamdesetih i devedesetih godina XX veka korpusna lingvistika je doživela pravi procvat^[3].Razvoj korpusne lingvistike u ovom periodu omogućili su sve veća dostupnost kompjutera i napredak tehnologije u pogledu kapaciteta i brzine prikupljanja i obrade podataka.

Reference

^ Taylor, C. (2008). What is corpus linguistics? What the data says, ICAME Journal 32:179–200.
^ ^а ^б ^в McEnery, T. and Wilson, A. (2001).Corpus Linguistics.Edinburgh University Press.
^ ^а ^б ^в ^г ^д ^ђ ^е ^ж ^з O’Keeffe, A., & McCarthy, M. (eds.). The Routledge Handbook of Corpus Linguistics. 2010. Abingdon: Routledge.
^ ^а ^б ^в Kennedy, G (1998). An Introduction to Corpus Linguistics. London: Adison Wesley Longman. .
^ Meyer, C. F (2004). English Corpus Linguistics: An Introduction. Cambridge: Cambridge University Press. .

Literatura

Studies in Corpus Linguistics and English Corpus Linguistics
Biber, D., Conrad, S., Reppen R. Corpus Linguistics, Investigating Language Structure and Use. ISBN 0-521-49957-7. , Cambridge: Cambridge UP, 1998.
McCarthy, D., and Sampson G. Corpus Linguistics: Readings in a Widening Discipline. ISBN 0-8264-8803-X. , Continuum, 2005.
Facchinetti, R. Theoretical Description and Practical Applications of Linguistic Corpora. ISBN 978-88-89480-37-3. . Verona: QuiEdit, 2007
Facchinetti, R. (ed.). Corpus Linguistics 25 Years on. ISBN 978-90-420-2195-2. . New York/Amsterdam: Rodopi, 2007
Facchinetti, R. and Rissanen M. (eds.). Corpus-based Studies of Diachronic English. ISBN 3-03910-851-4. . Bern: Peter Lang, 2006
Lenders, W. (2013). „Computational lexicography and corpus linguistics until ca. 1970/1980”. Ур.: Gouws, R. H., Heid, U., Schweickard, W., Wiegand, H. E. Dictionaries - An International Encyclopedia of Lexicography. Supplementary Volume: Recent Developments with Focus on Electronic and Computational Lexicography. Berlin: De Gruyter Mouton. ISBN 978-3-11-214665-1.

Spoljašnje veze

Bookmarks for Corpus-based Linguists – very comprehensive site with categorized and annotated links to language corpora, software, references, etc.
Corpora discussion list
Freely-available, web-based corpora (100 million – 400 million words each): American (COCA, COHA), British (BNC), TIME, Spanish, Portuguese
Manuel Barbera's overview site
Przemek Kaszubski's list of references
AskOxford.com Архивирано на сајту Wayback Machine (29. октобар 2007) the composition and use of the Oxford Corpus
DMCBC.com

[1] Taylor, C. (2008). What is corpus linguistics? What the data says, ICAME Journal 32:179–200.

[#1-2] а ^б ^в McEnery, T. and Wilson, A. (2001).Corpus Linguistics.Edinburgh University Press.

[:0-3] а ^б ^в ^г ^д ^ђ ^е ^ж ^з O’Keeffe, A., & McCarthy, M. (eds.). The Routledge Handbook of Corpus Linguistics. 2010. Abingdon: Routledge.

[:1-4] а ^б ^в Kennedy, G (1998). An Introduction to Corpus Linguistics. London: Adison Wesley Longman. .

[5] Meyer, C. F (2004). English Corpus Linguistics: An Introduction. Cambridge: Cambridge University Press. .

[1]

[2]

[3]

[4]

[5]