Analiza sentimenta teksta

С Википедије, слободне енциклопедије

Analiza sentimenta teksta (takođe poznata kao istraživanje mišljenja ili emociona VI) je upotreba obrade prirodnog jezika, analize teksta, računarske lingvistike i biometrije za sistematsko identifikovanje, izdvajanje, kvantifikaciju i proučavanje afektivnih stanja i subjektivnih informacija. Analiza sentimenta se široko primenjuje na materijale korisnika kao što su recenzije i odgovori na ankete, onlajn i društveni mediji, i materijali zdravstvene zaštite za aplikacije koje se kreću od marketinga preko korisničke službe do kliničke medicine. Sa porastom zastupljenosti dubokih jezičkih modela, kao što je RoBERTa, mogu se analizirati i teži domeni podataka, na primer, tekstovi vesti u kojima autori obično manje eksplicitno izražavaju svoje mišljenje/osećaj.[1]

Tipovi[уреди | уреди извор]

Osnovni zadatak u analizi sentimenta je klasifikovanje polariteta datog teksta na nivou dokumenta, rečenice ili obeležja/aspekata – bilo da je izraženo mišljenje u dokumentu, rečenici ili osobini/aspektu pozitivno, negativno ili neutralno. Napredna klasifikacija osećanja „izvan polariteta“ gleda, na primer, na emocionalna stanja kao što su uživanje, bes, gađenje, tuga, strah i iznenađenje.[2]

Prethodnici sentimentalne analize uključuju General Inquirer,[3] koji je dao nagoveštaje za kvantifikaciju obrazaca u tekstu i, posebno, psihološka istraživanja koja su ispitivala psihološko stanje osobe na osnovu analize njenog verbalnog ponašanja.[4]

Nakon toga, metod opisan u patentu Volkanija i Fogela,[5] je posebno posmatrao osećaj i identifikovao pojedinačne reči i fraze u tekstu u odnosu na različite emocionalne skale. Aktuelni sistem zasnovan na njihovom radu, nazvan EffectCheck, predstavlja sinonime koji se mogu koristiti za povećanje ili smanjenje nivoa izazvanih emocija na svakoj skali.

Mnogi drugi pokušaji koji su usledili bili su manje sofisticirani, koristeći puki polarni pogled na osećanja, od pozitivnih do negativnih, kao što je rad Ternija[6] i Panga[7] koji su primenili različite metode za otkrivanje polariteta recenzija proizvoda i recenzija filmova. Ovaj rad je na nivou dokumenta. Takođe se može klasifikovati polaritet dokumenta na višesmernoj skali, što su između ostalih pokušali Pang[8] i Snajder[9] između ostalih; Pang i Li[8] su proširili osnovni zadatak klasifikacije filmske kritike kao pozitivne ili negativne da predvidi ocene zvezdica na skali od 3 ili 4 zvezdice, dok je Snajder[9] izvršio detaljnu analizu recenzija restorana, predviđajući ocene za različite aspekte datog restorana, kao što su hrana i atmosfera (na skala sa pet zvezdica).

Prvi koraci ka spajanju različitih pristupa—učenju, leksičkom, zasnovanom na znanju, itd. — preduzeti su na Prolećnom simpozijumu AAAI 2004. gde su lingvisti, informatičari i drugi zainteresovani istraživači prvo uskladili interese i predložili zajedničke zadatke i skupove podataka za referentne vrednosti za sistematsko računarsko istraživanje afekta, privlačnosti, subjektivnosti i sentimenta u tekstu.[10]

Iako se u većini statističkih metoda klasifikacije neutralna klasa zanemaruje pod pretpostavkom da neutralni tekstovi leže blizu granice binarnog klasifikatora, nekoliko istraživača sugeriše da se, kao i u svakom problemu polariteta, moraju identifikovati tri kategorije. Štaviše, može se dokazati da specifični klasifikatori kao što su maksimalna entropija[11] i SVM[12] mogu imati koristi od uvođenja neutralne klase i poboljšati ukupnu tačnost klasifikacije. U principu postoje dva načina za rad sa neutralnom klasom. Ili, algoritam nastavlja tako što prvo identifikuje neutralni jezik, filtrira ga i zatim procenjuje ostatak u smislu pozitivnih i negativnih osećanja, ili gradi trosmernu klasifikaciju u jednom koraku.[13] Ovaj drugi pristup često uključuje procenu distribucije verovatnoće po svim kategorijama (npr. naivni Bajesovi klasifikatori kako ih primenjuje NLTK). Da li i kako koristiti neutralnu klasu zavisi od prirode podataka: ako su podaci jasno grupirani u neutralan, negativan i pozitivan jezik, ima smisla filtrirati neutralni jezik i fokusirati se na polaritet između pozitivnih i negativnih osećanja. Ako su, nasuprot tome, podaci uglavnom neutralni sa malim odstupanjima ka pozitivnom i negativnom uticaju, ova strategija bi otežala jasnu razliku između dva pola.

Drugačiji metod za određivanje sentimenta je upotreba sistema skaliranja gde se rečima koje se obično povezuju sa negativnim, neutralnim ili pozitivnim osećanjima daje pridruženi broj na skali od −10 do +10 (od najnegativnijih do najpozitivnijih) ili jednostavno od 0 do pozitivne gornje granice kao što je +4. Ovo omogućava prilagođavanje osećanja datog pojma u odnosu na okruženje (obično na nivou rečenice). Kada se deo nestrukturiranog teksta analizira korišćenjem obrade prirodnog jezika, svakom konceptu u navedenom okruženju se dodeljuje ocena na osnovu načina na koji se reči osećaja odnose na koncept i sa njim povezan rezultat.[14][15][16] Ovo omogućava kretanje ka sofisticiranijem razumevanju osećanja, jer je sada moguće prilagoditi vrednost sentimenta koncepta u odnosu na modifikacije koje ga mogu okruživati. Reči, na primer, koje intenziviraju, opuštaju ili negiraju osećanje izraženo konceptom mogu uticati na njegov rezultat. Alternativno, tekstovima se može dati pozitivna i negativna ocena jačine sentimenta ako je cilj da se odredi sentiment u tekstu, a ne ukupni polaritet i jačina teksta.[17]

Postoje razne druge vrste analize sentimenta, kao što su analiza zasnovana na aspektima, analiza ocenjivanjem (pozitivno, negativno, neutralno), višejezična analiza i detekcija emocija.

Reference[уреди | уреди извор]

  1. ^ Hamborg, Felix; Donnay, Karsten (2021). "NewsMTSC: A Dataset for (Multi-)Target-dependent Sentiment Classification in Political News Articles". "Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume"
  2. ^ Vong Anh Ho, Duong Huynh-Cong Nguyen, Danh Hoang Nguyen, Linh Thi-Van Pham, Duc-Vu Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen. "Emotion Recognition for Vietnamese Social Media Text". In Proceedings of the 2019 International Conference of the Pacific Association for Computational Linguistics (PACLING 2019), Hanoi, Vietnam (2019).
  3. ^ Stone, Philip J., Dexter C. Dunphy, and Marshall S. Smith. "The general inquirer: A computer approach to content analysis." MIT Press, Cambridge, MA (1966).
  4. ^ Gottschalk, Louis August, and Goldine C. Gleser. The measurement of psychological states through the content analysis of verbal behavior. University of California Press, 1969.
  5. ^ USA Issued 7,136,877, Volcani, Yanon; & Fogel, David B., "System and method for determining and controlling the impact of text", published June 28, 2001 
  6. ^ Turney, Peter (2002). „Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews”. Proceedings of the Association for Computational Linguistics. стр. 417—424. arXiv:cs.LG/0212032Слободан приступ. 
  7. ^ Pang, Bo; Lee, Lillian; Vaithyanathan, Shivakumar (2002). „Thumbs up? Sentiment Classification using Machine Learning Techniques”. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP). стр. 79—86. 
  8. ^ а б Pang, Bo; Lee, Lillian (2005). „Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales”. Proceedings of the Association for Computational Linguistics (ACL). стр. 115—124. 
  9. ^ а б Snyder, Benjamin; Barzilay, Regina (2007). „Multiple Aspect Ranking using the Good Grief Algorithm”. Proceedings of the Joint Human Language Technology/North American Chapter of the ACL Conference (HLT-NAACL). стр. 300—307. Архивирано из оригинала 6. 8. 2016. г. Приступљено 16. 6. 2009. 
  10. ^ Qu, Yan, James Shanahan, and Janyce Wiebe. "Exploring attitude and affect in text: Theories and applications." In AAAI Spring Symposium, Technical report SS-04-07. AAAI Press, Menlo Park, CA. 2004.
  11. ^ Vryniotis, Vasilis (2013). The importance of Neutral Class in Sentiment Analysis. 
  12. ^ Koppel, Moshe; Schler, Jonathan (2006). „The Importance of Neutral Examples for Learning Sentiment”. Computational Intelligence 22. стр. 100—109. CiteSeerX 10.1.1.84.9735Слободан приступ. 
  13. ^ Ribeiro, Filipe Nunes; Araujo, Matheus (2010). „A Benchmark Comparison of State-of-the-Practice Sentiment Analysis Methods”. Transactions on Embedded Computing Systems. 9 (4). 
  14. ^ Taboada, Maite; Brooke, Julian (2011). „Lexicon-based methods for sentiment analysis”. Computational Linguistics. 37 (2): 272—274. CiteSeerX 10.1.1.188.5517Слободан приступ. S2CID 3181362. doi:10.1162/coli_a_00049. 
  15. ^ Augustyniak, Łukasz; Szymański, Piotr; Kajdanowicz, Tomasz; Tuligłowicz, Włodzimierz (2015-12-25). „Comprehensive Study on Lexicon-based Ensemble Classification Sentiment Analysis”. Entropy (на језику: енглески). 18 (1): 4. Bibcode:2015Entrp..18....4A. doi:10.3390/e18010004Слободан приступ. 
  16. ^ Mehmood, Yasir; Balakrishnan, Vimala (2020-01-01). „An enhanced lexicon-based approach for sentiment analysis: a case study on illegal immigration”. Online Information Review. 44 (5): 1097—1117. ISSN 1468-4527. S2CID 221766042. doi:10.1108/OIR-10-2018-0295. 
  17. ^ Thelwall, Mike; Buckley, Kevan; Paltoglou, Georgios; Cai, Di; Kappas, Arvid (2010). „Sentiment strength detection in short informal text”. Journal of the American Society for Information Science and Technology. 61 (12): 2544—2558. CiteSeerX 10.1.1.278.3863Слободан приступ. doi:10.1002/asi.21416. Архивирано из оригинала 01. 02. 2021. г. Приступљено 22. 03. 2024.