Web scraping

Из Википедије, слободне енциклопедије
Иди на навигацију Иди на претрагу

Web scraping (web harvesting or web data extraction) softverska tehnika izvlačenja informacija sa web sajtova. Obično, takvi programi simuliraju istraživanje World Wide Web-a od strane čoveka bilo implementacijom Hypertext Transfer Protocol (HTTP) na niskom nivou, ili ugrađivanjem or embedding kompletnog web pretraživača kao što je Mozilla Firefox.

Web scraping je usko povezan sa web indeksiranjem, gde se indeksiraju informacije na webu korišćenjem bot-a or web pauka i predstavlja univerzalnu tehniku usvojenu kod mnogih mašina za pretraživanje. Nasuprot tome, web scraping se fokusira više na transformaciju nestrukturisanih podataka na mreži, obično u HTML formatu, u strukturisane podatke koji se mogu sačuvati i analizirati u centralnoj bazi podataka ili tabeli. Web scraping je takođe povezan sa web automatizacijom, koja simulira pretraživanje od strane ljudi korišćenjem softvera. Primene web scrapinga uključuju onlajn upoređivanje cena, contact scraping, nadgledanje podataka o vremenu, detektovanje promena na web sajtovima, istraživanje, web mešap integraciju podataka sa weba.