Veb indekser

Из Википедије, слободне енциклопедије

Veb indekser (engl. Web crawler, Web spider, ant, automatic indexer) je Internet robot koji sistematski pretražuje Veb, uglavnom u svrhe indeksiranja Veb lokacija. Takođe je poznat kao program tragač ili pretraživač Veb lokacija. U daljem tekstu će se koristiti pojam tragač.

Pretraživači veba i neki sajtovi koriste tragače da ažuriraju Veb sadržaj ili indekse sadržaja drugih Veb sajtova. Programi tragači mogu da iskopiraju sve strane koje posete radi kasnijeg procesiranja od strane pretraživača veba koji indeksira stranice koje su preuzete, tako da bi ih korisnici brže pronalazili.

Programi tragači mogu da izvrše validaciju hiperveza i HTML koda. Takođe se mogu koristiti za ekstrakciju podataka sa Veba.

Način rada programa tragača[уреди]

Tragač rad otpočinje sa nizom veb adresa koje treba posetiti. Te adrese se nazivaju semena. Kako program tragač posećuje te Veb adrese, on prepoznaje sve hiperveze koje se nalaze na toj stranici i dodaje ih na listu veb adresa koje treba posetiti, koja se naziva "granica traganja". Kasnije se te stranice rekurzivno posećuju prema skupu politika posećivanja.

Velika količina Veb stranica povlači kao posledicu da da tragač može da preuzme samo određeni broj Veb stranica u zadatom vremenskom roku, tako da je prioritet preuzimanja stranica jako bitan. Veliki broj promena povlači činjenicu da su stranice možda promenjene ili čak izbrisane.

Broj stranica za posećivanje koje generiše serverski softver, takođe otežava tragačima da izbegnu preuzimanje duplikata sadržaja. Postoji bezbroj kombinacija HTTP GET parametara, od kojih će samo mali broj vratiti jedinstven sadržaj. Na primer, uzmimo najprostiju on-lajn (eng. on-line) galeriju slika koja nudi tri opcije korisnicima, navedene pomoću HTTP GET parametara u Veb adresi. Ako postoji četiri načina da se sortiraju slike, tri izbora za velicinu ikonica, dva formata podataka, i opcija da onemogućimo sadržaj koji pruža korisnik, onda istom sadržaju možemo da pristupimo sa 48 različitih adresa, sve nastale od onog sto se može povezati na sajtu. Ova matematička kombinacija stvara problem tragačima, jer oni moraju da sortiraju kroz bezbroj kombinacija relativno malih promena da bi došli do jedinstvenog sadržaja.

Kao što su Edwards i saradnici naveli : "Uzevši u obzir to da opseg za rad tragača nije beskonačan, i ima svoju cenu, neophodno je da pretraživanje Veba bude ne samo skalabilno, već i efikasno, ako želimo da održimo neku razumnu meru kvaliteta i svežine." Tragač mora pri svakom koraku pažljivo da bira koju će sledeću stranicu da poseti.

Ponašanje programa tragača je rezultat sledeće kombinacije politika:

  • politika odabira, koja navodi koje stranice treba preuzeti,
  • politika ponovnog posećivanja, koja navodi kada proveriti da li je došlo do promene stranice,
  • politika „lepog ponašanja“, koja navodi načine za izbegavanje preopterećenje sajtova,
  • politika paralelizacije, koja navodi kako upravljati distibuiranim tragačima.

Politike programa tragača[уреди]

Politika odabira[уреди]

Uzevši u obzir trenutnu veličinu Veba, čak i veliki pretraživači Veba pokrivaju samo udeo od dela dostupnog javnosti. Istraživanjaa sprovedena 2005. godine pokazala je da [Pretraživač veba|pretraživači Veba]] velikih razmera ne indeksiraju više od 40% - 70% indeksablinog Veba; prethodna istraživanja od strane Steve Lawrence-a i Lee Giles-a pokazale su da nijedan pretraživač Veba nije indeksirao više od 16% Veba 1999. godine. Pošto tragač uvek preuzima samo frakciju Veb stranice, veoma je poželjno da preuzeta frakcija sadrži najvažnije stranice, a ne samo nasumične uzorke Veba.

Ovo zahteva jedinicu važnosti da bi se odredio prioritet Veb stranica. Vrednost stranice je funkcija njenog unutrašnjeg kvaliteta, njene popularnosti u pogledu hiperveza ili posećenosti, čak i njene Veb adrese.(Ovo drugo se odnosi na slučaj vertikalnih Veb pretraživača, ograničenih na jedinstveni internet domen najvišeg nivoa.Dizajniranje dobre politike odabira otežava još i činjenica da mora da radi sa delimičnim informacijama, kako kompletni skup Veb stranica nije poznat tokom rada programa tragača.

Junghoo Cho i saradnici su sproveli prvo istraživanje o politikama za planiranje pretrage lokacija po Vebu. Njihov skup podataka je bio 180.000 stranica sa domena stanford.edu, na kom su sprovedene simulacije nad tragačima sa različitim strategijama. Testirane mere za redosled su bile pretraga u širinu, "backlink-count" strategija i delimične PageRank kalkulacije.(PageRank je algoritam koji koristi Google-ov pretraživač Veba) Jedan od zaključaka je bio da je, ako tragač želi da preuzme stranice sa visokim PageRank prioritetom ranije u toku svog rada, bolje primeniti delimične PageRank kalkulacije, zatim pretragu u širinu i backlink-count strategiju. Međutim, ovi rezultati su bili u okviru samo jednog domena. Cho je takođe napisao doktorsku disertaciju na Stanfordu vezanu za programe tragače.

Najork i Wiener su sproveli indeksiranje lokacija na 328 miliona stranica, koristeći pretragu u širinu.[1] Otkrili su da ovom metodom program tragač preuzima stranice sa visokim PageRank prioritetom ranije tokom svoga rada (ali oni nisu uporedili ovu strrategiju sa drugim strategijama). Objašnjenje dato od strane autora za ovakav rezultat bilo je da najvažnije stranice imaju mnogo hiperveza od strane brojnih hostova ka njima, i da takve hiperveze budu najranije pronađene, bez obzira na to sa kog hosta ili stranice počinje indeksiranje lokacija.

Abiteboul je dizajirao strategiju zasnovanu na algoritmu OPIC(eng. On-line Page Importance Computation). U OPIC algoritmu, svakoj stranici je data početna suma "novca", koja se podjednako distribuira između stranica na koje pokazuje. To je slično PageRank izračunavanjima, ali je bilo brže i bilo je rađeno u jednom koraku. Tragač zasnovan na OPIC algoritmu, prvo preuzima stranice u granici traganja koje imaju veću svotu "novca". Eksperimenti su izvedeni na sintetičkom grafu od 100,000 stranica sa stepenim zakonom raspodele unutrašnjih hiperveza. Međutim, nije sprovedeno nijedno upoređivanje sa ostalim strategijama ni eksperimentisanje na pravom Vebu.

Paolo Boldi i saradnici su sproveli simulaciju na podskupu Veba koja je sadržala 40 miliona stranica sa .it domena i 100 miliona stranica sa WebBase-a, testirajući pretragu u širinu protiv pretrage u dubinu, nasumičnog poretka i sveznajuće strategije. Poređenje je zasnivano na tome koliko je PageRank dobijen na delimičnom indeksiranju lokacija približan pravoj vrednosti. Iznenađujuće, neke strategije koje nagomilavaju PageRank veoma brzo,(pre svega, pretraga u širinu i sveznajuća strategija), pružaju veoma loša progresivna izračunavanja.[2][3]

Baeza-Yates i saradnici koristili su simulaciju na dva podskupa Veba koji se sastojao od 3 miliona stranica sa .gr i .cl domena, testirajući nekoliko strategija[4]. Pokazali su da i OPIC strategija i strategija koja koristi "per-site" red bolje od strategije koja koristi pretragu u širinu, i da je takođe, kada je to moguće, veoma efikasno koristiti prethodno indeksiranje lokacija kao smernicu za trenutno.

Shervin Daneshpajouh je dizajnirao algoritam zasnovan na zajednici, koji pronalazi dobra semena. Ovaj metod indeksira lokacije sa visokim PageRank prioritetom iz drugih zajednica u manje iteracija nego indeksiranje lokacija koje počinje sa nasumičnim semenima. Ovako se, koristeći ovu metodu, dobro seme može izvući iz Veb-grafa koji je ranije korišćen. Pomoću ovih semena novo indeksiranje lokacija moze biti veoma efikasno.

Politika ponovnog posećivanja[уреди]

Veb je vrlo dinamične prirode, tako da indeksiranje frakcije Veba može da potraje nedeljama ili mesecima. Dok tragač završi svoje indeksiranje lokacija, mnogi događaji bi mogli da se dese, uključujući dodavanja, ažuriranja i brisanja sadržaja.

Iz tačke gledišta pretraživača Veba, postoji cena koja je vezana za događaj koji se desio, i time za posledicu ima zastarelu kopiju resursa. Najkorišćenije funkcije troškova su svežina i starost.[5]

Svežina: Ovo je binarna jedinica koja označava da li je lokalna kopija precizna ili nije. Svežina stranice p u skladištu za dato vreme t se definiše kao:

Fp(t)=1, ako je lokalna kopija jednaka p u trenutku t

Fp(t)=0, inače

Starost: Ovo je jedinca koja pokazuje koliko je zastarela lokalna kopija. Starost stranice p u skladištu, za dato vreme t se definiše kao:

Ap(t)= 0, ako p nije modifikovana u trenutku t

Ap(t)= t- vreme modifikacije p, inače

Edvard Kofman je radio sa definicijom cilja tragača koja je ekvivalentna svežini, ali je to drugačije formulisao: on je predlagao da tragač mora da minimalizuje frakciju vremena za koju je stranica zastarela. On je takođe primetio da se indeksiranje lokacija može modelovati pomoću biračkog sistema sa više redova, a jedinstvenim serverom, u kom je tragač server, a Veb sajtovi su redovi. Modifikacije stranica su dolasci birača, a prelazna vremena su intervali između pristupa stranica jednog Veb sajta. U ovom modelu, međuvreme koje se provodi u čekanju na birača je u biračkom sistemu je ekvivalentno prosečnoj starosti za program tragač.

Cilj tragača je da održi stranice u svojoj kolekciji što je moguće svežijim, ili da održava prosečnu starost stranica što je moguće nižom. Ovi ciljevi nisu ekvivalentni: u prvom slučaju, tragača samo zanima broj stranica koje su zastarele, dok u drugom slučaju program tragač samo brine o starosti lokalnih kopija stranica.

Cho i Garcia-Molina su proučavali dve proste politike ponovnog posećivanja:

  • Uniformna politika : Ovo podrazumeva posećivanje svih stranica istom učestalošću, bez obzira na njihovu brzinu promena.
  • Proporcionalna politika: Ovo podrazumeva češće posećivanje onih straniva koje se brže menjaju. Učrstalost posećivanja je direktno proporcionalna (procenjenoj) brzini promena.

(U oba slučaja, ponovljeni redosled indeksiranja se može izvšiti u nasumičnom ili fiksnom redosledu.)

Cho i Garcia-Molina su pokazali iznenađujuće rezultate po kojima je, u smislu prosečne svežine, uniformna politika prevazilazi proporcionalnu politiku u indeksiranju, kako na simulaciji Veba, tako i na pravom Vebu. Intuitivno, obrazloženje je to da,pošto tragači imaju ograničen broj stranica koji mogu da indeksiraju za određeno vreme:

  1. alocirati previše novih indeksiranja na stranice koje se brzo menjaju, po cenu smanjenja učestalosti ažuriranja stranica
  2. svežina stranica koje se brzo menjaju traje manje od svežine stranica koje se ne menjaju toliko često

Drugim rečima, proporcionalna politika alocira više resursa da bi indeksirala stranice koje se češće menjaju, ali dobija manju ukupnu svežinu stranica od njih.

Da bi poboljšao svežinu, program tragač treba da kazni elemente koji se jako često menjaju. Optimalna politika ponovnog posećivanja nije ni ni uniformna politika ni proporcionalna politika. Optimalni metod za održavanje prosečne svežine viskom podrazumeva ignorisanje stranica koje se prečest menjaju, a optimalni metod za održavanje prosečne starosti niskom jeste da se koriste pristupne učestalosti koje se monotono (ili sublinearno) povećavaju sa brzinom promene svake stranice. U oba slučaja, optiimalni metod je bliži uniformnoj politici nego proporcionalnoj politici, kako bi Edward Coffman rekao: „Da bi smanjili očekivano vreme zastarelosti, pristupi bilo kojoj stranici trebaju da budu najravnomernije moguće rapoređeni.“ Eksplicitne formule za politiku ponovnog posećivanja se generalno ne mogu dostići, ali se dobijaju brojčano, pošto zavise od distribucije promena stranica. Cho i Garcia-Molina pokazuju da bi se eksponencijanla distribucija dobro uklopila u opis promena stranica, dok Iperiotis i saradnici pokazuju kako upotrebiti statističke alatke da bi se odredili parametri koji utiču na ovu distribuciju.[6] Primetite da ovde sve politike ponovnog posećivanja koje se ovde razmatraju gledaju na sve stranice kao homogene, u kvalitativnom pogledu, što i nije baš realističan scenario, tako da bi dodatne informacije o kvalitetu Veb stranice trebalo da budu uključene kako bi se postigla bolja politika indeksiranja.

Politika lepog ponašanja[уреди]

Tragači mogu da preuzmu informacije daleko brže i dublje nego ljudi, tako da mogu da zadaju pogubni udar na performanse Veb sajta. Nepotrebno je reći da, ako jedan tragač obavlja više zahtjeva u sekundi i / ili preuzimanje velikih datoteka, bi teško držao korak sa zahtevima više tragača.

Kao što je navedeno od strane Koster-a, korišćnje tragača je korisno za više zadataka, ali ima svoju cenu za opštu zajednicu. Cena upotrebe programa tragača podrazumeva :

  • mrežne resurse, kako tragači, zahtevaju značajan protok i rade s visokim stepenom paralelizma tokom dugog vremenskog perioda;
  • preopterećenje servera, pogotovo ako je učestalost poseta datom serveru prevelika;
  • slabo napisane tragače, koji mogu da obore servere ili rutere ili preuzimaju stranice koje ne mogu da obrade, i;
  • lične tragače koji, ako su upotrebljeni od strane više korisnika, mogu da poremete mrežu i Veb server.

Delimično rešenje za ove probleme je protokol za isključenje robota, takođe poznat kao robots.txt protokol, koji je standard za administratore i ukazuje na to kom delu Veb servera tragači ne bi trebalo da pristupe. Ovaj standard ne obuhvata predlog za interval poseta prema istom serveru, iako je interval najefikasniji način da se izbegne preopterećenje servera. Od nedavno su komercijalni pretraživači poput Google-a, Ask Jeeves-a i Yahoo! Search u mogućnosti da koriste dodatni „crawl-delay“ parametar u robots.txt fajlu naznače broj sekundi razmaka izmađu zahteva.

Prvi predloženi razmak između konekcijaa iznosio je 60 sekundi. Međutm, ako su stranice preuzimane ovim tempom sa nekog Veb sajta sa više od 100.000 stranica, preko savršene veze bez kašnjenja i sa beskonačnim protokom, bilo bi potrebno više od 2 meseca da se preuzme samo ceo taj Veb sajt. Takođe, samo mali deo tih informacija sa Veb servera bi bio iskorišćen. Ovo ne izgleda prihvatljivo.

Čo koristi 10 sekundi kao interval za pristupe, a WIRE tragač koristi 15 sekundi kao podrazumevanu vrednost.[7] MercatorWeb tragač koristi politiku adptivne pristojnosti: Ako je trebalo t sekundi da se preuzme dokument sa datog servera, tragač čeka 10t sekundi pre preuzimanja sledeće stranice.[8] Dill i saradnici koriste interval od 1 sekunde.[9]

Za one koji koriste tragače u istraživačke svrhe detaljnija analiza torškova i koristi je neophodna, kao i etička pitanja koja treba uzeti u obzir prilikom odlučivanja gde se indeksira i koliko brzo se indeksira.

Nepouzdani dokazi iz pristupnih logova pokazuju da pristupni intervali poznatih tragača variraju između 20 sekundi i 3-4 minuta. Treba napomenuti da, čak i kada se vrlo lepo ponašaju i preduzimaju sve mere zaštite da bi se izbeglo preopterećenje Veb severa, dobiju neke pritužbe od strane administratora Veb servera.Brian i Page su primetili da: „...upravlajti tragačem koji povezuje više od pola miliona servera stvara popriličan broj mejlova i poziva. Zbog ogromnog broja ljudi koji dođu on-line, uvek ima onih koji ne znaju šta je tragač, zato što je ovo prvi koji videli.“

Politika paralelizacije[уреди]

Glavni članak : Distribuirano indeksiranje Veba

Paralelni tragač je tragač koji ima pokrenute višestruke procese istovremeno. Cilj je da se maksimalno poveća preuzimanje dok se minimalizuje preplavljenost nastala paralelizacijom i da se izbegne ponovno preuzimanje iste stranice. Da bi izbegao preuzimanje jedne stranice više puta, sisteu za indeksiranje treba politika za dodelu novih Veb adresa otkrivenih tokom indeksiranja, pošto se ista adresa može javiti u dva ražličita procesa indeksiranja.


Tematsko indeksiranje(Fokusirano indeksiranje)[уреди]

Glavni članak :Tematski tragač/Veb indekser

Važnost stranice za program tragač možemo izraziti preko sličnosti sa stranicom koja je zadata u upitu. Tragači koji pokušavaju da preuzmu stranice koje su međusobno slične nazivaju se tematski tragači ili tematski Veb indekseri. Koncepte tematskog i fokusiranog indeksiranja su prvi uveli Menczer i Chakrabarti i saradnici.[10]

Glavni problem u tematskom indeksiranju je taj što bi mi voleli da budemo u mogućnosti da predvidimo sličnost stranice sa tekstom zadatim u upitu pre nego što zapravo preuzmemo stranicu. Mogući prediktor je tekst u sidrima hiperveza; to je pristup koji je zauzeo Pinkerton u prvom tragaču u ranim danima Veba. Diligenti i saradnici[11] predlažu koriđćenje celokupnog sadržaja stranice koja je već posećena da bi se odredila sličnost između pokrenutog upira i stranice koja još nije posećena. Učinak tematskog tragača zavisi najviše od bogatsva hiperveza u određenoj temi koja se pretražuje, i tematsko indeksiranje se uglavnom oslanja Pretraživače veba da im pruži početne tačke.

Ograničavanje praćenih hiperveza[уреди]

Tragač mođe samo da traži HTML stranice i da izbegne sve ostale MIME-tipove. Da bi tražio samo HTML resurse, tragač mora da izvrši HTTP HEAD zahtev za utvrđivanje MIME-tipa veb resursa, pre nego sto zatraži ceo resurs sa HTTP GET zahtevom. Da bi se izbegli brojni HEAD zahtevi, tragač može ispitati samo Veb adresu i zatražiti resurs ukoliko se adresa završava nečim od sledećeg:

  • .HTML
  • .HTM
  • .ASP
  • .ASPX
  • .PHP
  • .JSP
  • .JSPX
  • /

Ova straegija može da izazove da brojna HTML Veb sredstva budu nenamerno preskočena.

Neki tragači mogu da izbegnu sve resurse koji imaju „?“ u njima (oni se dinamički proizvode) kako bi se izbegle sve zamkekoje mogu da nateraju tragač da preuzima neograničen broj Veb adresa sa Veb lokacije. Ova strategija je nepouzdana ako sajt koristi engine za prepravku da bi pojednostavio svoju adresu.

Normalizacija Veb adresa[уреди]

Glavni članak: Normalizacija Veb adresa

Tragači obično vrše neki vrstu nomalizacije Veb adresa, kako bi se izbeglo indeksiranje istog resursa dva puta. Termin normalizacije Veb adrese, koji se takođe naziva kanonizacijom Veb adrese, odnosi se na proces menjanja i standardizacije Veb adresa na dosledan način. Postoji nekoliko tipova normalizacije koji mogu biti izvršene, uključujući i konverziju Veb adrese u mala slova, uklnjanje segmenata „.“ i „..“, kao i dodavanje pratećih sleševa na neprazne path komponente.[12]

Indeksiranje sa uzlaznom putanjom[уреди]

Neki tragači nameravaju da preuzmu što je više resursa moguće sa određenog Veb sajta. Tako je tragač sa uzlaznom putanjom uveden da bi se popeo na svaku putanju do željene putanje u datoj adresi. Na primer, kad mu je dato seme http://llama.org/hamster/monkey/page.html, tragač će pokušati da indeksira /hamster/monkey , /hamster i /. Cothez je ustanovio da je tragač sa uzlaznom putanjom veoma efektivan u pronalaženju izolovanih resursa, ili resursa za koje, u obićnom indeksiranju, dolazni link ne bio bio pronađen.

Mnogi tragači sa uzlaznom putanjom su takođe poznati kao „Softver za ubiranje Web sadržaja“ (engl. Web scraping software, Web harvesting software), zato što se koriste da prikupe kompletan sadržaj sa određene stranice ili hosta.

Akademski tragači[уреди]

Primer tematskih tragača su akademski tragači, koji indeksiraju akademske dokumente sa otvorenim pristupom, kao što si citeseerxbot, tragač CiteSeerX pretraživača. Drugi akademski pretraživači su Google Scholar i Microsoft Academic Search i dr. Pošto je većina akademskih dokumenata publikovana u PDF formatu, ovakva vrta tragača je posebno zainteresovana za indeksiranje PDF, postscript, Microsoft Word i njihovih komprimovanih formata. Zbog ovoga, opšti open-source tragači, kao što je Heritrix, moraju biti prilagođeni da filtriraju ostale MIME-tipove, ili se korist Posredni softver koristi da izdvoji ove dokumente i ubaci ih u bazu podataka i skladište za tematsko indeksiranje. Izazov je identifikovati da li su ovi dokumenti akademski, toliko da to može značajno zagušiti proces indeksiranja, tako da se kao post-procesi koriste algoritmi zasnovani na mašinskom učenju i regularnim izrazima. Ovi akademski dokumenti se najčešće dobijaju sa početnih stranica osoblja fakulteta i studenara, ili stranica za publikacije naučnih instituta. Pošto ovi dokumenti zauzimaju mali deo ukupne Veb stranice, dobar izbor semena je važan za poboljšanje efikasnosti ovih tragača. Drugi akademski tragači mogu da preuzmu običan tekst i HTML datoteke, koje sadrže metapodtke akademskih papira, kao što su naslovi, papiri i sažeci. Ovo uvećava ukupni broj papira, ali značaja deo njih možda neće obezbediti bespaltna preužimanja.

Arhitekture[уреди]

Arhitektura visokog nivoa standardnog programa tragača

Tragač ne samo da mora da ima dobru strategiju indeksiranja, kao što je navedeno u prethodnim poglavljima,već takođe treba da ima optimizovanu arhitekturu.

Shkapeniuk i Suel su primetili da:

„Iako je prilično lako da se izgradi spor tragač koji preuzima nekoliko strana u sekundi za kratko vreme, izgradnja visoko performansnog sistema koji može da preuzme stotine miliona stranica za nekoliko nedelja predstavlja niz izazova u projektovanju sistema, I/O-a, efikasnosti mreže, i robusnosti i upravljivosti.“

Tragači su centralni deo pretraživača, a detalji o njihovim algoritmima i arhitekturi se čuvaju kao poslovne tajne. Kada su dizajni puzavca objavljeni, često postoji značajan nedostatak detalja koji sprečava druge da reprodukuju rad. Tu se takođe pojavljuje zabrinutost „pretraživačkog spamovanja“, koje sprečava vodeće internet pretrazivače od objavljivanja njihovog rangiranja algoritama.

Identifikacija tragača[уреди]

Tragači se obično indetifikuju na Veb serveru koristeći korisničke agente u HTTP zahtevu. Veb sajt administratori će obično ispitati njihovo Veb serversko prijavljivanje i koristi polje korisnickog naloga da odrede koji puzavac je posetio veb server i koliko često. Korisničko polje može da sadrži URL adresu gde administrator veb sajta može saznati više informacija o tragaču. Ispitivanje Veb serverske prijave je dosadan zadatak, stoga neki administratori koriste alate kao što su „CrawlTrack“ ili SEO „Crawlytics“ da se indetifikuju, prate i verifikuju programi tragači. Spambotovi i drugi zlonamerni tragači najverovatnije neće postaviti identifikacione podatke u polje korisničkog agenta, ili mogu maskirati svoj indetitet u Veb pregeldač ili neki drugi poznati program tragač.

Važno za tragače je da se indetifikuju tako da administratori Veb sajta mogu da kontaktiraju vlasnika ako je to potrebno. U nekim slučajevima, tragači mogu da se slucajno zarobe u zamku za tragače ili mogu preopteretiti Veb server zahtevima, i tada vlasnik mora da zaustavi tragača. Indetifikacija je takođe korisna za administratore koji su zainteresovani da znaju kada mogu da očekuju da će njihove stranice biti indeksirane od strane pretraživača Veba.

Primeri[уреди]

Sledi lista objavljenih arhitektura tragača za tragače opšte namene (bez tematskih tragača) sa kratkim opisom koji uključuje imena pripisana razlicitim komponentama i izuztenim karakteristikama:

  • Yahoo!Slurp je ime Yahoo-vog tragača.
  • Bingbot je ime za Microsoftov Bing program tragač. Zamenio je Msnbot.
  • Fast Crawler[13] je distribuirani tragač, koristi ga Fast Search & Transfer,i okvirni opis njegove arhitekture je dostupan.
  • Googlebot je opisan u nekim detaljima, ali misli se samo na raniju verziju njegove arhitekture, koja je bila zasnovana na C++ i Phyton-u. Tragač je integrisan u proces indeksiranja, jer je parsiranje teksta urađeno za indeksiranje celog teksta i takođe za ekstrakciju Veb adrese. Postoji Veb adresa servera koja šalje spiskove Veb adresa koja se unose u nekoliko tragačkih procesa. Tokom analize, pronađene Veb adrese su prosleđene Veb serveru da proveri da li je Veb adresa ranije viđena.Ako nije, Veb adresa je dodata u red tog Veb servera.
  • PolyBot je distriburani tragač napisan u C++ i Phyton-u, koji se sastoji od „menadžera tragača“, jednog ili više „preuzimača“ i jednog ili više „DNS pronalazača“. Prikupljene Veb adrese se smeštaju u red na disku, a kasnije se obrađuju da bi pretraživale već viđene Veb adrese u batch modu. Politika lepog ponašanja razmatra i domene trećeg i drugog nivoa(npr. :www.exapmple.com i www2.example.com su domeni trećeg nivoa) jer se domeni trećeg nivoa hostuju na istom Veb serveru.
  • RBSE bio je prvi objavljeni tragač. On se zasnivao na dva programa: Prvi program, „pauk“, održava red u relacionoj bazi podataka, i drugi program „Mite“, je modifikovan www ASCII pretrazivac koji preuzima stranice sa interenta.
  • WebCrawler je korišćen za izgradnju prvog javno dostupnog kompletnog tekst indeks podskupa Veba. On se zasnovao na lib-WWW da preuzima stranice, dok je drugi program parsirao i sortirao Veb adrese za pretragu Veb grafa u širinu. To takođe uključuje tragač koji radi u realnom vremeu koji sledi veze na osnovu sličnosti teksta sidra sa datim upitom.
  • World Wide Web Worm je tragač koji je bio korišćen za izgradnju jednostavnog indeksa naslova dokumenata i Veb adresa. Indeks se može pretraživati pomocu grep Unix komande.
  • WebFountain je distribuiran, modularni tragač sličan Mercator-u ali napisan u C-u. Poseduje „kontrolor“ mašinu koja koordinira radom skupa mašina „mrava“. Posle višestrukog preuzimanja stranica, i učestalost promena stranice se zaključuje za svaku stranicu i onda se, metodom nelinaernog programiranja, mora rešiti sistem jednacina koji maksimizuje svežinu. Autori preporucuju da se koristi ovaj redosled indeksiranja u ranim fazama rada tragača, i da se u posle toga preže na uniforman redosled indeksiranja, u kojem se sve stranice pregledaju istom učestalošću.
  • WebRACE[14] je modul za indeksiranje i keširanje implementiran u Javi, a koristi se kao deo više generičkog sistema nazvanog eRACE. Sistem prima zahteve od korisnika za preuzimanje Veb stranica, tako da tragač deluje delom i kao pametan proksi server. Sistem takođe obrađuje zahteve za „pretplatu“ na Veb stranice koje se moraju pratiti : kada se stranice menjaju,one moraju biti preuzete od strane tragača i pretplatnik mora biti obavešten. Najizraženija osobina WebRACE-a je da, dok vecina tragača počinje sa skupom semena, WebRACE neprestano prima nove početne Veb adrese od kojih ce da dotpočne indeksiranje.

Pored specifične arhitektura ovde navedenih tragača, postoji i opšta arhitektura tragača objavljena od strane Cho-a i Chakrabarti-ja.

Dodatni izvori informacija[уреди]

  • Cho, Junghoo, „Web Crawling Project“, UCLA Computer Science Department.
  • WIVET je benchmarking projekat od strane OWASP-a, čiji je cilj da proveri da li tragač može da identifikuje sve hiperveze na ciljnoj Veb stranici.

Reference[уреди]

  1. ^ Marc Najork and Janet L. Wiener. Breadth-first crawling yields high-quality pages. In Proceedings of the Tenth Conference on World Wide Web, pages 114–118, Hong Kong, May 2001. Elsevier Science.
  2. ^ Boldi, Paolo; Bruno Codenotti, Massimo Santini, Sebastiano Vigna (2004). „UbiCrawler: a scalable fully distributed Web crawler“. Software: Practice and Experience 34 (8): 711–726. DOI:10.1002/spe.587 Приступљено 23. 3. 2009.. 
  3. ^ Boldi, Paolo; Massimo Santini, Sebastiano Vigna (2004). „Do Your Worst to Make the Best: Paradoxical Effects in PageRank Incremental Computations“. Algorithms and Models for the Web-Graph. стр. 168–180 Приступљено 23. 3. 2009.. 
  4. ^ Baeza-Yates, R., Castillo, C., Marin, M. and Rodriguez, A. (2005). Crawling a Country: Better Strategies than Breadth-First for Web Page Ordering. In Proceedings of the Industrial and Practical Experience track of the 14th conference on World Wide Web, pages 864–872, Chiba, Japan. ACM Press.
  5. ^ Cho, Junghoo; Hector Garcia-Molina (2000). „Synchronizing a database to improve freshness“. Proceedings of the 2000 ACM SIGMOD international conference on Management of data. Dallas, Texas, United States: ACM. pp. 117–128. DOI:10.1145/342009.335391. ISBN 1-58113-217-4. Archived from the original on 18. 8. 2003. Приступљено 23. 3. 2009.. 
  6. ^ Ipeirotis, P., Ntoulas, A., Cho, J., Gravano, L. (2005) Modeling and managing content changes in text databases. In Proceedings of the 21st IEEE International Conference on Data Engineering, pages 606-617, April 2005, Tokyo.
  7. ^ Baeza-Yates, R. and Castillo, C. (2002). Balancing volume, quality and freshness in Web crawling. In Soft Computing Systems – Design, Management and Applications, pages 565–572, Santiago, Chile. IOS Press Amsterdam.
  8. ^ Heydon, Allan; Najork, Marc (26. 6. 1999.) (PDF). Mercator: A Scalable, Extensible Web Crawler. Archived from the original on 22. 11. 2004. Приступљено 22. 3. 2009.. [мртва веза од October 2010]
  9. ^ Dill, S., Kumar, R., Mccurley, K. S., Rajagopalan, S., Sivakumar, D., and Tomkins, A. (2002). Self-similarity in the web. ACM Trans. Inter. Tech., 2(3):205–223.
  10. ^ Chakrabarti, S., van den Berg, M., and Dom, B. (1999). Focused crawling: a new approach to topic-specific web resource discovery. Computer Networks, 31(11–16):1623–1640.
  11. ^ Diligenti, M., Coetzee, F., Lawrence, S., Giles, C. L., and Gori, M. (2000). Focused crawling using context graphs. In Proceedings of 26th International Conference on Very Large Databases (VLDB), pages 527-534, Cairo, Egypt.
  12. ^ Pant, Gautam; Srinivasan, Padmini; Menczer, Filippo (2004). „Crawling the Web“. In Levene, Mark; Poulovassilis, Alexandra. Web Dynamics: Adapting to Change in Content, Size, Topology and Use. Springer. стр. 153–178. ISBN 978-3-540-40676-1 Приступљено 22. 3. 2009.. 
  13. ^ Risvik, K. M. and Michelsen, R. (2002). Search Engines and Web Dynamics. Computer Networks, vol. 39, pp. 289–302, June 2002.
  14. ^ Zeinalipour-Yazti, D. and Dikaiakos, M. D. (2002). Design and implementation of a distributed crawler and filtering processor. In Proceedings of the Fifth Next Generation Information Technologies and Systems (NGITS), volume 2382 of Lecture Notes in Computer Science, pages 58–74, Caesarea, Israel. Springer.

Literatura[уреди]