Standard isključenja robota

Из Википедије, слободне енциклопедије

Standard isključenja robota (енгл. Robots Exclusion Standard) je datoteka (robots.txt) za definisanje ograničenja pristupa robota sadržaju http-servera. Datoteka se postavlja na putanju ime_sajta/robots.txt, odnosno u osnovi sajta. Ako postoji više poddomena, svaki mora da ima po jednu ovakvu datoteku. Datoteka predstavalja standard Sitemaps, sa suprotnom ciljem: da olakša pristup robotima.

Istorija:[уреди]

Martin Koster je izmislio "robots.txt" dok je radio za Nexor a zatim WebClawler 1994. "robots.txt" postaje popularan sa pojavom AltaVista i drugih zvaničnih pretrazivača narednih godina.

O standardu:[уреди]

Kada vlasnik Web sajta želi da da instrukcije web robotima, on postavlja tekstualnu datoteku robots.txt u korenu hijerarhije sajta (npr. https://www.example.com/robots.txt). Ovaj text fajl sadrži instrukcije u određenom obliku. Roboti koji izvršavaju instrukcije će pokusati da preuzmu ovaj fajl i pročitaju instrukcije pre preuzimanja bilo kog drugog fajla sa sajta. Ako ova datoteka ne postoji, web roboti će podrazumevati da vlasnik sajta ne zahteva da se izvrše nikakve posebne instrukcije i popisuje ceo sajt. robots.txt file će predstavljati zahtev kojim se traži od robota da ignoriše odredjene fajlove ili imenike dok pretražuje sajt. Takav zahtev može biti npr. davanje privatnosti rezultatima pretrage,odnosno pretpostavka da bi sadržaj izabranih direktorijuma mogao da bude pogrešan ili irelevantan za kategorizaciju čitavog sajta, ili potreba da neka aplikacija radi samo nad odredjenim podacima. Likovi ka stranama koje su navedene u robots.txt i dalje mogu da se pojavljuju u rezultatima pretrage ukoliko su povezane sa stranama koje su popisane. Neki glavni pretraživači koriste ovaj standard ,kao što su AOL (powered by Google),Baidu,Bing,Google,Yahoo!(powered by Bing),i Yandex.

Nedostaci:[уреди]

Uprkos upotrebi termina "allow" i "disallow", protokol ipak nije toliko striktan. Oslanja se na saradnju web robota,pa obeležavanje oblasti sajta,bez robots.txt ne garantuje isključenje svih web robota.Konkretno,zlonamerni roboti su loša odlika robots.txt,neki čak i ako koriste robots.txt kao instrukcije, upadaju na nedozvoljeni URL.

Iako je od bilo koga moguće sprečiti pretragu direktorijuma,uključujući i od web robota podešavanjem bezbednosti servera,kada se onemogućene direktive nalaze u robots.txt fajlu,informacija o postojanju ovih direktiva je svima dostupna.

Informacije koje navode delove kojima ne bi trebalo da se pristupa se navode u fajlu robots.txt,u direktorijumu najvišeg nivoa na sajtu. robots.txt uzorci su upareni jednostavnim poredjenjem niski , pa treba voditi računa i proveriti da li obrasci odgovaraju direktorijumima koji kao poslednji karakter imaju '/' ,inače sve datoteke čija imena počinju sa datim uzorkom će odgovarati,čak i one za koje uzorak nije namenjen.

Alternative:[уреди]

Mnogi roboti postavljaju posebnog user-agent-a pri preuzimanju sadržaja. Web administrator takodje može da konfiguriše server da automatski vrati grešku(ili alternativni sadržaj) kada otkrije da konekciju koristi jedan od robota.

Primeri:[уреди]

Zabrana pristupa svim robotima celom sajtu:

User-agent: *
Disallow:

Zabrana prisupa robotima odredjenom katalogu/private/ :

User-agent: googlebot
Disallow: /private/


Nestandardna direktiva[уреди]

Crawl-delay[уреди]

Odredjuju vreme za koje robot mora da se zadržava izmedju stranica. Ako će robot preuzimati jako često stranice, to može stvoriti opterećenje servera. Mada moderni pretrazivaći računara automatski podrazumevaju zadržavanje jednu do dve sekunde na stranici.

User-agent: *
Crawl-delay: 10

Allow[уреди]

Ima obrnuto dejstvo od direktive Dissalow-dozvoljava pristup odredjenom delu resursa.Podržava sve savremene pretraživače.U sledećem primeru se dozvoljava pristup fajlu photo.html a pristup pretraživača ka svim ostalim informacijama u katalogu/album1/ se zabranjuje.

 Allow: /album1/photo.html
 Disallow: /album1/

Prošireni standard:[уреди]

1996.godine je predložen proširen standard robots.txt koji u sebi uključuje direktive kao što su Request-rate и Visit-time. Npr:

 User-agent: *
 Disallow: /downloads/
 Request-rate: 1/5         # ne preuzimati(otvarati) više od jedne stranice 5sekundi
 Visit-time: 0600-0845 	   # preuzimati stranice samo u periodu od 6 ujutru do 8:45