Robotok kíméljenek!

A robotok köztünk járnak, s telhetetlen étvággyal szívják magukba az Internet hálózat Web lapjain található információözönt. Módszeresen haladva, a nyitólapokról, vagy más WWW szerveren talált hivatkozási címről kiindulva, felkutatják, letöltik, indexelt adatbázisokba halmozzák mindazt, ami csak elérhető, mozdítható. Itt vannak az UFO-k, vagy az "ellenség keze tette be a lábát"? Mi folyik itt tulajdonképpen?

Nos, arról van szó, hogy néhány cég kereső rendszereket működtet, melyek a fönt említett módon innen-onnan összeszedik és indexelt adatbázisokba gyűjtik az információt, melyből azután mi is keresgélhetünk. (Bővebben erről a http://web.nexor.co.uk/mak/doc/robots/robots.html címen található angol nyelvű leírásban olvashatsz). E sorok írása idején a Digital Equipment Corporation azzal dicsekszik, hogy Alta Vista keresőrendszere 20 millió web lapról már mintegy 10 milliard szóból álló indexelt anyagot gyűjtött be.

Kíváncsi vagy, hogy mit tud rólad a nagyvilág? Kedvenc WWW böngésző programoddal hívd meg valamelyik közismert keresőrendszert, pl.: [Alta Vista] [InfoSeek] [Yahoo] [Lycos], a keresőablakba írd be a nevedet, és kattintsa a Search (vagy Submit) gombra! Némi várakozás után megkapod a választ, s megjelenik a talált hivatkozások listája. Ez persze mind hypertext formában, tehát ha rákattintasz egy hivatkozásra, máris letöltheted a keresett anyagot - feltéve persze, hogy Murhy is úgy akarja!

Áldás vagy átok ezen a kereső rendszerek illetve az őket adatokkal ellátó robotok (más néven wanderers, spiders, scooters) ténykedése? Az elmúlt évek során volt néhány olyan eset, amikor - különböző okok miatt - a robotok "látogatását" nem fogadták kitörő örömmel. Néhány átgondolatlanul tervezett robot azzal okozott galibát, hogy gyors egymásutánban küldött kérelmekkel árasztotta el a szervert, néha ugyanazt a dokumentumot többször is lekérve. Más esetben szükségtelenül töltöttek le dokumentumokat, túlságosan mélyre nyúlkáltak a virtuális könyvtárfában, vagy a CGI script-ek meghívásával okoztak zavarokat.

Ezek az események vezettek oda, hogy a robots-request@nexor.co.uk illetve a www-talk@info.cern.ch levelezési listákon folytatott hosszas vita után 1994 június 30-án elfogadtak egy "szabványt" a robotok megrendszabályozására. Ez nem hivatalos szabvány, nem áll mögötte semmilyen szervezet, és senkire nézve sem kötelező jellegű. Arról van csupán szó, hogy a javaslattal egyetértő robotkészítők felajánlottak egy lehetőséget a (tisztességes) robotok nemkívánt látogatásainak megakadályozására.

A szabványt ismertető dokumentum legfrissebb változata a http://web.nexor.co.uk/mak/doc/robots/norobots.html címen érhető el.


A módszer

A robotok WWW kiszolgálókon tett látogatásainak korlátozása úgy történhet, hogy a WWW kiszolgálón létrehoznak egy szöveges állományt, amelyben a "hozzáférési politikát" leírják a robotok számára. Ennek az állománynak a "/robots.txt" helyi URL címen HTTP-vel elérhetőnek kell lennie. Bizonyos korlátozást jelent ez a megoldás, hiszen a HTML könyvtarak "legalján" elhelyezett állomány karbantartását csak a WWW szerver adminisztrátora végezheti el, ám áthidaló megoldáskent az is elképzelhető, hogy egy program automatikusan (esetleg rendszeres időközönként frissítve), több állományból állítsa össze a szóbanforgó egyetlen állományt (ennek megoldására itt nem térünk ki).

A "/robots.txt" állomány formátuma így néz ki: egy vagy több bejegyzés, melyeket CR, CR/LF vagy LF kód zár le. A bejegyzések közül legfontosabb a User-agent, amely azt mondja meg, hogy mely robot(ok)ra vonatkoznak az ezt követő bejegyzések, és a Disallow, amely a "letiltott" (pontosabban: turkálásra nem ajánlott) könyvtárfa ágakat adja meg. Az állomány #-jellel kezdődő megjegyzéseket is tartalmazhat.

Mintapéldák

Az alábbi tartalom esetén minden robotot eltanácsolunk WWW szerverünktől:

# go away
User-agent: *
Disallow: /

Bár roppant hatásos, mégsem ajánlom ezt a megoldást, mert így az általunk közzétett html lapokról semmit sem fognak tudni az Internet kereső rendszerei. Érdemes végiggondolni, hogy melyek azok a fontos (tartalomjegyzék szerepét játszó) lapok, amelyeket célszerű szabaddá tenni az indexelés számára (pl. nyitólap, személyi nyitólap, stb), s csak a többi (terjedelmes, vagy indexelésre érdektelen) anyagot tartalmazó könyvtári ágat ajánlatos letiltani. Az alábbi példában két könyvtári ágtól tanácsolunk el minden robotot:

# robots.txt for http://esca.atomki.hu/

User-agent: *                   # Minden robotra vonatkozik!
Disallow: /Dave/CE              # Itt igen terjedelmes anyag található
Disallow: /tmp/                 # Ez pedig rövidesen meg fog szűnni


Az utolsó példában a "/robots.txt" állomány tartalma azt jelzi, hogy egyetlen robotnak sem ajánlott a "/cyberworld/map/", könyvtár látogatása, kivéve a "cybermapper" nevű robotot. Megjegyzés: a paraméter nélküli Disallow azt jelenti, hogy "szabad a gazda"!

# robots.txt for http://www.site.com/

User-agent: *
Disallow: /cyberworld/map/       # Ez egy rettentő nagy URL tartomány

# Cybermapper tudja, hogy merre matasson, őt beengedhetjük...
User-agent: cybermapper
Disallow:


Felhasznált irodalom: Martijn Koster: norobots.html

URL of this page: http://esca.atomki.hu
last modification:
Page maintained by Istvan Cserny  <cserny@atomki.hu>