eine ganze reihe von suchmaschinen robots (bots, crawler, spider) sowie etliche grabber (z.b. wget) halten sich an vorgaben aus der robots.txt.
wie genau auf die robots.txt reagiert wird, hängt von der jeweiligen programmierung des bots ab.
robots.txt ist eine textdatei (plain text) die auf der obersten (root) ebene deines webverzeichnisses (z.b. in htdocs) liegen muss. sie sollte nach dem letzten zeichen keinen umbruch oder weitere leerzeilen enthalten.
User-agent: * Disallow:
die einfachste version: allen bots ( der * ist eine sogenannte wildcard … alle user-agents sind angesprochen) wird zugang zu allen ordnern und dateien gewährt.
User-agent (beachte die schreibweise) ist der name mit dem sich der bot bei dir identifiziert. Disallow bedeutet verbieten … in dem fall ist nichts verboten, sprich alles erlaubt
vielleicht fragst du dich jetzt: wozu brauch ich eine robots.txt, wenn ich eh alles erlaube?
du brauchst sie, weil ohne erzeugt jeder besuch eines robots eine fehlermeldung (404) auf deinem server und das können viiiiele werden; ausserdem reagieren manche bots verärgert auf 404, die sie ja auch empfangen, und bleiben deiner seite fern, was nicht wirklich sinn der sache ist.
wenn du alles verbieten willst, schreib
User-agent: * Disallow: /
in deinen robots.txt.
bestimmte bots erlauben, den rest verbieten:
User-agent: Googlebot Disallow: User-agent: Slurp Disallow: User-agent: * Disallow: /
oder, einen verbieten und den rest erlauben:
User-agent: Googlebot-Image Disallow: / User-agent: * Disallow:
beachte, dass die wildcard immer als letztes kommt
nur bestimmte dateien und ordner verbieten und den rest erlauben:
User-agent: * Disallow: /cgi-bin/ /bilder/ /privat /brittneyspears.html /sonstiges.php
/bilder/ verbietet z.b. bilder/index.html und folgende erlaubt aber bilder.html. /privat verbietet den ordner privat sowie eine privat.html.
der nachteil bei dieser methode ist, dass jeder sehen kann was du verbieten möchtest und die unhandlichkeit bei komplexen seitenstrukturen. allemal besser ist es zu verbietende dateien mit einem
zu versehen.
einen kommentar fügst du per # (gartenzaun ) ein:
# bildersuche von google verbieten
User-agent: Googlebot-Image
Disallow: /
manche bots (z.b. slurp, msn, irlbot) erlauben es, ihnen eine aufrufverzögerung (delay) vorzuschreiben. das macht aus performancegründen durchaus sinn: wenn bots damit beschäftigt sind deine seiten im sekundentakt aufzurufen, kann es für deine menschlichen besucher zu verzögerungen beim seitenaufruf kommen und das will ja keiner
User-agent: Slurp #url: http://help.yahoo.com/help/us/ysearch/slurp/index.html #note: inktomi's "slurp" can read a minimum delay between hits Disallow: Crawl-delay: 20
Crawl-delay: 20 heisst zwanzig sekunden zwischen jedem erneuten aufruf …
uff, viel geworden
hier findest du noch eine beispiel robots.txt
so und nun bist du dran
stell fragen, signalisier zustimmung oder gib mir einen verriss … dazu gibt es die kommentarfunktion …