vom richtigen umgang mit der robots.txt

eine ganze reihe von suchmaschinen robots (bots, crawler, spider) sowie etliche grabber (z.b. wget) halten sich an vorgaben aus der robots.txt.

wie genau auf die robots.txt reagiert wird, hängt von der jeweiligen programmierung des bots ab.

robots.txt ist eine textdatei (plain text) die auf der obersten (root) ebene deines webverzeichnisses (z.b. in htdocs) liegen muss. sie sollte nach dem letzten zeichen keinen umbruch oder weitere leerzeilen enthalten.

User-agent: *
Disallow:

die einfachste version: allen bots ( der * ist eine sogenannte wildcard … alle user-agents sind angesprochen) wird zugang zu allen ordnern und dateien gewährt.

User-agent (beachte die schreibweise) ist der name mit dem sich der bot bei dir identifiziert. Disallow bedeutet verbieten … in dem fall ist nichts verboten, sprich alles erlaubt

vielleicht fragst du dich jetzt: wozu brauch ich eine robots.txt, wenn ich eh alles erlaube?

du brauchst sie, weil ohne erzeugt jeder besuch eines robots eine fehlermeldung (404) auf deinem server und das können viiiiele werden; ausserdem reagieren manche bots verärgert auf 404, die sie ja auch empfangen, und bleiben deiner seite fern, was nicht wirklich sinn der sache ist.

wenn du alles verbieten willst, schreib

User-agent: *
Disallow: /

in deinen robots.txt.

bestimmte bots erlauben, den rest verbieten:

User-agent: Googlebot
Disallow:
 
User-agent: Slurp
Disallow:
 
User-agent: *
Disallow: /

oder, einen verbieten und den rest erlauben:

User-agent: Googlebot-Image
Disallow: /
 
User-agent: *
Disallow:

beachte, dass die wildcard immer als letztes kommt

nur bestimmte dateien und ordner verbieten und den rest erlauben:

User-agent: *
Disallow: /cgi-bin/
/bilder/
/privat
/brittneyspears.html
/sonstiges.php

/bilder/ verbietet z.b. bilder/index.html und folgende erlaubt aber bilder.html. /privat verbietet den ordner privat sowie eine privat.html.

der nachteil bei dieser methode ist, dass jeder sehen kann was du verbieten möchtest und die unhandlichkeit bei komplexen seitenstrukturen. allemal besser ist es zu verbietende dateien mit einem

zu versehen.

einen kommentar fügst du per # (gartenzaun ) ein:

# bildersuche von google verbieten
User-agent: Googlebot-Image
Disallow: /

manche bots (z.b. slurp, msn, irlbot) erlauben es, ihnen eine aufrufverzögerung (delay) vorzuschreiben. das macht aus performancegründen durchaus sinn: wenn bots damit beschäftigt sind deine seiten im sekundentakt aufzurufen, kann es für deine menschlichen besucher zu verzögerungen beim seitenaufruf kommen und das will ja keiner

User-agent: Slurp
#url: http://help.yahoo.com/help/us/ysearch/slurp/index.html
#note: inktomi's "slurp" can read a minimum delay between hits
Disallow:
Crawl-delay: 20

Crawl-delay: 20 heisst zwanzig sekunden zwischen jedem erneuten aufruf …

uff, viel geworden

hier findest du noch eine beispiel robots.txt

so und nun bist du dran

stell fragen, signalisier zustimmung oder gib mir einen verriss … dazu gibt es die kommentarfunktion …

talk | share: , , , | | | home → mathematik und informatik → vom richtigen umgang mit der robots.txt

talk to me

<a href="" title=""> <b> <cite> <code> <em> <i> <q cite=""> <s> <pre lang="" line="" escaped="" cssfile=""> <span lang=""> <img src=""> <u>