„Robots.txt“ und Ihre Befehle für Suchmaschinen
Es kann sinnvoll sein bestimmte Bereiche von Webseiten vom Indexieren
durch Suchrobots (Crawler, Spider) auszuschließen; etwa dann, wenn dort
Programmdateien liegen oder Dokumente, an denen noch gearbeitet
wird. Vielleicht sollen Formularergebnisse,
Logfiles oder schnell
wechselnde Informationsseiten vor dem Zugriff durch Webcrawler
geschützt werden, weil die Inhalte nur kurze Zeit im Internet stehen und
der Eintrag im Suchindex in jedem Fall inaktuell wäre.
Zu diesem Zweck haben sich die Roboterprogrammierer auf einen
Standard geeinigt, den „robots.txt“.
Diese
ASCII-Datei muss im Root
Verzeichnis (Hauptverzeichnis) eines
Servers liegen und regelt, welche "Agenten"
welchen Bereich absuchen dürfen und welchen nicht. Fast alle
Suchmaschinenrobots suchen zuerst nach der Datei robots.txt. Auch
wenn Sie eigentlich Ihre gesamte Homepage durchsuchbar halten wollen,
sollten Sie eine solche Datei anlegen, denn es macht meist keinen
Sinn,
Logfiles und das
CGI Verzeichnis zu durchsuchen.
Diese Ordner sind schon mal Standardeinträge. Auch Framesrahmen, Scriptdateien und
Ordner mit Icons brauchen wirklich nicht durchgekramt zu werden.
Die robots.txt Datei besteht aus zwei Teilen. Im ersten wird der
Roboter genannt, im zweiten das oder die Verzeichnisse, die nicht
besucht werden dürfen.
Beispiel:
User-agent: googlebot
Disallow:/Ordner1/Ordner2/
Dem Webcrawler wird also der Zugriff auf den Ordner
/Ordner1/Ordner2 verwehrt. Alle Robots kann man ansprechen,
indem man den üblichen Platzhalter () verwendet:
User-agent:
Disallow: /Ordner1/Ordner2/
Disallow: /cgi-bin/
Disallow: /logs/
Disallow: /testseiten/
Auch einzelne Dateien lassen sich ausschließen:
User-agent:
Disallow: /privat/privat.html
Disallow: /testseiten/version2.html
Wenn man einen bestimmten Robot komplett von der Homepage fernhalten
möchte, kann man das tun, indem der Name und dann kein Verzeichnis
genannt wird. Wichtig ist der Slash /.
User-agent: EmailCollector
Disallow: /
Lässt man den Slash weg, so kann man die gesamte Homepage freigeben, in
diesem Beispiel für den Robot Spider.
User-agent: Spider
Disallow:
Die Einträge lassen sich auch kombinieren. Bei umfassenden
robots.txt-Dateien kann man auch Kommentare einfügen.
Um ein Kommentar zu schreiben, wird ein Doppelkreuz # davor gesetzt.
# alle robots
User-agent:
Disallow:/Ordner1/Ordner2/
Disallow: /cgi-bin/
Disallow: /logs/
Disallow: /testseiten/
# email Sammler draussenbleiben
User-agent:EmailCollector
Disallow: /
# Robots die durchdrehen fliegen raus
User-agent: GagaRobot
Disallow: /
Dieses komplette "Draußenbleiben" kann erwünscht sein, wenn man
einem E-Mail Sammler den Zutritt verwehren möchte. Solche Sammler
werden häufig dazu missbraucht, die Adressdatenbestände von Spammern
aufzufüllen, die dann den Leuten unerwünschten Werbemüll via E-Mail
zuschicken. Diese aggressiven Robots beachten aber die robots.txt
Datei leider oft nicht. Kein Wunder, denn wer sich nicht scheut die
Leute mit dummdreisten Werbesprüchen zu belästigen, dem ist auch die
Netiquette der Robots egal.
Robots-Namen:
| Suchmaschine |
Name des Robots |
| Abacho |
AbachoBOT |
| Acoon |
Acoon Robot v1.50.001 |
| Altavista |
Scooter/1.0 scooter@pa.dec.com
Scooter-3.0.g12-23
Mercator-1.2
Mercator-1.1 |
| Aladin |
Aladin/3.324 |
| Eule |
Eule-RobotEule-Robot |
| Excite |
ArchitextSpider |
| Google |
Googlebot/2.1d
BackRub/2.1 |
| Hotbot |
Slurp/si
Slurp/2.0 |
| Lycos |
Lycos_Spider_(T-Rex) |
| MSN |
msnbot |
| Nathan |
Tarantula |
| Northernlight |
Gulliver/1.3
Gulliver/1.1 |
Hin und wieder kommt es vor, dass Robots "durchdrehen" und eine Homepage
häufig und mit hoher Bandbreite scannen. Wenn Sie dies merken, zum
Beispiel anhand der Logfiles, dann sperren Sie ihn mittels
robots.txt einfach aus. Und dann hoffen sie, dass der Robot diese
Anweisung dann auch befolgt.
Manche Robots kommen - aus unbekannten Gründen - mit robots.txt
Dateien nicht klar, die
größer als 1 kB sind. Scheint ein Software
Bug zu sein. Achten Sie deshalb darauf, die Unterverzeichnisse nicht
allzu detailliert aufzuführen. Beschränken Sie sich im Zweifelsfalle
darauf, ganze Verzeichnisbäume zu sperren oder lassen sie
ausführliche Kommentare weg. Andernfalls kann es passieren, dass die
gesamte Homepage ausgeschlossen wird.
Die englische Originalseite zu robots.txt und ausführliche
Informationen und Hintergrundmaterial zum Themenkomplex Robots gibt
es bei WebCrawler auf der Dokumentationsseite für Robots.
Achten Sie beim Hochladen der Datei robots.txt, dass der Dateinamen klein geschrieben wird (also
NICHT: Robots.txt oder gar ROBOTS.TXT).
Weitere sinnvolle Anwendungsbeispiele:
1. Sinnvoll ist es eine Indizierung von Dateien, deren Inhalt sich schnell
ändert oder die unvollständig sind, für alle Robots zu verhindern. Grund: Eine
Suchmaschine nimmt die Veränderung nicht sofort in Ihre Datenbank auf, sondern
aktualisiert diese nur alle paar Wochen. So kann es vorkommen, dass Links in
den Suchergebnissen nicht mehr aktuell sein können.
2. Robots mit einer hohen Bandbreite ausschließen: Sollten Sie in Ihren Logfiles
erkennen, dass bestimmte Robots einen übermäßig hohen Traffic verursachen, so
ist es durchaus sinnvoll, diese gleich von vornherein auszuschließen.