|
„Robots.txt“ und Ihre Befehle für Suchmaschinen Es kann sinnvoll sein bestimmte Bereiche von Webseiten vom Indexieren durch Suchrobots (Crawler, Spider) auszuschließen; etwa dann, wenn dort Programmdateien liegen oder Dokumente, an denen noch gearbeitet wird. Vielleicht sollen Formularergebnisse, Logfiles* oder schnell wechselnde Informationsseiten vor dem Zugriff durch Webcrawler geschützt werden, weil die Inhalte nur kurze Zeit im Internet stehen und der Eintrag im Suchindex in jedem Fall inaktuell wäre. Zu diesem Zweck haben sich die Roboterprogrammierer auf einen Standard geeinigt, den „robots.txt“. Diese ASCII*-Datei muss im Root Verzeichnis (Hauptverzeichnis) eines Servers* liegen und regelt, welche "Agenten" welchen Bereich absuchen dürfen und welchen nicht. Fast alle Suchmaschinenrobots suchen zuerst nach der Datei robots.txt. Auch wenn Sie eigentlich Ihre gesamte Homepage durchsuchbar halten wollen, sollten Sie eine solche Datei anlegen, denn es macht meist keinen Sinn, Logfiles* und das CGI* Verzeichnis zu durchsuchen. Diese Ordner sind schon mal Standardeinträge. Auch Framesrahmen, Scriptdateien und Ordner mit Icons brauchen wirklich nicht durchgekramt zu werden. Die robots.txt Datei besteht aus zwei Teilen. Im ersten wird der Roboter genannt, im zweiten das oder die Verzeichnisse, die nicht besucht werden dürfen. Beispiel: User-agent: googlebot Disallow:/Ordner1/Ordner2/Dem Webcrawler wird also der Zugriff auf den Ordner /Ordner1/Ordner2 verwehrt. Alle Robots kann man ansprechen,
indem man den üblichen Platzhalter (*) verwendet:
User-agent: * Disallow: /Ordner1/Ordner2/ Disallow: /cgi-bin/ Disallow: /logs/ Disallow: /testseiten/Auch einzelne Dateien lassen sich ausschließen: User-agent: * Disallow: /privat/privat.html Disallow: /testseiten/version2.html Wenn man einen bestimmten Robot komplett von der Homepage fernhalten möchte, kann man das tun, indem der Name und dann kein Verzeichnis genannt wird. Wichtig ist der Slash /. User-agent: EmailCollector Disallow: / Lässt man den Slash weg, so kann man die gesamte Homepage freigeben, in diesem Beispiel für den Robot Spider. User-agent: Spider Disallow: Die Einträge lassen sich auch kombinieren. Bei umfassenden robots.txt-Dateien kann man auch Kommentare einfügen. Um ein Kommentar zu schreiben, wird ein Doppelkreuz # davor gesetzt. # alle robots User-agent: * Disallow:/Ordner1/Ordner2/ Disallow: /cgi-bin/ Disallow: /logs/ Disallow: /testseiten/ # email Sammler draussenbleiben User-agent:EmailCollector Disallow: / # Robots die durchdrehen fliegen raus User-agent: GagaRobot Disallow: /Dieses komplette "Draußenbleiben" kann erwünscht sein, wenn man einem E-Mail Sammler den Zutritt verwehren möchte. Solche Sammler werden häufig dazu missbraucht, die Adressdatenbestände von Spammern aufzufüllen, die dann den Leuten unerwünschten Werbemüll via E-Mail zuschicken. Diese aggressiven Robots beachten aber die robots.txt Datei leider oft nicht. Kein Wunder, denn wer sich nicht scheut die Leute mit dummdreisten Werbesprüchen zu belästigen, dem ist auch die Netiquette der Robots egal. Robots-Namen:
Hin und wieder kommt es vor, dass Robots "durchdrehen" und eine Homepage häufig und mit hoher Bandbreite scannen. Wenn Sie dies merken, zum Beispiel anhand der Logfiles, dann sperren Sie ihn mittels robots.txt einfach aus. Und dann hoffen sie, dass der Robot diese Anweisung dann auch befolgt. Manche Robots kommen - aus unbekannten Gründen - mit robots.txt Dateien nicht klar, die größer als 1 kB sind. Scheint ein Software Bug zu sein. Achten Sie deshalb darauf, die Unterverzeichnisse nicht allzu detailliert aufzuführen. Beschränken Sie sich im Zweifelsfalle darauf, ganze Verzeichnisbäume zu sperren oder lassen sie ausführliche Kommentare weg. Andernfalls kann es passieren, dass die gesamte Homepage ausgeschlossen wird. Die englische Originalseite zu robots.txt und ausführliche Informationen und Hintergrundmaterial zum Themenkomplex Robots gibt es bei WebCrawler auf der Dokumentationsseite für Robots. Achten Sie beim Hochladen der Datei robots.txt, dass der Dateinamen klein geschrieben wird (also NICHT: Robots.txt oder gar ROBOTS.TXT). Weitere sinnvolle Anwendungsbeispiele: 1. Sinnvoll ist es eine Indizierung von Dateien, deren Inhalt sich schnell ändert oder die unvollständig sind, für alle Robots zu verhindern. Grund: Eine Suchmaschine nimmt die Veränderung nicht sofort in Ihre Datenbank auf, sondern aktualisiert diese nur alle paar Wochen. So kann es vorkommen, dass Links in den Suchergebnissen nicht mehr aktuell sein können. 2. Robots mit einer hohen Bandbreite ausschließen: Sollten Sie in Ihren Logfiles erkennen, dass bestimmte Robots einen übermäßig hohen Traffic verursachen, so ist es durchaus sinnvoll, diese gleich von vornherein auszuschließen. |