Robots Exclusion Standard
Nach der
Übereinkunft des
Robots-Exclusion-Standard-Protokoll
liest ein Webcrawler (Robot) beim Auffinden einer
Webseite zuerst die Datei robots.txt (kleingeschrieben) im Stammverzeichnis (Root) einer Domain. In dieser Datei kann festgelegt werden,
ob und wie die Webseite von einem Webcrawler besucht
werden darf. Website-Betreiber haben so die Möglichkeit, ausgesuchte Bereiche
ihrer Webpräsenz für (bestimmte) Suchmaschinen zu sperren. Das Protokoll ist
rein hinweisend und ist auf die Mitarbeit des Webcrawlers
angewiesen. Man spricht hier auch von „freundlichen“
Webcrawlern. Ein Ausgrenzen bestimmter Teile einer Webpräsenz durch das
Protokoll garantiert keine Geheimhaltung. Manche Suchmaschinen zeigen die vom
Webcrawler
gefundenen URLs trotzdem in den Suchergebnisseiten an, jedoch ohne Beschreibung
der Seiten.
Das Protokoll
wurde 1994 von einer unabhängigen Gruppierung entwickelt, ist inzwischen jedoch
allgemein anerkannt und kann als Quasi-Standard betrachtet
Aufbau
Die Datei
robots.txt ist eine Textdatei in einem einfachen, sowohl von Menschen als auch
maschinenlesbaren Format. Jede Zeile kann als Datensatz aus zwei, durch einen
Doppelpunkt getrennten Feldern aufgefasst werden. Die erste Zeile bestimmt den Webcrawler (hier: User-agent), an
den sich die darauf folgenden Verbots-Anweisungen (Disallow)
richten. Es darf beliebig viele solcher Blöcke geben.
Befehl
|
Funktion
|
Beispiel
|
Funktion
|
User-agent:
|
Name
des Webcrawlers
|
User-agent:Sidewinder
|
Gilt
nur für den Webcrawler namens „Sidewinder“
|
Disallow:
|
Auslesen nicht gestatten
|
Disallow:
|
Die
komplette Webpräsenz darf durchsucht werden
|
|
|
Disallow: /
|
Die
komplette Webpräsenz darf nicht durchsucht werden
|
|
|
Disallow: /Temp/
Disallow:/default.html
|
Das
Unterverzeichnis Temp und die Datei
default.html
dürfen nicht durchsucht werden
|
*
|
Wildcard für User-agent
|
User-agent: *
|
Gilt
für alle Webcrawler
|
$ (nur Googlebot)
|
Zeilenende-Anker
|
Disallow: /*.pdf$
|
Alle PDF-Dateien werden ignoriert
|
Allow: (nur Googlebot)
|
Auslesen erlauben
|
Disallow: /
Allow: /public
|
Das
Verzeichnis /public darf durchsucht werden, der
Rest nicht
(Syntaxerweiterung des Googlebots)
|
Webcrawler
lesen die Datei von oben nach unten und halten an, wenn sich eine Angabe auf sie
bezieht. Ein Webcrawler würde also bei dem Eintrag
User-agent: *, der alle Webcrawler
anspricht, stoppen, ohne bis zu dem Eintrag weiterzugehen, der extra für ihn
angelegt wurde. Für jede URL, die ausgeschlossen ist, existiert eine eigene
Zeile mit dem Disallow-Befehl. Leerzeilen sind nur
oberhalb von
User-agent-Zeilen erlaubt. Sie trennen die Blöcke
voneinander. Einzeilige, mit einem Rautenzeichen (#) beginnende Kommentare sind
an jeder Stelle möglich. Sie dienen der Übersichtlichkeit und werden vom Webcrawler ignoriert.
Beispiele
# robots.txt
für meineseite.com
# Diese Webcrawler schließe ich aus
User-agent:
Sidewinder
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
# Diese
Verzeichnisse/Dateien sollen nicht durchsucht werden
User-agent:
*
Disallow:
/default.html
Disallow: /Temp/
# diese Inhalte verschwinden bald
Disallow:
/Privat/Familie/Geburtstage.html
Mit den
folgenden Befehlen wird die komplette Webpräsenz vor einer Indexierung durch Webcrawler gesperrt.
User-agent:
*
Disallow: /
Meta Tags
Webcrawler
können auch durch Meta-Tags im HTML-Quelltext einer Webseite am Indexieren
gehindert werden. Auch Meta-Tags sind rein hinweisend, benötigen die Mitarbeit
„freundlicher“
Webcrawler und garantieren keine Geheimhaltung. Soll
der Suchroboter die Webseite weder in den Index der Suchmaschine aufnehmen, noch
den Hyperlinks der Seite folgen, lautet der Meta-Tag
<meta name="robots" content="noindex,nofollow">
In
HTML-Dokumenten, für die beides erlaubt sein soll, kann die Angabe entweder
weggelassen oder explizit notiert werden:
<meta
name="robots" content="all">