Robots Exclusion Standard

Nach der Übereinkunft des Robots-Exclusion-Standard-Protokoll liest ein Webcrawler (Robot) beim Auffinden einer Webseite zuerst die Datei robots.txt (kleingeschrieben) im Stammverzeichnis (Root) einer Domain. In dieser Datei kann festgelegt werden, ob und wie die Webseite von einem Webcrawler besucht werden darf. Website-Betreiber haben so die Möglichkeit, ausgesuchte Bereiche ihrer Webpräsenz für (bestimmte) Suchmaschinen zu sperren. Das Protokoll ist rein hinweisend und ist auf die Mitarbeit des Webcrawlers angewiesen. Man spricht hier auch von „freundlichen“ Webcrawlern. Ein Ausgrenzen bestimmter Teile einer Webpräsenz durch das Protokoll garantiert keine Geheimhaltung. Manche Suchmaschinen zeigen die vom Webcrawler gefundenen URLs trotzdem in den Suchergebnisseiten an, jedoch ohne Beschreibung der Seiten.

Das Protokoll wurde 1994 von einer unabhängigen Gruppierung entwickelt, ist inzwischen jedoch allgemein anerkannt und kann als Quasi-Standard betrachtet

Aufbau

Die Datei robots.txt ist eine Textdatei in einem einfachen, sowohl von Menschen als auch maschinenlesbaren Format. Jede Zeile kann als Datensatz aus zwei, durch einen Doppelpunkt getrennten Feldern aufgefasst werden. Die erste Zeile bestimmt den Webcrawler (hier: User-agent), an den sich die darauf folgenden Verbots-Anweisungen (Disallow) richten. Es darf beliebig viele solcher Blöcke geben.

Befehl

Funktion

Beispiel

Funktion

User-agent:

Name des Webcrawlers

User-agent:Sidewinder

Gilt nur für den Webcrawler namens „Sidewinder

Disallow:

Auslesen nicht gestatten

Disallow:

Die komplette Webpräsenz darf durchsucht werden

 

 

Disallow: /

Die komplette Webpräsenz darf nicht durchsucht werden

 

 

Disallow: /Temp/
Disallow:/default.html

Das Unterverzeichnis Temp und die Datei default.html dürfen nicht durchsucht werden

*

Wildcard für User-agent

User-agent: *

Gilt für alle Webcrawler

$ (nur Googlebot)

Zeilenende-Anker

Disallow: /*.pdf$

Alle PDF-Dateien werden ignoriert

Allow: (nur Googlebot)

Auslesen erlauben

Disallow: /
Allow: /public

Das Verzeichnis /public darf durchsucht werden, der Rest nicht
(Syntaxerweiterung des Googlebots)

 

Webcrawler lesen die Datei von oben nach unten und halten an, wenn sich eine Angabe auf sie bezieht. Ein Webcrawler würde also bei dem Eintrag User-agent: *, der alle Webcrawler anspricht, stoppen, ohne bis zu dem Eintrag weiterzugehen, der extra für ihn angelegt wurde. Für jede URL, die ausgeschlossen ist, existiert eine eigene Zeile mit dem Disallow-Befehl. Leerzeilen sind nur oberhalb von User-agent-Zeilen erlaubt. Sie trennen die Blöcke voneinander. Einzeilige, mit einem Rautenzeichen (#) beginnende Kommentare sind an jeder Stelle möglich. Sie dienen der Übersichtlichkeit und werden vom Webcrawler ignoriert.

Beispiele

# robots.txt für meineseite.com

# Diese Webcrawler schließe ich aus

User-agent: Sidewinder

Disallow: /

User-agent: Microsoft.URL.Control

Disallow: /

# Diese Verzeichnisse/Dateien sollen nicht durchsucht werden

User-agent: *

Disallow: /default.html

Disallow: /Temp/ # diese Inhalte verschwinden bald

Disallow: /Privat/Familie/Geburtstage.html

Mit den folgenden Befehlen wird die komplette Webpräsenz vor einer Indexierung durch Webcrawler gesperrt.

User-agent: *

Disallow: /

 

Meta Tags

Webcrawler können auch durch Meta-Tags im HTML-Quelltext einer Webseite am Indexieren gehindert werden. Auch Meta-Tags sind rein hinweisend, benötigen die Mitarbeit „freundlicher“ Webcrawler und garantieren keine Geheimhaltung. Soll der Suchroboter die Webseite weder in den Index der Suchmaschine aufnehmen, noch den Hyperlinks der Seite folgen, lautet der Meta-Tag


<meta name="robots" content="noindex,nofollow">

In HTML-Dokumenten, für die beides erlaubt sein soll, kann die Angabe entweder weggelassen oder explizit notiert werden:

<meta name="robots" content="all"> 


Der Text auf dieser Seite basiert aus einem oder mehreren Artikeln der freien Enzyklopädie wikipedia - in diesem Fall aus " Robots.txt ", " Robots.txt ". Die Inhalte stehen unter der Gnu Lizenz für freie Dokumentation (Link zur lokalen Kopie) oder auch im Web unter: gnu_free_documentation_license -
eine Liste der Autoren ist dort abrufbar. (bei Onlinemedien genügt nach Ansicht vieler ein Link auf die Versionsgeschichte ). Der Text wurde inhaltlich stark modifiziert, zeigt weder die Ansicht, Meinung oder Wissensstand des Betreibers und ist nicht aktuell und muss nicht der Wahrheit entsprechen.

Call-Manager.de

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Copyright © 2011
subhi[at]weltsicher[dot]de 

WebFTP         Link-Servicece        Gallery          Lebenshilfe          Partnerprogramme           Roboweb24

Verantwortlich für die Webseite und Inhalt: www.weltsicher.de</ - subhi [at] weltsicher [dot] de - - - - Impressum