Mit robots.txt das indizieren von Webseiten verhindern

**Micha** · 27. Juli 2009

Ist es nicht erwünscht, das bestimmte Unterverzeichnisse oder der gesamte Webauftritt in Suchmaschinen erscheint, so kann man versuchen dieses mit Hilfe der Datei "robots.txt" zu verhindern.

Du musst dazu eine Datei mit dem Namen "robots.txt" im root-Verzeichnis Deiner Seite ablegen.

Ist diese Datei nicht vorhanden oder ist diese leer, so ist es allen Robots erlaubt ihre Webseiten zu indizieren.
Die Datei enthält folgende Parameter:

"User-agent:"
"Disallow:"

Mit "User-agent:" wird der Robot angegeben, für den die folgenden "Disallow:" Zeilen gelten. Wildcard's wie "*" sind möglich. Eine leere robots.txt entspricht einer mit folgendem Inhalt:

User-agent: *
Disallow:

Hier wird allen Suchmaschinen (*) nichts verboten.

Möchte man dem robot von Google explizit ausschließen, so ist folgender Eintrag richtig:

User-agent: google
Disallow: /

Es reicht dabei aus, einen Teilstring des tatsächlichen User Agents des Robots anzugeben. Bei google ist es "googlebot", aber google reicht vollkommen aus.

Beispiel für eine robots.txt-Datei:

#eine robots.txt Datei
User-agent: Google
Disallow: /
User-agent: *
Disallow: /test/
Disallow: /logfiles/
Disallow: /images/
Das Zeichen "#" leidet einen Kommentar ein. Dieses wird von Suchmaschinen nicht gelesen. Hier wird dem robot "Google" alles Verboten und allen anderen nur der Zutritt für die Verzeichnisse "test", "images" und "logfiles" untersagt.

Gruss micha

Mit robots.txt das indizieren von Webseiten verhindern

ABP - Blocker

Interessante Unterhaltung mit Haide (Internet und langsamer Rechner...)

Eigene Homepage und Traffic-Klau vermeiden

Mit robots.txt das indizieren von Webseiten verhindern

Seite passwortschützen

1 Benutzer hat hier geschrieben

Benutzer online in diesem Thema

Wer ist hier?

Wer war Online