Mit robots.txt das indizieren von Webseiten verhindern

  • Ist es nicht erwünscht, das bestimmte Unterverzeichnisse oder der gesamte Webauftritt in Suchmaschinen erscheint, so kann man versuchen dieses mit Hilfe der Datei "robots.txt" zu verhindern.


    Du musst dazu eine Datei mit dem Namen "robots.txt" im root-Verzeichnis Deiner Seite ablegen.


    Ist diese Datei nicht vorhanden oder ist diese leer, so ist es allen Robots erlaubt ihre Webseiten zu indizieren.
    Die Datei enthält folgende Parameter:


    "User-agent:"
    "Disallow:"


    Mit "User-agent:" wird der Robot angegeben, für den die folgenden "Disallow:" Zeilen gelten. Wildcard's wie "*" sind möglich. Eine leere robots.txt entspricht einer mit folgendem Inhalt:


    User-agent: *
    Disallow:


    Hier wird allen Suchmaschinen (*) nichts verboten.


    Möchte man dem robot von Google explizit ausschließen, so ist folgender Eintrag richtig:


    User-agent: google
    Disallow: /


    Es reicht dabei aus, einen Teilstring des tatsächlichen User Agents des Robots anzugeben. Bei google ist es "googlebot", aber google reicht vollkommen aus.


    Beispiel für eine robots.txt-Datei:


    #eine robots.txt Datei
    User-agent: Google
    Disallow: /
    User-agent: *
    Disallow: /test/
    Disallow: /logfiles/
    Disallow: /images/
    Das Zeichen "#" leidet einen Kommentar ein. Dieses wird von Suchmaschinen nicht gelesen. Hier wird dem robot "Google" alles Verboten und allen anderen nur der Zutritt für die Verzeichnisse "test", "images" und "logfiles" untersagt.


    Gruss micha