Das Robots-Tag ist die Anleitung für den Suchmaschinen-Crawler, auch Roboter genannt. Der Google Crawler ist als “googlebot” bekannt, andere Suchmaschinen verwenden andere Bezeichnungen.
Die Roboter crawlen alle Webseiten im Suchindex. Die gesammelten Informationen werden dann algorithmisch anhand der Rankingfaktoren bewertet und die Webseiten erhalten ein Ranking, wie hoch sie in den SERPs gelistet werden.
Über Meta-Elemente im Quelltext einer Webseite können Suchroboter (Webcrawler) am Indexieren gehindert werden. Die Meta-Elemente werden von den Crawlern der Suchmaschinen interpretiert und in der Regel befolgt. Der Robots-Meta-Tag wird, wie die anderen Meta-Angaben, in den Header der bezogenen Seite platziert.
<!DOCTYPE html>
<html><head>
<meta name=“robots“ content=“all“ />
(weitere Meta-Angaben..)
</head>
<body>…</body>
</html>
Beim Crawling-Prozess wird die Webseite vom Roboter abgerufen und durchsucht. Dabei verwendet dieser einen algorithmischen Prozess, der angibt wie oft und lange die Webseite und die Links auf der Seite gecrawlt werden. Durch diesen Prozess werden neue Webseiten, Änderungen an schon bestehenden Seiten und veraltete Links erkannt. Die Ergebnisse werden dann für die Aktualisierung des Suchmaschinen-Indexes verwendet. Der Googlebot greift beispielsweise alle paar Sekunden auf deine Webseite zu. Mit einer Reihe von Befehlen kann der Ersteller der Webseite versuchen den Suchroboter zu steuern und vom Crawlen von Teilen oder der gesamten Webseite abhalten.
Meta-Tag Option index/noindex
Das Robots-Tag “noindex” ordnet dem Suchroboter an, dass die Webseite nicht in den Index aufgenommen werden soll. Die Seite wird vom Webcrawler nicht indiziert und ist nicht in den SERPs gelistet. Bei speziellen Seiten, wie internen Suchergebnisseiten (die Suche innerhalb der Seite über das Suchfeld), urhebergeschützten Inhalten oder doppelten Inhalten, ist die Verwendung von „noindex“ nützlich.
Das Attribut “index” ordnet dem Roboter an die Seite zu crawlen und in den Index mit aufzunehmen. Die Seite wird dann in den Suchergebnissen (SERPs) angezeigt. Setzt man weder „index“ noch „noindex“, wird die Webseite so behandelt, als wäre das Attribut „index“ gesetzt.
Meta-Tag Option follow/nofollow
Mit den Attributen “follow” und “nofollow“ kann man die Suchmaschinenroboter beeinflussen, ob sie den internen und externen Links folgen sollen oder nicht. Wird das Meta-Tag nicht angegeben, folgt die Suchmaschine automatisch allen Links, so als wären sie auf „follow“ gesetzt.
nofollow im Robots-Meta-Tag
<meta name=“robots“ content=“nofollow“ />
Setzt man nofollow als Meta-Robots-Attribut, wird die Webseite in den Suchindex aufgenommen, jedoch folgt die Suchmaschine weder internen noch externen Links. Für den Suchroboter sind die Links nicht vorhanden. Dies hat zur Folge, dass die Linkpopularität und die Ankertexte nicht in die Rankingberechnung mit einbezogen.
Möchte man nur, dass die Suchmaschinen einigen Links nicht folgt, setzt man den Meta-Tag auf follow und die einzelnen Links ergänzt man mit rel=“nofollow“:
<a href=”http://dasistderlink.com/” rel=”nofollow”>Ankertext</a>
follow im Robots-Meta-Tag
<meta name=“robots“ content=“follow“ />
Erlaubt man der Suchmaschine hingegen allen Links (internen und externen) zu folgen, setzt man das Meta-Robots-Attribut auf follow. Die Links werden in der Rankingberechnung beachtet.
Kombination aus follow/nofollow und index/noindex
Man kann beide Befehle miteinander kombinieren, je nachdem ob man beides, keins oder nur eine Option möchte.
<meta name=“robots“ content=“index, follow“ /> => Seite wird indexiert und den Links wird gefolgt
<meta name=“robots“ content=“index, nofollow“ /> => Seite wird indexiert, aber den Links wird nicht gefolgt
<meta name=“robots“ content=“noindex, follow“ /> => Seite wird nicht indexiert, aber den Links wird gefolgt
<meta name=“robots“ content=“noindex, nofollow“ /> => Seite wird weder indexiert noch wird den Links gefolgt
Weitere Robots-Tags Optionen
Folgende Attribute können anstelle der drei Punkte ebenfalls angegeben werden: <meta name=”robots” content=”…” />
- noodp = Beschreibung von ODP/DMOZ wird nicht verwendet
- noydir = Yahoo-Beschreibung wird nicht verwendet
- nosnippet = Ein Ausschnitt in den Suchergebnissen wird nicht angezeigt
- noarchive = Die gespeicherten Links im Cache werden nicht angezeigt
- unavailable_after:[date] = Angabe, ab welcher Uhrzeit der Roboter nicht mehr deine Seite crawlt und indexiert (Uhrzeit und Datum)
- noimageindex = Die Seite erscheint nicht als Verweis unter einem Bild, das bei den Suchergebnissen angezeigt wird
- none = Entspricht noindex, nofollow
- all = Entspricht index, follow
- Keine Angabe = Entspricht: <meta name=”robots” content=”all” />