Crawl Budget

Was versteht man unter dem Crawl Budget?

Unter dem Crawl Budget versteht man die Anzahl verschiedener Seiten (bzw. die Anzahl verschiedener URLs), die Google jeden Tag von deiner Webseite indiziert und im Suchindex bereitstellt.

Das Crawl Budget, also die Anzahl von Seiten, die Google von deiner Webseite in den Suchindex mit aufnimmt, wird von Google durch verschiedene Faktoren beeinflusst. Diese Faktoren sind unter vielen weiteren, die Gesamtgröße deiner Seite, dem generellen Status deiner Seite (z.B. wie viele Fehler Google auf deiner Seite findet, oder wie optimal die Mobiloptimierung deiner Seite ist) und den eingehenden Backlinks auf deine Homepage.

Warum sollte ich mein Crawl Budget erhöhen bzw. optimieren?

Das Interesse jedes Webmasters sollte es sein, möglichst viele, der auf seiner Webseite bereitgestellten URLs im Google-Index wiederzufinden. Betragen die von Google erfassten URLs nur ein Zehntel der verfügbaren URLs deiner Webseite so sind auch nur ein Zehnter der Informationen der Webseite über die Suchmaschine auffindbar. Die anderen 90 % der Informationen, welche eine Webseite bereitstellt, werden somit von Google nicht erfasst und stehen ebenfalls nicht für die Generierung von organischem Trafik (Trafik, der aufgrund von Suchanfragen des Benutzers bei Google entsteht) zur Verfügung.

Das Resultat hieraus ist eine geringere (bzw. geringe) Anzahl von Besuchern auf deiner Webseite.

Wie lasst sich herausfinden, ob das Crawl Budget ein problematisches Thema für eine Webseite ist?

Generell gibt es eine einfache Methode, um herauszufinden, ob das Crawl Budget bei deinem Projekt (deiner Webseite) ein Thema ist, mit dem du dich beschäftigten solltest.

Hierzu musst du vorerst herausfinden, wie viele Seiten deiner Homepage bereits von Google indiziert sind. Diese Information erhältst du ganzen einfach aus den Google Webmaster-Tools. Um die Anzahl der indizierten Seiten zu ermitteln, musst du dich bei den Google-Webmaster-Tools anmelden und unter dem Menüpunkt Google-Index -> Indexierungsstatus die Anzahl der Seiten ablesen, die sich bereits im Index befinden.

Anzahl der indizierten Seiten in den Google-Webmaster-Tools

Nachdem du die Anzahl der Seiten herausgefunden hast, die Google bereits indiziert hat, ist eine weitere Information die Gesamtanzahl der Seiten, die dein Webprojekt insgesamt bereitstellt. Um zu ermitteln, wie hoch die Anzahl dieser Seite (bzw. dieser URLs) ist, kannst du z.B. die Informationen aus der XML-Sitemap deiner Seite heranziehen. Weiterhin bietet das CMS (Content Management System), welches dein Webprojekt verwendet (z.B. WordPress) eine gute Informationsquelle, um die Anzahl der Webseiten deines Webprojektes zu ermitteln.

Hast du die Menge der Webseiten deines Webprojektes und die davon von Google indizierten Webseiten ermitteln, teilst du die Gesamtanzahl der Webseiten durch die indizierten Seiten. Sollte dieser Wert größer als 10 sein (Google hat somit nur ein Zehntel der URLs deiner Webseite indiziert), besteht akuter Handlungsbedarf. Ein Wert kleiner oder gleich drei, ist sehr gut und du musst dir keine weiteren Gedanken, um das Crawl-Budget machen.

Wie erhöhe ich / Wie optimiere ich mein Crawl Budget?

Es sollte im Interesse jedes Webmasters sein, das Crawl Budget, welches Google für deine Webseite zur Verfügung stellt zu optimieren, bzw. zu maximieren, damit möglichst viele Webseiten von Google durchsucht (gecrawlt) und im Index erfasst werden.

Im Folgenden werden einige grundlegende Methoden vorgestellt, um dies zu erreichen:

Fehler auf der Webseite ermitteln und beheben

Generell werden in den Google-Index nur Webseiten aufgenommen, die einen Status-Code aus dem Bereich (2xx = „OK“) aufweise, oder den Status-Code 301 (Moved Permanent) aufweisen.

Alle anderen Statuscodes (insbesondere Statuscodes aus dem Bereich 4xx, sowie 5xx) führen dazu, dass die entsprechenden Webseiten, bzw. URLs von Google nicht indiziert werden.

Weist ein Webprojekt, somit viele fehlerhafte URLs auf, führt dies dazu, dass die entsprechenden URLs von Google nicht indiziert werden (bzw. gar nicht indiziert werden können, da z.B. auf Grund von Fehlern, gar kein Inhalt gecrawlt werden kann). Des Weiteren bewirkt eine Webseite mit vielen fehlerhaften URLs auch eine generelle Abwertung von Google und ein weiteres herabsetzten des Crawl Budgets. Google bewertet eine Webseite mit vielen fehlerhaften URLs als weniger benutzerfreundlich und zeigt diese daher auch seltener in den Suchergebnissen an.

Weniger relevante Bereich der Webseite von der Indizierung ausschließen

Um Google dabei zu helfen, herauszufinden, welche URLs deines Webprojektes wichtig sind und welche eher irrelevante Informationen beinhalten, kannst du mit Hilfe von verschiedenen Methoden, den Google-Crawler steuern und die Verwendung deines Crawl-Budget in einer gewissen Weise steuern.

Hierzu lassen sich z.B. bestimmte URLs (oder ganze URL-Pfade) global in der Robots.txt ausschließen. Weiterhin, kannst du mit Hilfe des Robots-Meta-Tags auf jeder HTML-Seite festlegen, ob diese Seite indiziert werden soll, oder nicht. Üblich ist es z.B. allgemeine Seiten der Homepage, die jedoch keine relevanten Inhalte beinhalten (Impressum, Kontaktseite, etc.) von der Indizierung auszuschließen, um hierdurch das Crawl Budget nicht zu belasten.

Google+

Google+ (auch Google Plus) ist ein soziales Netzwerk und ist Teil des weltweit bekannten Konzerns Google Inc. Google+ ging im Jahr 2011 an den Start

Weiterlesen >>

Linkquelle

Unter Linkquelle versteht man den Ursprung eines Link bzw. Hyperlinks. Somit liegt die Linkquelle immer auf der verlinkenden Webseite. Ein Link besteht immer aus einer

Weiterlesen >>

Domain Trust

Mit Domain Trust (deutsch= Domain Vertrauen) wird im Grunde die Vertrauens- bzw. Glaubwürdigkeit einer Webseite aus Sicht der Suchmaschinen wie z. B. Google bezeichnet. Einer

Weiterlesen >>

Absprungrate

Die Absprungrate (englisch: Bounce Rate) gibt an, wie hoch der Anteil der Nutzer ist, die eine Webseite direkt nach deren Aufruf wieder verlassen, ohne eine

Weiterlesen >>

Sedo

Sedo ist ein Unternehmen mit Sitz in Köln und handelt als Tochtergesellschaft der United Internet AG im Internet mit Domains bzw. Webadressen. Unter der gleichnamigen Domain

Weiterlesen >>

Freshness

Freshness nennt sich ein Update, welches Google Im Jahr 2011 umgesetzt hat, mit dem Ziel, die Qualität der angezeigten Suchergebnisse zu verbessern. Der Name des

Weiterlesen >>