Crawl Budget

Was versteht man unter dem Crawl Budget?

Unter dem Crawl Budget versteht man die Anzahl verschiedener Seiten (bzw. die Anzahl verschiedener URLs), die Google jeden Tag von deiner Webseite indiziert und im Suchindex bereitstellt.

Das Crawl Budget, also die Anzahl von Seiten, die Google von deiner Webseite in den Suchindex mit aufnimmt, wird von Google durch verschiedene Faktoren beeinflusst. Diese Faktoren sind unter vielen weiteren, die Gesamtgröße deiner Seite, dem generellen Status deiner Seite (z.B. wie viele Fehler Google auf deiner Seite findet, oder wie optimal die Mobiloptimierung deiner Seite ist) und den eingehenden Backlinks auf deine Homepage.

Warum sollte ich mein Crawl Budget erhöhen bzw. optimieren?

Das Interesse jedes Webmasters sollte es sein, möglichst viele, der auf seiner Webseite bereitgestellten URLs im Google-Index wiederzufinden. Betragen die von Google erfassten URLs nur ein Zehntel der verfügbaren URLs deiner Webseite so sind auch nur ein Zehnter der Informationen der Webseite über die Suchmaschine auffindbar. Die anderen 90 % der Informationen, welche eine Webseite bereitstellt, werden somit von Google nicht erfasst und stehen ebenfalls nicht für die Generierung von organischem Trafik (Trafik, der aufgrund von Suchanfragen des Benutzers bei Google entsteht) zur Verfügung.

Das Resultat hieraus ist eine geringere (bzw. geringe) Anzahl von Besuchern auf deiner Webseite.

Wie lasst sich herausfinden, ob das Crawl Budget ein problematisches Thema für eine Webseite ist?

Generell gibt es eine einfache Methode, um herauszufinden, ob das Crawl Budget bei deinem Projekt (deiner Webseite) ein Thema ist, mit dem du dich beschäftigten solltest.

Hierzu musst du vorerst herausfinden, wie viele Seiten deiner Homepage bereits von Google indiziert sind. Diese Information erhältst du ganzen einfach aus den Google Webmaster-Tools. Um die Anzahl der indizierten Seiten zu ermitteln, musst du dich bei den Google-Webmaster-Tools anmelden und unter dem Menüpunkt Google-Index -> Indexierungsstatus die Anzahl der Seiten ablesen, die sich bereits im Index befinden.

Anzahl der indizierten Seiten in den Google-Webmaster-Tools

Nachdem du die Anzahl der Seiten herausgefunden hast, die Google bereits indiziert hat, ist eine weitere Information die Gesamtanzahl der Seiten, die dein Webprojekt insgesamt bereitstellt. Um zu ermitteln, wie hoch die Anzahl dieser Seite (bzw. dieser URLs) ist, kannst du z.B. die Informationen aus der XML-Sitemap deiner Seite heranziehen. Weiterhin bietet das CMS (Content Management System), welches dein Webprojekt verwendet (z.B. WordPress) eine gute Informationsquelle, um die Anzahl der Webseiten deines Webprojektes zu ermitteln.

Hast du die Menge der Webseiten deines Webprojektes und die davon von Google indizierten Webseiten ermitteln, teilst du die Gesamtanzahl der Webseiten durch die indizierten Seiten. Sollte dieser Wert größer als 10 sein (Google hat somit nur ein Zehntel der URLs deiner Webseite indiziert), besteht akuter Handlungsbedarf. Ein Wert kleiner oder gleich drei, ist sehr gut und du musst dir keine weiteren Gedanken, um das Crawl-Budget machen.

Wie erhöhe ich / Wie optimiere ich mein Crawl Budget?

Es sollte im Interesse jedes Webmasters sein, das Crawl Budget, welches Google für deine Webseite zur Verfügung stellt zu optimieren, bzw. zu maximieren, damit möglichst viele Webseiten von Google durchsucht (gecrawlt) und im Index erfasst werden.

Im Folgenden werden einige grundlegende Methoden vorgestellt, um dies zu erreichen:

Fehler auf der Webseite ermitteln und beheben

Generell werden in den Google-Index nur Webseiten aufgenommen, die einen Status-Code aus dem Bereich (2xx = „OK“) aufweise, oder den Status-Code 301 (Moved Permanent) aufweisen.

Alle anderen Statuscodes (insbesondere Statuscodes aus dem Bereich 4xx, sowie 5xx) führen dazu, dass die entsprechenden Webseiten, bzw. URLs von Google nicht indiziert werden.

Weist ein Webprojekt, somit viele fehlerhafte URLs auf, führt dies dazu, dass die entsprechenden URLs von Google nicht indiziert werden (bzw. gar nicht indiziert werden können, da z.B. auf Grund von Fehlern, gar kein Inhalt gecrawlt werden kann). Des Weiteren bewirkt eine Webseite mit vielen fehlerhaften URLs auch eine generelle Abwertung von Google und ein weiteres herabsetzten des Crawl Budgets. Google bewertet eine Webseite mit vielen fehlerhaften URLs als weniger benutzerfreundlich und zeigt diese daher auch seltener in den Suchergebnissen an.

Weniger relevante Bereich der Webseite von der Indizierung ausschließen

Um Google dabei zu helfen, herauszufinden, welche URLs deines Webprojektes wichtig sind und welche eher irrelevante Informationen beinhalten, kannst du mit Hilfe von verschiedenen Methoden, den Google-Crawler steuern und die Verwendung deines Crawl-Budget in einer gewissen Weise steuern.

Hierzu lassen sich z.B. bestimmte URLs (oder ganze URL-Pfade) global in der Robots.txt ausschließen. Weiterhin, kannst du mit Hilfe des Robots-Meta-Tags auf jeder HTML-Seite festlegen, ob diese Seite indiziert werden soll, oder nicht. Üblich ist es z.B. allgemeine Seiten der Homepage, die jedoch keine relevanten Inhalte beinhalten (Impressum, Kontaktseite, etc.) von der Indizierung auszuschließen, um hierdurch das Crawl Budget nicht zu belasten.

Tracking Pixel

Mit Hilfe eines Tracking Pixels lassen sich bestimmte Nutzer-Aktivitäten tracken bzw. nachvollziehen. Der Tracking Pixel ist eine kleine Grafik (1×1 Pixel) die z. B. beim

Weiterlesen >>

Linkjuice

Linkjuice beschreibt die Stärke und Gewichtung eines Backlinks, der die eigene Domain in ihren Rankings beeinflussen kann. Linkjuice setzt sich dabei aus den Worten Link

Weiterlesen >>

Spyware

Spyware bezeichnet eine Software, die einzig und allein darauf ausgelegt ist, bestimmte Dinge auszuspionieren. Daher auch der Name Spyware (engl. Spy: Spion). Mit Hilfe dieser

Weiterlesen >>

Sprungmarke

Sprungmarken sind in Bezug auf Webseiten Bezugspunkte innerhalb eines Dokuments bzw. einer Seite. Besonders häufig und sinnvoll ist die Erstellung eines Inhaltsverzeichnis, von dem aus

Weiterlesen >>

AdSense

Google AdSense ist ein Dienst bzw. ein Werbeprogramm von Google, mit dem man als Webseitenbetreiber in der Lage ist, Werbeanzeigen auf der eigenen Webseite zu

Weiterlesen >>

Domainname

Unter Domainname wird der vollständige Name einer Domain verstanden, allerdings ohne die Top Level Domain (TLD). Demnach ist der Domainname unabhängig von der Domainendung. Eine

Weiterlesen >>