Unterschiedliche Crawling-Frequenzen bei Google

Grundsätzlich ist bekannt, Google crawlt einzelne Seiten nicht immer mit der gleichen Frequenz. Google-Mitarbeiter Johannes Müller hat vor wenigen Tagen das Thema erneut aufgegriffen und weitere Informationen preis gegeben.

Faktoren für Crawl-Frequenz

Zwei Faktoren spielen bei der Häufigkeit des Crawlings eine primäre Rolle:

  • Die Popularität einer Seite
  • Häufigkeit der Änderungen

Die Popularität einer Seite ergibt sich aus dem internen Pagerank (nicht der öffentliche Pagerank, der seit Jahren nicht mehr aktualisiert wurde), den Google anhand verschiedener Faktoren berechnet. Ein Faktor ist sicherlich die Vernetzung mit anderen Seiten, wobei hier die Qualität und nicht die Quantität wie früher mehr ins Gewicht fällt. 

Die bessere interne Einstufung durch Google beeinflusst letztlich auch die Häufigkeit des Crawlings, da Google seinen Index möglichst aktuell halten möchte. Je häufiger die Webseite aktualisiert wird, desto wichtiger ist Google den aktuellen Inhalt zu indexieren.

In seinem Google+ Posting sagt Johannes Müller konkret, dass Seiten unterschiedlich häufig gecrawlt werden. Einige Seiten werden im Minutentakt, andere erst nach Monaten erneut gecrawlt. 

"Per-URL crawl rates differ. Some URLs are crawled every few minutes, others just every couple months, and many somewhere in between. If you go from "all URLs are broken" to "all URLs are fixed" (which is awesome if you have a way to do that!), it will take some time to drop to "zero errors" in the aggregated reports."

Aufgrund dieser Tatsache kann es also sein, dass Änderungen oder Crawling-Fehler erst Monate später auch in der Search Console auftauchen. Nicht wundern also, wenn ich Veränderungen umgesetzt habt und diese in der Google Search Console nicht direkt angezeigt werden.

Hinzu kommt eine gewisses Zeitfenster, in der Google die Daten der Seite aufbereitet und auswertet. Bei der Masse an Daten ist es nur zu verständlich, dass sich gewisse Prozesse stauen und nach einem Priorisierungsschema die Daten verarbeitet werden. Denn schließlich muss Google nicht nur bestehende Seiten crawlen, sondern auch neue Seiten.