Einstellungen im Modul Optimierung

In den Einstellungen wird festgelegt, auf welcher Datenbasis deine URL untersucht werden soll. Auch lassen sich gezielt, URLs oder Pfade ausschließen, ein automatischer Crawling-Intervall festlegen.

Onpage Modul Handbuch

Crawling-Kontingent

Lege fest, wie viele URLs in diesem Projekt maximal analysiert werden sollen. Falls du mehrere Projekte besitzt, kannst du dein Kontingent auf deine verschiedenen Projekte nach deinen Wünschen aufteilen. Beachte: Aktiviertes JavaScript-Rendering reduziert die verfügbaren URLs um den Faktor 5.

Automatisches Crawling

Setze hier Bestimmt den Start-Zeitpunkt des Crawls. Je nach Umfang deiner Seite und Auslastung im Timeslot kann ein Crawlingvorgang mehrere Stunden dauern. Im Dashboard des Optimierungsmoduls wird dir angezeigt, ob deine Seite sich aktuell in einem Crawling befindet. Diese Info und den exakten Fortschritt des Crawls kannst du auch unter “Crawling Informationen” jederzeit einsehen.

Eigene Abfragen im Dashboard 

PageRangers bietet die Möglichkeit, eigene Abfragen im Monitoring anzulegen und zu speichern. Sollen individuelle Abfragen im Dashboard zu den Standard-Abfragen hinzufügen, kannst Du den Haken hier setzen. Die Standard-Einstellung verbirgt die eigenen Abfragen um Dashboard. 

Crawling-Domain

Die Crawling-Domain gibt bei der Analyse deiner Webseite vor, welche Webseiten wir als deiner Domain zugehörig betrachten sollen.

Wird als Crawling-Domain z.B. die Domain www.example.org angegeben, werden alle Webseiten (URLs) als deinem Webprojekt zugehörig betrachteT, welche in ihrer URL mit der Domain www.example.org beginnen. Diese URLs werden auch als “interne” URLs bezeichnet.

Ist die Crawling-Domain mit www.expample.org angegeben, handelt es sich bei folgenden URLs um beispielhafte interne URLs:

  • http://www.example.org/Hello/Hello.html
  • https://www.example.org/Content/Images/first.jpg

Folgende URLs entsprechen nicht der angegebenen Domain und werden deshalb als “extern” bezeichnet:

  • http://www.other-example.org/Hello/Hi.html
  • http://example.org/Test/test.html

Findet der Crawler eine externe URLs analysiert er diese nur auf oberster Ebene, verfolgt jedoch keine weiteren Verweise mehr.

Achtung: Sollen im oberen Beispiel auch URLs der Domain example.org analysiert werden, so muss als Crawling-Domain die Domain exmaple.org anstatt www.example.org angegeben werden. Die Domain example.org schließt die Subdomain www.example.org mit ein.

Crawling Start-URL

Die Start-URL legt die Webadresse fest, die unser Crawler initial aufruft, um deine Webseite zu untersuchen. Ausgehend von dieser URL werden rekursiv alle weiteren verlinkten Seiten, sowie eingebundene und verlinkte Ressourcen (Bilder, Javascript-Dateien, etc.) untersucht.

In den meisten Fällen solltest du hier die Start-URL deiner Webseite angeben. Nur in Ausnahmefällen macht es Sinn, hier etwas anderes einzutragen.

Wenn du dir nicht sicher bist, wie deine Start-URL lautet, rufe deine Webseite einfach im Browser und füge die Zeile über Copy & Paste ein.

Gleichzeitige Requests

Die Anzahl der gleichzeitigen Requests legt fest, wie viele gleichzeitige Anfragen, wir an deine Webseite senden. Je mehr gleichzeitige Anfragen wir an deine Seite senden, desto schneller wird der Crawlingvorgang abgeschlossen.

Betreibst du eine kleine Webseite, die für eine geringe Last ausgelegt ist, ist es empfehlenswert, diesen Wert relativ niedrig (in den meisten Fällen nur ein gleichzeitiger Request) zu wählen, da unser Crawler sonst deine Seite überlasten könnte. 

Durch eine Überlastung deiner Seite kommt es zu Fehlinterpretationen der Reaktionszeiten deiner Seite, oder PageRangers zeigt dir Seiten als “nicht erreichbar” an, die normalerweise erreichbar sind. Desweiteren werden kleine Seiten von unserem Crawler meistens innerhalb von Minuten komplett untersucht, so dass der Geschwindigkeitsvorteil durch parallele Abfragen nicht zu lasten der Datenqualität gehen sollte.

Für sehr große, auf starke Belastung ausgelegte, Webseiten kannst du einen höheren Wert wählen um die Crawling-Zeit zu verkürzen. Generell empfehlen wir jedoch auch hier, erst einmal mit einem gleichzeitigen Request zu starten.

Ebenentiefe

Maximale Anzahl der Klicks/Links, die ein zu untersuchendes Dokument von der Startseite entfernt sein darf.

Crawling-Kontingent

Lege fest, wie viele URLs in diesem Projekt maximal analysiert werden sollen. Falls du mehrere Projekte besitzt, kannst du dein Kontingent auf deine verschiedenen Projekte nach deinen Wünschen aufteilen.

Ausgeschlossene URLs

Die Einstellungen unter “Ausgeschlossenen URLs” geben dir die Möglichkeit, einzelne URLs oder URLs, die in ein bestimmtes Muster passen, auszuschließen.

Warum sollte ich URLs ausschließen?

Teilweise gibt es URL-Strukturen, mit denen der PageRangers-Crawler nicht umgehen kann, oder welche die Ergebnisse im Optimierungsbereich verfälschen. Paginations-URLs oder Filternde-URLs sind bekannte Beispiele für einen URL-Typ den man ausschließen kann. Fallen dir solche fast endlosen URL-Strukturen in den Ergebnissen auf, kannst du sie durch ein einfaches URL-Muster vom Crawling ausschließen. 

Des Weiteren kann es natürlich sein, dass du generell einzelne URLs oder Gruppen von URLs ausschließen möchtest.

Wie lege ich Muster fest?

Die Eingabe für die auszuschließenden URLs, bzw. URL-Muster folgt dem Regex-Syntax. Somit kannst du z.B. mit dem eingegebenen Muster

.*?\.jpg

alle URLs ausschließen, die auf “.jpg” enden. Regex-Muster sind ein sehr mächtiges Werkzeug. Im Internet findest du zahlreiche Erklärungen und Beispiele. 

Ausgeschlossene URL-Parameter

Die Einstellungen zu den “Ausgeschlossenen URL-Parametern” gibt dir die Möglichkeit einzelne URL-Parameter in den zu analysierenden URLs zu ignorieren. Letztendlich werden diese URL-Parameters aus der URL herausgelöscht, wenn wir eine URL auf deiner Seite finden.

Warum sollte ich URL-Parameter ausschließen?

Teilweise generieren Webseiten dynamische URLs, die quasi endloses URL-Strukturen erzeugen. Sehr oft tauchen diese URL-Strukturen im Zusammenhang mit Paginations oder “filternden URLs” auf. Ein Beispiel wäre z.B. die Ergebnisseite eines Onlineshops, welche 10 Filtermöglichkeiten besitzt und durch Kombination aller Filtermöglichkeiten 10 hoch 10 (= 10000000000) URLs erzeugt.

Es ist selbsterklärend, dass hierbei dein Kontingent an analysierbaren Unterseiten sehr schnell “zugemüllt” wird. Mit dem Ausschluss der entsprechenden Parameter, kannst du dem entgegenwirken.

Wie lege ich die auszuschließenden Parameter fest?

Die auszuschließenden Parameter werden einfach (durch Komma separiert) in das entsprechende Feld eingegeben. Hierbei wird jeweils nur der Parameter, ohne seinen Wert angegeben. Willst du somit bei der URL

http://www.example.org/?category=first&page=33

den Parameter “category” ignorieren, fügst du einfach den Parameternamen “category” der Liste hinzu. Die URL wird dann von unserem Crawler auf

http://www.example.org/?page=33

umgeschrieben.

Robots.txt

In der Standard-Einstellung crawlt PageRangers die gesamte Webseite und berücksichtigt die Anweisungen in der Robots.txt nicht. Hat man sich einen Eindruck über alle URLs verschafft und geprüft ob die ausgeschlossenen URLs tatsächlich nicht weiter berücksichtigt werden sollen, dann setzt man den Haken um und stellt “Alle Seiten crawlen und auf Nicht-Indizierung durch die Robots.txt hinweisen (empfohlen)” ein. 

Cookies

Legt fest, ob unser Crawler Cookies akzeptieren soll. Werden keine Cookies akzeptiert kann das z.B. zu ungewollten Session-IDs in den URLs führen.

User-Agent des Crawlers

Der Standard User-Agent von PageRangers entspricht dem Googlebot/2.1. Sofern der Googlebot durch den Webmaster ausgeschlossen wurde, z.B. weil die Seite sich noch im Aufbau befindet und noch nicht zur Indexierung freigegeben ist, kann die Umstellung auf einen eigenen User-Agent nützlich sein. 

Authentifizierung

Legt fest, ob während des Crawlings eine Authentifizierung bei passwortgeschützen Seiten erfolgen soll. Der Crawler verwendet bei der Abfrage die HTTP Basic Authentication (mod_auth). Sinnvolle Einsatzbereiche sind Foren, Mitglieder-Bereiche und Projekte, die sich noch im Maintenance Modus hinter einer Passwort-Schranke verbergen.