Einstellungen im Modul Optimierung
In den Einstellungen wird festgelegt, auf welcher Datenbasis deine URL untersucht werden soll. Auch lassen sich gezielt, URLs oder Pfade ausschließen, ein automatischer Crawling-Intervall festlegen.
Crawling-Kontingent
Lege fest, wie viele URLs in diesem Projekt maximal analysiert werden sollen. Falls du mehrere Projekte besitzt, kannst du dein Kontingent auf deine verschiedenen Projekte nach deinen Wünschen aufteilen. Beachte: Aktiviertes JavaScript-Rendering reduziert die verfügbaren URLs um den Faktor 5.
Automatisches Crawling
Setze hier Bestimmt den Start-Zeitpunkt des Crawls. Je nach Umfang deiner Seite und Auslastung im Timeslot kann ein Crawlingvorgang mehrere Stunden dauern. Im Dashboard des Optimierungsmoduls wird dir angezeigt, ob deine Seite sich aktuell in einem Crawling befindet. Diese Info und den exakten Fortschritt des Crawls kannst du auch unter “Crawling Informationen” jederzeit einsehen.
Eigene Abfragen im Dashboard
Crawling-Domain
Die Crawling-Domain gibt bei der Analyse deiner Webseite vor, welche Webseiten wir als deiner Domain zugehörig betrachten sollen.
Wird als Crawling-Domain z.B. die Domain www.example.org angegeben, werden alle Webseiten (URLs) als deinem Webprojekt zugehörig betrachteT, welche in ihrer URL mit der Domain www.example.org beginnen. Diese URLs werden auch als “interne” URLs bezeichnet.
Ist die Crawling-Domain mit www.expample.org angegeben, handelt es sich bei folgenden URLs um beispielhafte interne URLs:
- http://www.example.org/Hello/Hello.html
- https://www.example.org/Content/Images/first.jpg
Folgende URLs entsprechen nicht der angegebenen Domain und werden deshalb als “extern” bezeichnet:
- http://www.other-example.org/Hello/Hi.html
- http://example.org/Test/test.html
Findet der Crawler eine externe URLs analysiert er diese nur auf oberster Ebene, verfolgt jedoch keine weiteren Verweise mehr.
Achtung: Sollen im oberen Beispiel auch URLs der Domain example.org analysiert werden, so muss als Crawling-Domain die Domain exmaple.org anstatt www.example.org angegeben werden. Die Domain example.org schließt die Subdomain www.example.org mit ein.
Crawling Start-URL
Die Start-URL legt die Webadresse fest, die unser Crawler initial aufruft, um deine Webseite zu untersuchen. Ausgehend von dieser URL werden rekursiv alle weiteren verlinkten Seiten, sowie eingebundene und verlinkte Ressourcen (Bilder, Javascript-Dateien, etc.) untersucht.
In den meisten Fällen solltest du hier die Start-URL deiner Webseite angeben. Nur in Ausnahmefällen macht es Sinn, hier etwas anderes einzutragen.
Wenn du dir nicht sicher bist, wie deine Start-URL lautet, rufe deine Webseite einfach im Browser und füge die Zeile über Copy & Paste ein.
Gleichzeitige Requests
Die Anzahl der gleichzeitigen Requests legt fest, wie viele gleichzeitige Anfragen, wir an deine Webseite senden. Je mehr gleichzeitige Anfragen wir an deine Seite senden, desto schneller wird der Crawlingvorgang abgeschlossen.
Betreibst du eine kleine Webseite, die für eine geringe Last ausgelegt ist, ist es empfehlenswert, diesen Wert relativ niedrig (in den meisten Fällen nur ein gleichzeitiger Request) zu wählen, da unser Crawler sonst deine Seite überlasten könnte.
Durch eine Überlastung deiner Seite kommt es zu Fehlinterpretationen der Reaktionszeiten deiner Seite, oder PageRangers zeigt dir Seiten als “nicht erreichbar” an, die normalerweise erreichbar sind. Desweiteren werden kleine Seiten von unserem Crawler meistens innerhalb von Minuten komplett untersucht, so dass der Geschwindigkeitsvorteil durch parallele Abfragen nicht zu lasten der Datenqualität gehen sollte.
Für sehr große, auf starke Belastung ausgelegte, Webseiten kannst du einen höheren Wert wählen um die Crawling-Zeit zu verkürzen. Generell empfehlen wir jedoch auch hier, erst einmal mit einem gleichzeitigen Request zu starten.
Ebenentiefe
Crawling-Kontingent
Lege fest, wie viele URLs in diesem Projekt maximal analysiert werden sollen. Falls du mehrere Projekte besitzt, kannst du dein Kontingent auf deine verschiedenen Projekte nach deinen Wünschen aufteilen.
Ausgeschlossene URLs
Die Einstellungen unter “Ausgeschlossenen URLs” geben dir die Möglichkeit, einzelne URLs oder URLs, die in ein bestimmtes Muster passen, auszuschließen.
Warum sollte ich URLs ausschließen?
Teilweise gibt es URL-Strukturen, mit denen der PageRangers-Crawler nicht umgehen kann, oder welche die Ergebnisse im Optimierungsbereich verfälschen. Paginations-URLs oder Filternde-URLs sind bekannte Beispiele für einen URL-Typ den man ausschließen kann. Fallen dir solche fast endlosen URL-Strukturen in den Ergebnissen auf, kannst du sie durch ein einfaches URL-Muster vom Crawling ausschließen.
Des Weiteren kann es natürlich sein, dass du generell einzelne URLs oder Gruppen von URLs ausschließen möchtest.
Wie lege ich Muster fest?
Die Eingabe für die auszuschließenden URLs, bzw. URL-Muster folgt dem Regex-Syntax. Somit kannst du z.B. mit dem eingegebenen Muster
.*?\.jpg
alle URLs ausschließen, die auf “.jpg” enden. Regex-Muster sind ein sehr mächtiges Werkzeug. Im Internet findest du zahlreiche Erklärungen und Beispiele.
Ausgeschlossene URL-Parameter
Die Einstellungen zu den “Ausgeschlossenen URL-Parametern” gibt dir die Möglichkeit einzelne URL-Parameter in den zu analysierenden URLs zu ignorieren. Letztendlich werden diese URL-Parameters aus der URL herausgelöscht, wenn wir eine URL auf deiner Seite finden.
Warum sollte ich URL-Parameter ausschließen?
Teilweise generieren Webseiten dynamische URLs, die quasi endloses URL-Strukturen erzeugen. Sehr oft tauchen diese URL-Strukturen im Zusammenhang mit Paginations oder “filternden URLs” auf. Ein Beispiel wäre z.B. die Ergebnisseite eines Onlineshops, welche 10 Filtermöglichkeiten besitzt und durch Kombination aller Filtermöglichkeiten 10 hoch 10 (= 10000000000) URLs erzeugt.
Es ist selbsterklärend, dass hierbei dein Kontingent an analysierbaren Unterseiten sehr schnell “zugemüllt” wird. Mit dem Ausschluss der entsprechenden Parameter, kannst du dem entgegenwirken.
Wie lege ich die auszuschließenden Parameter fest?
Die auszuschließenden Parameter werden einfach (durch Komma separiert) in das entsprechende Feld eingegeben. Hierbei wird jeweils nur der Parameter, ohne seinen Wert angegeben. Willst du somit bei der URL
http://www.example.org/?category=first&page=33
den Parameter “category” ignorieren, fügst du einfach den Parameternamen “category” der Liste hinzu. Die URL wird dann von unserem Crawler auf
http://www.example.org/?page=33
umgeschrieben.
Robots.txt
In der Standard-Einstellung crawlt PageRangers die gesamte Webseite und berücksichtigt die Anweisungen in der Robots.txt nicht. Hat man sich einen Eindruck über alle URLs verschafft und geprüft ob die ausgeschlossenen URLs tatsächlich nicht weiter berücksichtigt werden sollen, dann setzt man den Haken um und stellt “Alle Seiten crawlen und auf Nicht-Indizierung durch die Robots.txt hinweisen (empfohlen)” ein.
Cookies
Legt fest, ob unser Crawler Cookies akzeptieren soll. Werden keine Cookies akzeptiert kann das z.B. zu ungewollten Session-IDs in den URLs führen.