Duplicate Content

Duplicate Content bezeichnet Inhalte, die so in identischer oder leicht abgewandelter Form auch in anderen Webdokumenten bzw. unter anderes URLs aufrufbar sind. Duplicate Content bedeutet ins Deutsche übersetzt „doppelter Inhalt“. Es spielt hierbei keine Rolle, ob doppelte Inhalte innerhalb einer Domain oder auf unterschiedlichen Webseiten verwendet wird. Wird durch Suchmaschinen wie Google, Content als doppelter Inhalt identifiziert, führt dies in der Regel zu einer negativen Bewertung der entsprechenden Domain bzw. URL. Der Grund dafür ist, dass Google bei Duplicate Content häufig den Versuch einer Manipulation sieht und es für Google erschwert wird, dem Anliegen bzw. der Suchanfrage des Nutzers bestmöglich zu entsprechen.

Liegen Inhalte in unterschiedlichen Sprachen vor, wird dies durch Suchmaschinen wie Google nicht als Duplicate Content bewertet. Hier ist es ebenfalls irrelevant, ob der Inhalt auf derselben oder auf unterschiedlichen Domains erreichbar sind. Das Gegenstück zu Duplicate Content wird als Unique Content bezeichnet, was mit einzigartigen Inhalten zu übersetzen ist.

Unterscheidung interner/externer Duplicate Content

Duplicate Content kann grundsätzlich in zwei verschieden Arten unterteilt werden. So spricht man von internen Duplicate Content, wenn bestimmte Inhalte innerhalb einer Domain auf verschiedenen URLs erreichbar ist bzw. zur Verfügung gestellt wird. Kommen Inhalte in sehr ähnlicher oder sogar identischer Form auf verschiedenen Domains vor, spricht man in diesem Zusammenhang von externem Duplicate Content.

Interner Duplicate Content kann manchmal bei Online-Shops beobachtet werden. Das wäre dann der Fall, wenn ein bestimmtes Produkt bzw. die Produktdetailseite über verschiedene URLs aufrufbar ist. Der Googlebot beispielsweise kann beim Indexieren einer Webseite Inhalte als Duplicate Content identifizieren und entsprechend negativ bewerten. Die nötigen Hinweise kann Google aber z. B. auch durch Backlinks (externe Links) anderer Webseiten bekommen, falls diese auf die verschiedenen URLs der Ziel-Domain verweisen.

Externer Duplicate Content kommt häufig dann vor, wenn bestimmte Inhalte verbotenerweise kopiert und für eigene Zwecke bzw. die eigene Webseite verwendet werden. Sehr häufig ist es aber auch der Fall, dass eine bestimmte Domain unter verschiedenen URLs erreichbar ist und nur vergessen wurde, per 301-Redirect (301-Weiterleitung) auf die Ziel-Domain zu verweisen. Gibt man beispielsweise in die Adressleiste des Webbrowsers die Adressen

  • www.pagerangers.de
  • pagerangers.de
  • www.pagerangers.com

ein, verweisen all diese Domains per Weiterleitung auf die Domain pagerangers.com. Verwendet man also die entsprechende Weiterleitung, signalisiert man Google, dass es sich hierbei um eine Einzelne und nicht vier verschiedene Domains handelt. Gleichzeitig stuft Google die Inhalte nicht als Duplicate Content ein.

Duplicate Content sollte vermieden werden

Zu den wichtigen Aufgaben eines Webseitenbetreibers gehört die Webseitenpflege. Es kann sicherlich mal vorkommen, dass ausversehen Inhalte doppelt oder noch häufiger verwendet werden. Sollte dies der Fall sein und man hat Duplicate Content identifiziert, sollte dieser gezielt entfernt bzw. so abgeändert werden, dass dieser nicht mehr als Duplicate Content zu erkennen ist. Wichtig dabei ist, dass diese Änderung schnell erfolgt. Der Grund dafür ist naheliegend. Google beispielsweise konnte seinen Algorithmus über Jahre soweit optimieren, dass eine Indexierung von Inhalten und damit auch eine Identifizierung von Duplicate Content mittlerweile sehr zeitnah erfolgt. Möchte man eine entsprechende negative Bewertung seitens Google vermeiden, sollte man doppelte Inhalte möglichst entfernen bzw. gar nicht erst entstehen lassen.

Wie kann man Duplicate Content ausfindig machen?

Möchte man seine Webseite auf Duplicate Content prüfen, können dazu Tools (Duplicate Content Checker) verwendet werden, mit deren Hilfe man schnell doppelte bzw. sehr ähnliche Inhalte ausfindig machen kann. Hiervon sind häufig Online-Händler betroffen, die ihre eigenen Produkte über verschieden Plattformen vertreiben und mutmaßlich aus finanziellen- oder Zeitgründen, immer dieselben Texte (Produktbeschreibungen etc.) verwenden. Mit deutlich größerem Aufwand könnte man diese Situation umgehen, allerdings müssten für die verschiedenen Portale und Vertriebskanäle unterschiedliche Texte verfasst werden.

Andere häufige Gründe für Duplicate Content sind:

  • Webseite ist per http und https erreichbar
  • Mobile Webseite mit identischem Inhalt
  • URL-Parameter und Session-IDs
  • Print-Versionen von Seiteninhalten
  • Interne Suchergebnisseiten
  • Archiv- und Kategorie-Seiten
  • Seitennummerierung (z.B. von Kommentaren)

Einer negativen Bewertung mit Hilfe des Canonical Tags aus dem Weg gehen

Hat man auf einer Webseite bewusst Inhalt mehrfach verwendet, sollte das Canonical-Tag verwendet werden. Mit Hilfe des Canonical-Tags kann man der Suchmaschine mitteilen, unter welcher URL sich das Original bzw. die Quelle liegt. Sobald ein Canonical-Tag vorliegt und von der Suchmaschine erkannt wird, wird nur das entsprechende Original vom Googlebot indexiert.

Als zusätzliche Möglichkeit bietet es sich ebenfalls an, das Crawling einer bestimmte URL vom Crawling komplett auszuschließen. Hierzu muss die entsprechende URL in der robots.txt eingetragen werden. Allerdings wird dies Option von Google nicht empfohlen, da es dazu führt, dass URLs als separate URLs behandelt werden.

Seitens Google wird aber auch nochmal klar betont, dass diejenigen, die mit Duplicate Content keine manipulative Absicht verfolgen, mit keinen negativen Konsequenzen zu rechnen haben.

Wer von Beginn an Duplicate Content verhindern möchte, sollte Webseiteninhalte und vor allem die Struktur der Webseite im Vorfeld gut planen. Es wird empfohlen, Texte individuell zu gestalten eigene Formulierungen bzw. Sprachstile zu verwenden, da hierdurch Duplicate Content in der Regel vermieden wird.

Inhalte wurden ohne Zustimmung veröffentlicht

Inhalte einer Webseite dürfen ohne die Zustimmung des Urhebers nicht durch Dritte veröffentlicht werden. Wer Inhalte ohne Zustimmung online stellt, handelt rechtswidrig und verstößt gegen das Urheberrecht. Stellt man als Urheber fest, dass auf einer anderen Webseite die eigenen Inhalte veröffentlicht wurden, empfiehlt sich zunächst erst einmal der Weg des geringsten Widerstandes. Es empfiehlt sich, den Inhaber der betroffenen Webseite zu kontaktieren mit der Bitte, die kopierten Inhalte umgehend zu löschen. Reagiert derjenige auf die Bitte nicht, kann mit rechtlichen Schritten bzw. einer Abmahnung gedroht werden.

Crawl Budget

Was versteht man unter dem Crawl Budget? Unter dem Crawl Budget versteht man die Anzahl verschiedener Seiten (bzw. die Anzahl verschiedener URLs), die Google jeden

Weiterlesen >>

Evergreen Content

Als Evergreen Content (deutsch: immergrüner Inhalt) bezeichnet man Inhalte zu bestimmten Themen, die über lange Zeiträume eine hohe Relevanz aufweisen. In der Regel unterliegen solche

Weiterlesen >>

Content Marketing

Content Marketing ist eine Form des Marketings, bei dem hochwertigeren Inhalt im Vordergrund steht. Es geht weniger darum, die Eigenschaften seiner Produkte darzustellen. Vielmehr wird

Weiterlesen >>

Encrypted Search

Als Encrypted Search, was so viel wie „verschlüsselte Suche“ heißt, wird eine Suchmethode bei der Suchmaschine Google bezeichnet, bei der die Suchanfrage durch die Suchmaschine

Weiterlesen >>

Webseite

Webseite (ein zusammengesetztes Wort aus Web und Seite), im englischen auch Website genannt, ist eine virtuelle Internetpräsenz (Webpräsenz) einer oder mehrerer Personen oder die eines

Weiterlesen >>

API

API ist die Kurzform von Application Programming Interface. Zu deutsch wird API als Programmierschnittstelle oder als Schnittstelle zur Anwendungsprogrammierung bezeichnet. Umgangssprachlich oder kurz spricht man

Weiterlesen >>