Was ist Duplicate Content?
Der Begriff „Duplicate Content“ ist aus dem Englischen übernommen und bedeutet „Duplizierter Content“ oder „Doppelter Inhalt“. Das Gegenteil ist „Unique Content“ (übersetzt: Einzigartiger Inhalt)
Bei Duplicate Content handelt es sich um sehr ähnliche bzw. identische Webseiteninhalte, die auf der eigenen Webseite (interner Duplicate Content) oder auf unterschiedlichen URLS im Internet auffindbar sind (externer Duplicate Content).
Doppelter Inhalt wird von Google und anderen Suchmaschinen Crawlern erkannt und kann zu einer Abwertung des Rankings führen bis hin zu einer Abstrafung.
Welche Arten von Duplicate Content gibt es?
Gemäß John Mueller, dem SEO Sprachrohr von Google, können duplizierte Inhalte in folgenden Fällen auftreten:
Intern (auf einer Webseite):
- Große Teile oder exakt gleicher Webseitencontent auf mehreren Seiten
- Content, der von anderen Internetseiten kopiert wurde, z.B. Kopie der Produktbeschreibungen eines Herstellers
- Webseiteninhalte, die auf mehreren Unterseiten, Subdomains, Domains, URLS erreichbar sind. Dies ist z.B. der Fall, wenn eine Webseite sowohl über www als auch ohne www oder mit http und https erreichbar ist und nicht korrekt weiterleitet. Gleiches gilt für Webseiten mit Parametern wie / ?utm= oder Seiten, die über index.html und ohne index.html erreichbar sind
- Das Problem kann ebenfalls auftreten bei druckfreundlichen URLS, mobilfreundlichen URLS oder der Nutzung von CDN Anbietern
- Identische Meta Tags wie gleiche Description oder Seitentitel
- Tag Seiten
- Interne Suchergebnisseiten
- Kategorie-Seiten
- Beiträge und Einzelseiten, wenn sie mehreren Kategorien zugeordnet sind
- Pagination
Extern (auf einer anderen Webseite)
- Syndizierte Inhalte
- Diebstahl von Webseiteninhalten
- Content-Scraping
- Einbindung von Inhalten über RSS-Feeds
- Verbreitung von Pressemitteilungen
- Nutzung von Inhalten über Affiliate-Seiten
SEO-Experten Tipp:Tipp: Content Scraper Sites können, wenn diese massenhaft eigene Inhalte veröffentlichen, zum Problem werden. In diesem Fall ist eine Spam Meldung an Google angebracht. Möchte man Webspam melden, ist ein Google Konto erforderlich.
Wissen muss man, dass, damit Google tätig wird, die gesamte Seite kopiert worden sein muss. Verstöße gegen das Urheberrecht sind separat zu ahnden.
Duplicate Content bei Onlineshops
Gerade Onlineshops haben oftmals das Problem von doppeltem Content, der sich negativ auf die Rankings auswirken kann. Darauf sollte beim Onlineshop SEO genauestens geachtet werden.
Zu nennen sind nicht nur die bereits erwähnte Übernahme von Produktbeschreibungen, sondern auch:
Falscher Umgang mit Paginierung
Bei der Paginierung handelt es sich um eine Seitennummerierung. Paginierung bezeichnet den Vorgang, wenn Webseiteninhalte, die aus Gründen der Nutzerfreundlichkeit über mehrere Unterseiten angelegt sind, unter einer URL (nur ein Parameter in der URL ändert sich) erreichbar sind. Anzutreffen ist dies meist bei Onlineshops.
Doppelter Inhalt durch Farbe / Größe
Ein weiteres Duplicate Content Problem wird in Onlineshops oftmals durch identische Produkte erzeugt, die in verschiedenen Farben und Größen erhältlich sind.
SEO-Experten Tipp:TIPP: Um einem Duplicate Content Problem zu entgehen, ist es angebracht, jede Version eines Produktes auf einer eigenen URL anzulegen. Nutzen alle URLS dieselbe Produktbeschreibung, kommt es zum Problem des doppelten Inhalts.
Duplicate Content durch mehrere Sprach- und Länderversionen
Online Shops bedienen gerne den internationalen Markt und sind nicht nur auf Deutschland beschränkt. Ein Duplicate Content Problem kann es geben, wenn Inhalte für verschiedene Länder ausgewiesen sind, jedoch identische Inhalte bieten, wie z.B.:
onlineshop.com/de
onlineshop.com/at/
Problem mit der Filterfunktion
Durch die Filterfunktion kann ein Duplicate Content Problem entstehen. Kann ein Produkt nach unterschiedlichen Preiskategorien, Größen und Farben etc. gefiltert werden, entstehen hierdurch ebenso doppelte Inhalte.
SEO-Experten Tipp:Tipp: Der Einsatz eines Canonical-Tags schafft Abhilfe! Mit einem Canonical Tag können Inhalte, die nicht von Google geindexed werden sollen, gesteuert werden. Bei der Indexierung von Filterurls bietet damit die Nutzung von Canonical Tags eine Lösung.
Problemquelle: Produkte werden mehreren Kategorien zugeordnet
Aus Usability Gründen ordnen Onlineshops häufig Produkte mehreren Kategorien zu. Ist der Shop so eingestellt, dass sich der Klickpfad des Users in der Urlstruktur widerspiegelt, ist ein Produkt zwangsläufig über zwei URLS erreichbar.
SEO-Experten Tipp:Tipp: Enthält die URL die Kategorie, stellen Sie sicher, dass ein Produkt einer Hauptkategorie zugeordnet wird, so dass es niemals unter zwei URLS zur gleichen Zeit erreichbar ist.
Die folgenden Webseiteninhalte werden von Google nicht als Duplicate Content gewertet:
- Übersetzungen (Translations)
- Inhalte in Apps
- Unterschiedliche Webseiten mit gleichen Meta Desciptions und Seitentitel
- Boilerplate Content – Bei Boilerplate Content handelt es sich um ein Textfragment oder einen Textbaustein, der in zahlreichen unterschiedlichen Bereichen zum Einsatz kommt. Als Beispiel zu nennen ist die Autorbox am Ende dieser Webseite.
Doppelter Content, der gerne in Kauf genommen wird
Nicht immer führen doppelte Inhalte gleich zu einer Abstrafung oder einem Rankingverlust. Hier gilt es zu testen und unter Umständen wird Duplicate Content in Kauf genommen, wie bei:
- Längeren Tutorials oder Blogartikeln, die an anderen Stellen im Internet „reposted“ werden, wie auf Newsportalen oder anderen Blogs.
- Pressemitteilungen, die identisch auf zahlreichen Webseiten erscheinen.
- Wenn aus Marketing- oder Brandinggründen identische Textpassagen auf unterschiedlichen Seiten „reposted“ werden.
SEO-Experten Tipp:Tipp: Wichtig ist in diesem Fall, dass der Content sich auf der eigenen Seite bereits etabliert hat und nicht ein unnatürliches Linkwachstum durch z.B. eine Vielzahl an veröffentlichten Pressemeldungen erfolgt. In diesen Fällen sollte kein negativer Einfluss auf die Rankings zu verzeichnen sein.
Wie erkennt Google Duplicate Content?
Google setzt auf Qualität in seinem Suchindex. Ziel ist es, dem User einen Mehrwert zu bieten.
Daher ist die Suchmaschine bestens dafür gerüstet, Duplicate Content, der die Qualität der Suchergebnisse deutlich beeinflusst, aufzufinden und in der Bewertung einer Seite zu berücksichtigen.
Google hat diesbezüglich mehrere Patente angemeldet. Eines ist die Fähigkeit, mit Hilfe eines speziellen Algorithmus verschiedene Dokumente voneinander zu unterscheiden. Dabei wird die Ursprungsversion erkannt.
Ein anderes Patent nutzt verschiedene Metriken, um festzustellen, wie hoch die Übereinstimmung zwischen zwei Dokumenten ist.
Es werden dabei Kriterien untersucht, wie z.B.:
- Zeitpunkt der Veröffentlichung
- Sprache
- Reputation des Autors
- Qualität und Anzahl der Artikel, die im Namen des Autors bereits veröffentlicht wurden
- Anzahl an Zitaten
- Zahl der Textstellen, die mit dem vorliegenden Dokument übereinstimmen
- Länge des Textes
Bestaft Google Duplicate Content?
In den allermeisten Fällen wird interner Duplicate Content von Google nicht bestraft / mit einer Penalty versehen. Allerdings wirkt sich doppelter Content auf die Qualität der Seite aus. Doppelter Content führt ergo in jedem Fall zu Rankingeinbußen.
Nur in bestimmten Fällen reagiert Google mit einer Penalty:
- Spinning Content: Text, der automatisch umgeschrieben wurde und in der Basis identisch ist.
- Brückenseiten / Doorway Pages: Es handelt sich hierbei um Seiten, deren Ziel es ist, Besucher zu generieren und diese auf eine andere Seite weiterzuleiten.
- Scraper Sites: Seiten, die primär aus „gestohlenen“ Inhalten bestehen und keinen eigenen Mehrwert bieten
Duplicate Content Check Text
Doppelte Inhalte aufspüren, ist nicht schwierig. Es gibt heute diverse Tools und Möglichkeiten. Eine davon ist die Nutzung von Google, um Duplicate Content zu finden.
Mit Google Duplicate Content prüfen
Man kann durchaus Google nutzen, um Duplicate Content aufzufinden. Man kann hier jedoch nur Textbausteine prüfen und nicht ganze Webseiten.
Um doppelte Texte mit Google zu finden, gehen Sie zu Google und geben Sie in die Suchbox den fraglichen Text mit Anführungszeichen ein.
Um die doppelten Inhalte tatsächlich zu finden, müssen Sie auf den Link klicken, um die herausgefilterten doppelten Seiten anzuzeigen:
Diese Vorgehensweise ist möglich, aber nicht unbedingt zu empfehlen. Besser geht es mit einem Plagiarism Tool.
Eines der besten Tools, um einen Duplicate Content Check durchzuführen, ist Copyscape.
Copyscape ist in einer kostenlosen und in einer Premium Version nutzbar.
Bei der kostenlosen Version ist es nur möglich, eine URL einzugeben. In der Premium Version kann man in das Suchfeld einen Text eingeben, der dann auf Plagiate überprüft wird.
Copyscape kostenlos auf Duplicate Content prüfen
Copyscape Premium
Bei Copyscape Premium hinterlegt man einen Mindestbetrag von 10 Dollar via Paypal oder Kreditkarte. Pro Suche wird dann ein Cent-Betrag vom Guthaben abgebucht.
Ein Premium Plagiatcheck kostet ab ca. 3 Cent aufwärts. Man kann eine URL eingeben oder Text.
Als Beispiel wurde der erste Absatz zum Thema Suchmaschinenoptimierung von Wikipedia gewählt.
Wie aus dem folgenden Bild ersichtlich ist, liegen 55 exakte Kopien des ersten Absatzes vor.
Es besteht die Möglichkeit, die Webseiten im Einzelnen zu inspizieren:
Copyscape ist jedoch nicht der einzige Duplicate Content Checker.
Im Folgenden eine Liste weiterer empfehlenswerter Duplicate Content Check Tools:
- Duplichecker
- Articlechecker
- Webconfs
- Copyleaks
- Paperrater
- Plagiarisma
- Plagiarsimcheck
- Plagium
- Plagscan
- Plagtracker
- Quetext
- Plagiarsmhunt
Duplicate Content Probleme lösen
Liegt das Duplicate Content Problem in Texten begründet (wie Produktbeschreibungen) ist es geboten, die besagten Texte umzuschreiben und unique zu machen.
Zusammenfassend sollte folgendes beachtet werden:
Duplicate Content Problem beheben und vermeiden: Checkliste
- Nutzung von einer URL pro Inhalt
- Setzen einer 301 Weiterleitung, um auf die Webseite mit dem ursprünglichen Content umzuleiten
- Einsatz von Canonical Tags
- Sorgfalt in der Syndizierung
- Minimierung von ähnlichem Content durch z.B. Zusammenführung auf einer URL
- Nutzung der möglichen Einstellungen in der Google Search Console (URL-Parameter-Handling, bevorzugte Domain, etc.)
- Vermeidung unnötiger URL-Variationen
- Vermeidung der Indexierung von Platzhalter-Seiten bzw. Seiten, die keinen Inhalt haben
- Erstellung von thematisch eindeutigen Seiten
- Nutzung von noindex für Probleme mit doppelten Inhalten, die anderweitig nicht gelöst werden können
- Beachtung von schlüssigem und einheitlichem internem Linkbuilding
- Minimierung von immer wieder verwendeten Textbausteinen
- Einsatz von Geotargeting und hreflang
- Indexierung von URLs mit doppelten Inhalten ausschließen
SEO-Experten Tipp:Tipp: Bestimmte Arten von Duplicate Content sind normal und werden von Google nicht bestraft, wie z.B. Boilerplate Content.
Von Google nicht empfohlene Vorgehensweisen, um doppelte Inhalte zu vermeiden
- Simples Umschreiben von Content sollte vermieden werden, das ist spammy.
- Das Url Removal Tool in der Google Search Console sollte nicht genutzt werden, um Webseiten mit doppeltem Inhalt aus dem Index zu entfernen. Damit wird die URL lediglich aus den Suchergebnissen entfernt.
- Keinesfalls sollte die robots.txt genutzt werden, um Seiten mit doppelten Inhalten vom Crawling auszuschließen. Mit dieser Handhabung wird verhindert, dass der Crawler die Seite sieht, was durchaus zu einer Abstrafung führen kann.
Kostenlose SEO Erstberatung! – Hier klicken
Quellen:
https://moz.com/learn/seo/duplicate-content
https://seo-summary.de/doppelte-inhalte-duplicate-content-verhindern/
Zum SEO Lexikon