Auslöser für Duplicate Content (DC)
DC vermeiden
Duplicate Content läßt sich nicht immer vermeiden. Innerhalb der eigenen Website können Sie aber sehr gut darauf Einfluß nehmen ob diese Duplikate auch von den Suchmaschinen indiziert werden sollen. Ein gutes Beispiel sind die Eintragsseiten in Webkatalogen. Zu jeder Kategorie gibt es eine dieser Seiten und der Inhalt ist bis auf den Namen der Kategorie immer gleich. Das ist weder für den Suchenden noch für die Suchmaschinen sehr spannend. Über den robots-Tag im Kopf dieser Webseiten sollte der Webmaster den robots die Anweisung noindex geben, an welche sich die bedeutenden Suchmaschinen auch halten und diese Seiten nicht indizieren.
Wenn fremde Webseiten die Texte Ihrer Website auslesen und als eigene Inhalte präsentieren wird es für Sie schwieriger die Dinge zu regeln. Ist Ihre Webeite stark genug wird ihr die Kopie nicht schaden. Diese Kopie ist oft nur für wenige Tage im Index und fällt dann dem DC-Filter zum Opfer. Ist die andere Website stärker, bleibt oft nur die Möglichkeit, den Inhaber ausfindig zu machen und sich mit diesem zu einigen. Geht dies nicht, weil beispielsweise keine Kontaktdaten zu finden sind bleibt als letzte Hoffnung eigentlich nur noch der Ausweg, den eigenen Text umzuschreiben.
Seit der Einführung (und wieder Abschaffung?) des zusätzlichen Indexes haben wir die Erfahrung gemacht, dass es besser ist Webseiten, die nicht wirklich wichtig sind und DC erzeugen, für die spider zu sperren um sie nicht in den Index zu bringen. Mit den folgenden Absätzen wollen wir auf weitere Fehlerquellen aufmerksam machen, die zu Duplicate Content führen können.
Webseiten mit Session-ids
Webseiten, die beim Aufruf eine Session-id erzeugen und diese beim weitersurfen an die Url anhängen, sind wahrscheinlich der Duplicate-Content-Erzeuger Nummer 1. Nicht nur jeder Besucher, der diese Webseite betritt, bekommt eine eigene Session-id und zwar nach dem Verlassen der Homepage, bei jedem Neuaufruf eine neue, auch die spider der Suchmaschinen erhalten bei jedem Besuch der selben Webseite eine neue Session-id.
Daraus kann sich folgendes Szenario ergeben:
- Besucher verknüpfen die Seite per copy und paste aus der Adresszeile mit Session-id. Jeder Besucher erhält eine neue Session-id, die aber immer die selbe Seite zum Ziel hat. Suchmaschinen finden diese Verweise und gehen ihnen nach. Unter sehr vielen Verweisen, die eigentlich nur auf eine einzige Seite zeigen sollten, finden die Suchmaschinen nun jedes Mal eine neue Seite jedoch mit gleichem Inhalt.
- Spider besuchen die Website und speichern sie in ihrem Index. Beim nächsten Besuch bekommen sie eine neue Session-id und denken - prima, hier gibt es eine neue Seite und bringen auch diese in den Index. Das geschieht solange bis auffällt, dass es sich immer um den gleichen Inhalt auf den Seiten handelt.
Mögliche Reaktionen der Suchmaschinen:
- Entfernen aller Seiten mit gleichem Inhalt aus dem Index. Das heißt, die entsprechende Datei wird überhaupt nicht gelistet, auch nicht ohne Session-id. Wenn die Session-ids nicht nur auf bestimmte Bereiche der Website begrenzt sind, sondern auf allen Seiten in dieser Form weitergegeben werden, kann es passieren, dass alle Seiten aus dem Index fallen. Als einzige Seite der Domain wird dann nur noch die Startseite gelistet. Auf diese Weise können auch wertvolle externe Verweise, die auf diese abgewerteten Webseiten zeigen, verloren gehen.
Einträge in Webverzeichnissen
Werden Homepages immer mit dem selben beschreibenden Text in Webkataloge oder Bookmarkverzeichnisse eingetragen, wird dieses sicher im besten Fall von den Suchmaschinen als DC ignoriert im schlechtesten Fall wird dies als Spam gewertet. Wenn Ihnen beim 50. Katalogeintrag kein neuer Text mehr einfällt, sollten Sie sich überlegen, ob dieses Vorgehen noch sinnvoll ist.
Artikelverzeichnisse und Presseportale
Warning: include(inc/ads-rec.php): failed to open stream: No such file or directory in /home/www/homepage/dc-ausloeser.php on line 45
Warning: include(): Failed opening 'inc/ads-rec.php' for inclusion (include_path='.:/usr/share/php') in /home/www/homepage/dc-ausloeser.php on line 45
Hier gilt ähnliches wie bei den Eintragungen in Webkatalogen. Nur geht in diesen Verzeichnissen das Filtern von DC noch schneller, als auf Webkatogseiten mit vielen zusammengewürfelten Einträgen, die dann doch immer irgendwie anders aussehen. Vor allem die eigenen Texte, die auf der zu verknüpfenden Webseite veröffentlicht wurden, sollten nicht 1:1 in Artikelverzeichnissen eingereicht werden. Auch leichte Veränderungen werden sehr oft noch als Duplicate Content erkannt. Verfassen Sie hier separate Texte, mit Zusatzinformationen zu Ihrem Angebot. Reichen Sie diese Texte nicht mehrfach ein. Schreiben Sie statt dessen für jedes Artikelverzeichnis einen exclusiven Artikel.
Dynamisch erzeugte Webseiten
Dank Webprogrammierung ist es möglich, schnnell und mit wenig Aufwand Webseiten zu erzeugen. Dies kann beispielsweise sehr gut bei der Anfertigung einer Bildergalerie eingesetzt werden. Über eine Vorauswahl können mittels Script, in eine einzige Seite, immer wieder andere Bilder mit anderen Texten geladen werden. Für Suchmaschinen sind diese Seiten immer wieder neue Seiten. Sind die Texte sehr kurz, werden diese Seiten sehr schnell als DC eingestuft. Oft ist es jedoch nicht notwendig oder sinnvoll lange Texte zu jedem Bild zu schreiben, weil sie einfach stören würden. In diesem Fall sollten diese Seiten besser über den robots-Tag der Seiten von einer Indizierung ausgeschlossen werden.
Auch Texte lassen sich auf diese Weise sehr schnell erstellen. Sind sie sich sehr ähnlich werden auch sie als DC erkannt.