Webmaster-Zentrale Blog
Offizielle Informationen zum Crawling und zur Indexierung von Webseiten und News für Webmaster
Datennutzung zur Bekämpfung von Webspam
Dienstag, 1. Juli 2008
Als Leiter des Google Webspam Teams ist es meine Aufgabe sicherzustellen, dass eure Suchergebnisse so relevant und informativ wie möglich sind. Als Webspam bezeichnen wir den Schrott, den ihr in den Suchergebnissen sehen könnt, wenn es Websites gelingt, mittels Tricks eine hohe Position in den Suchergebnissen zu erschleichen oder anderweitig gegen unsere
Qualitätsrichtlinien
verstoßen. Falls ihr noch nie Webspam gesehen habt, findet ihr hier ein gutes Beispiel dafür, was sich hinter einem Link verbergen kann, der zu Spam führt (klickt auf das Bild für eine größere Version).
Es ist offensichtlich, wie wenig hilfreich eine solche Seite ist. Das Beispiel beinhaltet so gut wie keinen organischen Content und bietet kaum nützliche Informationen für die User. Wir arbeiten hart daran, dass ihr solche Suchergebnisse nur selten zu Gesicht bekommt. Stellt euch vor, wie frustrierend es für euch wäre, auf einen Link in unseren Suchergebnissen zu klicken und schließlich auf einer derartigen Site zu landen.
Heutzutage begegnet den Suchenden solch offensichtlicher Spam nur noch selten in den Ergebnissen. Webspam war noch ein wesentlich größeres Problem, bevor Google populär wurde und bevor es uns gelang, effektive Anti-Spam-Methoden zu entwickeln. Webspam kann generell recht frustrierend sein, wenn beispielsweise die Suche nach dem eigenen Namen als Ergebnis lauter Links zu Seiten mit pornografischem Content liefert. Es gibt jedoch auch zahlreiche Suchvorgänge, bei denen es noch viel wichtiger ist, relevante Suchergebnisse zu erhalten, und wo Spam ein ernstes Problem darstellt. Wenn z. B. eine Suche nach
Prostatakrebs
überwiegend Spam anstelle von relevanten Links liefert, dann mindert das erheblich den Nutzen einer Suchmaschine als hilfreiches Tool.
Die Logs aus früheren Suchvorgängen sind ein Werkzeug, das wir nutzen, um Webspam zu bekämpfen und sauberere und relevantere Ergebnisse zu liefern. Archivierte Daten wie z. B. IP-Adressen und Cookie-Informationen ermöglichen es uns, Bewertungsgrundlagen zu erstellen, anhand derer wir die verschiedenen Aspekte unserer Suchqualität messen können (wie z. B. Indexgröße und Reichweite, die "Frische" der Ergebnisse und Spam).
Wann immer wir eine neue Bewertungsgrundlage erstellen, ist es wichtig, dass wir dazu unsere archivierten Daten aus früheren Suchanfragen oder Ergebnisseiten zur Berechnung der neuen Spam-Daten nutzen. Wir nutzen unsere archivierten Suchdaten, um einen Blick in die Vergangenheit zu werfen, damit wir ermitteln können, wie gut wir bei Suchanfragen von vor einigen Monaten waren. Wenn wir eine neue Bewertungsgrundlage erstellen, um eine neue Art von Spam genauer zu erfassen, dann messen wir nicht nur unsere diesbezüglichen Fortschritte, sondern werten auch die archivierten Daten aus, um festzustellen, wie gut wir mit dieser Art von Spam in den vorigen Monaten und Jahren umgegangen sind.
Die Informationen bezüglich IP-Adresse und Cookies sind für uns wichtig, da sie uns dabei helfen, die oben beschriebenen Methoden nur auf Suchanfragen von "echten" Usern anzuwenden - im Gegensatz zu Suchanfragen, die z. B. durch Bots generiert wurden. Wenn beispielsweise ein Bot ununterbrochen identische Suchanfragen an Google richtet, dann sollten diese eher vernachlässigt werden, wenn wir ermitteln, wie viel Spam unsere User zu Gesicht bekommen. Dies alles – archivierte Suchdaten, IP-Adressen und Cookie-Daten – sorgt dafür, dass eure Suchergebnisse sauberer und relevanter werden.
Falls ihr glaubt, das Problem des Webspam wäre bereits gelöst, dann irrt ihr euch. Letztes Jahr hatten wir mit einem riesigen Anstieg von chinesischen Spam-Domains zu kämpfen. Einige Spammer kauften riesige Mengen billiger .cn-Domains und packten sie voll mit
Schreibfehlern und pornografischen Begriffen
. Die eingefleischten Webmaster unter euch können sich wahrscheinlich an diverse Blogposts darüber erinnern, aber die meisten User haben davon überhaupt nichts mitbekommen. Der Grund, weshalb die meisten User unserer Suche diese ungewöhnlichen Suchergebnisse gar nicht bemerkten, ist, dass wir den .cn-Spam frühzeitig erkannt und diesem mit schnell eingeleiteten Entwicklungsmaßnahmen entgegengewirkt haben. Ohne die Logdaten, mit deren Hilfe wir mehr über die Geschwindigkeit und den Umfang des Problems erfahren konnten, wären sicher deutlich mehr Google-User von dieser Spam-Attacke betroffen gewesen.
Im Idealfall braucht die große Mehrzahl unserer User gar nicht zu wissen, dass es bei Google ein Webspam Team gibt. Wenn wir unsere Arbeit gut machen, dann seht ihr vielleicht von Zeit zu Zeit mal ein paar Resultate von minderer Qualität, aber irreführende JavaScript-Weiterleitungen, unerwünschte pornografische Inhalte, Seiten mit unzusammenhängendem Kauderwelsch oder andere Arten von Spam bleiben euch verborgen. Eure archivierten Suchanfragen helfen uns, neue Spam-Trends zu erkennen und an entsprechenden Gegenmaßnahmen zu arbeiten, noch bevor der Spam die Qualität eurer Sucherfahrung mindert.
Using data to fight webspam (English version)
Post von Matt Cutts, Software-Ingenieur (Übersetzung von Sven, Search Quality)
Keine Kommentare :
Kommentar veröffentlichen
Labels
Accessibility
Android
api
App-Indexierung
Best Practices
Code
Crawling und Indexierung
Diskussionsforum
Duplicate Content
Einsteiger
Geo-Targeting
Google Analytics
Google Places
Google-Suche
Google+
Hacking
https
JavaScript
Konferenz
Links
Malware
Mobile
Nachrichten-Center
Penalties
Performance
Rich Snippets
Richtlinien für Webmaster
robots.txt
Safe Browsing
Search Console
Sicherheit
Site Clinic
Sitemaps
Spam Report
Structured Data
Tools und Gadgets
Video
Webmaster-Academy
Webmaster-Tools
Archiv
2016
Januar
2015
Dezember
November
Oktober
September
August
Juli
Mai
April
März
Februar
Januar
2014
November
Oktober
September
August
Juni
Mai
April
März
Februar
Januar
2013
Dezember
November
Oktober
August
Juli
Juni
Mai
April
März
Februar
Januar
2012
Dezember
November
Oktober
September
August
Juli
Juni
Mai
April
März
Februar
Januar
2011
Dezember
November
Oktober
September
August
Juli
Juni
Mai
April
März
Februar
Januar
2010
Dezember
November
Oktober
September
August
Juli
Juni
Mai
April
März
Februar
Januar
2009
Dezember
November
Oktober
September
August
Juli
Juni
Mai
April
März
Februar
Januar
2008
Dezember
November
Oktober
September
August
Juli
Die Technologie hinter dem Google-Ranking
Matt Cutts über Ranking, Spam und die Zukunft der ...
Wie ihr in den Genuss der Webmaster-Tools kommt
Einführung in Sachen Google-Ranking
Das Search Quality Team auf der SES Hamburg
Welche Ratschläge habt ihr für die Suche nach eine...
Antrag auf erneute Überprüfung in den Google Webma...
Verbesserte Indexierung von Flash-Content
Datennutzung zur Bekämpfung von Webspam
Juni
Mai
April
März
Februar
Januar
2007
Dezember
November
Oktober
September
August
Juli
Juni
Mai
April
März
Feed
Forum für Webmaster
Webmaster-Sprechstunden
Webmaster-Tools-Hilfe
Developers-Site für Webmaster
Keine Kommentare :
Kommentar veröffentlichen