Webmaster-Zentrale Blog
Offizielle Informationen zum Crawling und zur Indexierung von Webseiten und News für Webmaster
Optimiert das Crawling und die Indexierung eurer Website
Donnerstag, 13. August 2009
Viele Fragen zur Architektur von Websites, dem Crawling und der Indexierung und sogar zum Ranking hängen mit einer zentralen Frage zusammen:
Wie leicht fällt es Suchmaschinen, eure Site zu crawlen?
Wir haben uns zu diesem Thema schon häufiger geäußert und hier findet ihr unsere Präsentation mit einigen wichtigen Aussagen dazu.
Das Internet ist
riesig
: Ständig wird neuer Content erstellt. Google verfügt nur über endliche Ressourcen - wenn wir also einer nahezu unendlichen Menge an Content, der online verfügbar ist, gegenüberstehen, dann kann Googlebot naturgemäß nur einen Anteil davon finden und crawlen. Von all dem Content, den wir gecrawlt haben, können wir ebenfalls nur einen Teil indexieren.
URLs sind wie die Brücken zwischen eurer Site und den Suchmaschinen-Crawlern: Die Crawler müssen diese Brücken finden und überqueren können (d. h. eure URLs finden und crawlen) um zum Content eurer Site zu gelangen. Wenn eure URLs kompliziert oder redundant sind, werden die Crawler viel Zeit damit verbringen, den Weg hin und zurück zu finden. Wenn eure URLs hingegen gut organisiert sind und direkt zum passenden Content führen, dann können die Crawler ihre Zeit damit verbringen, euren Content zu erfassen anstatt durch leere Seiten zu navigieren oder den gleichen Content wieder und wieder über verschiedene URLs zu crawlen.
In der obigen Präsentation könnt ihr einige Beispiele sehen, was ihr eher nicht tun solltet - es sind reale Beispiele (auch wenn die Namen im Rahmen unseres Schutzprogramms geändert sind ;) von selbstgebastelten URL-Hacks und Codierungen, Parameter-Verschleierung als Teil des URL-Pfades, "endlose Weiten" und mehr. Ihr findet auch einige Empfehlungen dazu, wie ihr dieses Labyrinth aus URLs glätten könnt und so den Crawlern dabei helft, mehr eures Contents noch schneller zu finden.
Dazu gehört:
Entfernt User-spezifische Details aus den URLs.
URL-Parameter, die keinen Einfluß auf den Seiteninhalt haben, wie z. B. Session-IDs oder Sortierungsparameter, können aus einer URL entfernt werden und beispielsweise in einem Cookie platziert werden. Indem diese Informationen in ein Cookie geschrieben werden und per 301-Weiterleitung auf eine "saubere" URL verwiesen wird, behaltet ihr einerseits die Besucherrelevanten Informationen und reduziert andererseits die Zahl der URLs die auf den gleichen Content zeigen.
Haltet eure "endlosen Weiten" im Zaum.
Habt ihr einen Kalender, der auf eine unendliche Zahl vergangener und zukünftiger Daten verweist (jedes mit einer eigenen, einzigartigen URL)? Oder habt ihr Daten über mehrere Seiten verteilt, die einen
Statuscode "200"
liefern, wenn ihr z. B. &seite=3563 an die URL anhängt - selbst, wenn es gar nicht so viele Seiten gibt? Falls ja, dann habt ihr in Bezug auf das Crawling "
endlose Weiten
" auf eurer Website und die Crawler verschwenden möglicherweise ihre (und eure!) Bandbreite beim Versuch, das alles zu crawlen. Beachtet einfach
diese Tipps
um eure endlosen Weiten im Zaum zu halten.
Verhindert Aktionen, die Googlebot gar nicht ausführen kann.
Indem ihr eine
robots.txt-Datei
verwendet, könnt ihr das Crawling von Login-Seiten, Kontakt-Formularen, Warenkörben oder anderen Seiten verhindern, deren einzige Funktionalität von einem Crawler nicht ausgeführt werden kann. (Crawler sind notorisch geizig und zurückhaltend - in der Regel werden sie nichts "in den Warenkorb legen" und kein Kontakt-Formular ausfüllen). Dies lässt den Crawlern mehr Zeit, den Content zu crawlen, mit dem sie tatsächlich etwas anfangen können ;)
Eine URL, ein bestimmter Content
In einer perfekten Welt gibt es eine 1:1-Beziehung zwischen URL und Content: Jede URL führt zu einzigartigem Content, und jeder Teil des Contents kann nur mittels einer URL erreicht werden. Je näher ihr diesem Ideal kommen könnt, desto besser ist eure Site für das Crawling und die Indexierung geeignet. Falls euer CMS oder das aktuelle Setup eurer Site dies erschweren, könnt ihr das
rel=canonical Element
verwenden um die bevorzugte URL für einen bestimmten Content zu definieren.
Falls ihr weitere Fragen zur Optimierung eurer Site hinsichtlich Crawling und Indexierung habt, könnt ihr einige
unserer älteren Artikel
(Englisch) dazu lesen oder auch in unserem
Forum für Webmaster
vorbeischauen.
Optimize your crawling & indexing (English version)
Post von Susan Moskwa, Webmaster Trends Analyst (Übersetzung von Sven, Search Quality)
Keine Kommentare :
Kommentar veröffentlichen
Labels
Accessibility
Android
api
App-Indexierung
Best Practices
Code
Crawling und Indexierung
Diskussionsforum
Duplicate Content
Einsteiger
Geo-Targeting
Google Analytics
Google Places
Google-Suche
Google+
Hacking
https
JavaScript
Konferenz
Links
Malware
Mobile
Nachrichten-Center
Penalties
Performance
Rich Snippets
Richtlinien für Webmaster
robots.txt
Safe Browsing
Search Console
Sicherheit
Site Clinic
Sitemaps
Spam Report
Structured Data
Tools und Gadgets
Video
Webmaster-Academy
Webmaster-Tools
Archiv
2016
Januar
2015
Dezember
November
Oktober
September
August
Juli
Mai
April
März
Februar
Januar
2014
November
Oktober
September
August
Juni
Mai
April
März
Februar
Januar
2013
Dezember
November
Oktober
August
Juli
Juni
Mai
April
März
Februar
Januar
2012
Dezember
November
Oktober
September
August
Juli
Juni
Mai
April
März
Februar
Januar
2011
Dezember
November
Oktober
September
August
Juli
Juni
Mai
April
März
Februar
Januar
2010
Dezember
November
Oktober
September
August
Juli
Juni
Mai
April
März
Februar
Januar
2009
Dezember
November
Oktober
September
August
Leere Seiten im Index
Google SERPs und AJAX
Wird es in 5 Jahren noch SEO geben?
Die Lizenz eines Bildes mit RDFa festlegen
Wie wirkt sich der Serverstandort aufs Ranking aus?
PageRank von Twitter-Seiten - Video von Matt Cutts
Neue Tools bei Google Services for Websites
Optimiert das Crawling und die Indexierung eurer W...
Testet unsere neue Infrastruktur
Webmaster-Videos mit Matt Cutts - jetzt auf deutsch
SMX Advanced: Q&A für Fortgeschrittene
Juli
Juni
Mai
April
März
Februar
Januar
2008
Dezember
November
Oktober
September
August
Juli
Juni
Mai
April
März
Februar
Januar
2007
Dezember
November
Oktober
September
August
Juli
Juni
Mai
April
März
Feed
Forum für Webmaster
Webmaster-Sprechstunden
Webmaster-Tools-Hilfe
Developers-Site für Webmaster
Keine Kommentare :
Kommentar veröffentlichen