Webmaster-Zentrale Blog
Offizielle Informationen zum Crawling und zur Indexierung von Webseiten und News für Webmaster
PDFs in Google-Suchergebnissen
Freitag, 23. September 2011
Letzte Woche haben wir hier einen
Videobeitrag von Matt Cutts
veröffentlicht, indem er erklärt welche Unterschiede zwischen der Indexierung von PDFs und HTML bestehen. Heute gehen wir detailliert auf Fragen zu dem Thema ein, die uns häufig im Webmaster-Hilfeforum begegnen.
Unser Ziel besteht darin, Informationen weltweit zu organisieren und sie universell zugänglich und nutzbar zu machen. Bei diesem ambitionierten Unterfangen stoßen wir häufig auf andere Formate als HTML, etwa PDFs, Tabellen oder Präsentationen. Unsere Algorithmen werden durch diese unterschiedlichen Dateitypen jedoch nicht abgebremst. Wir arbeiten intensiv an der Extraktion der relevanten Inhalte, um entsprechende Indexe für unsere Suchergebnisse zu erstellen. Wie funktioniert aber die Indexerstellung für diese Dateitypen? Welche Richtlinien gelten für diese Dateien, die weit vom HTML-Standard abweichen? Was passiert, wenn ein Webmaster nicht möchte, dass wir sie indexieren?
Google erstellte 2001 erstmals Indexe für PDF-Dateien
und hat bis jetzt
mehrere hundert Millionen PDF-Dateien
indexiert. Wir haben die am häufigsten gestellten Fragen zur Indexerstellung aus PDFs gesammelt. Die Antworten findet ihr hier:
F: Kann Google jede Art von PDF-Dateien indexieren?
A: Im Prinzip können wir Textinhalte in jeder beliebigen Sprache aus PDF-Dateien indexieren. Die Datei kann verschiedene Zeichencodierungen enthalten, darf jedoch nicht passwortgeschützt oder verschlüsselt sein. Sollte der Text als Bild eingebettet sein, können wir diese Bilder zur Extraktion des Textes mit
OCR-Algorithmen
bearbeiten. Die Faustregel lautet: Wenn der Text aus einem PDF-Dokument kopiert und in ein Standard-Textdokument eingefügt werden kann, ist die Indexierung des Texts möglich.
F: Werden Bilder in PDF-Dateien indexiert?
A: Derzeit werden Bilder nicht indexiert. Zur Indexierung eurer Bilder solltet ihr entsprechende HTML-Seiten erstellen. Weitere Informationen darüber, wie ihr die Wahrscheinlichkeit einer Anzeige eurer Bilder in unseren Suchergebnissen erhöhen könnt, findet ihr in unserer
Webmaster-Tools-Hilfe
.
F: Wie werden Links in PDF-Dokumenten behandelt?
A: In der Regel werden Links in PDF-Dateien ähnlich wie Links in HTML behandelt. Sie können PageRank und andere Indexierungssignale weitergeben und wir folgen ihnen möglicherweise, nachdem die PDF-Datei gecrawlt wurde. Es ist derzeit nicht möglich,
"nofollow"
für Links innerhalb von PDF-Dokumenten zu verwenden.
F: Wie kann ich es verhindern, dass meine PDF-Datei in den Suchergebnissen angezeigt wird bzw. wie kann ich sie nachträglich daraus entfernen?
A: Die einfachste Methode, um zu vermeiden, dass eure PDF-Dokumente in den Suchergebnissen angezeigt werden, ist das Hinzufügen eines X-Robots-Tags "noindex" im HTTP-Header, mit dem die Datei bereitgestellt wird. Sollte die Datei bereits indexiert worden sein, wird sie mit der Zeit entfernt, wenn ihr das X-Robot-Tag mit der Anweisung "noindex" verwendet. Für eine schnellere Entfernung könnt ihr das Tool zum
Entfernen von URLs in den Google Webmaster-Tools
verwenden.
F: Können PDF-Dateien in den Suchergebnissen hoch eingestuft werden?
A: Klar! Das Ranking für PDF-Dateien gleicht in der Regel dem Ranking anderer Websites. Zum Beispiel werden in den Suchergebnissen für [
mortgage market review
], [
irs form 2011
] oder [
paracetamol expert report
] zum Zeitpunkt der Veröffentlichung dieses Posts (im
englischsprachigen Blog
) PDF-Dokumente ganz oben angezeigt. Dies ist aufgrund ihres Inhalts, ihrer Einbettung und Verlinkung von anderen Webseiten möglich.
F: Wird es als duplizierter Inhalt angesehen, wenn ich sowohl eine HTML- als auch PDF-Version meiner Seiten habe?
A: Wir empfehlen, Inhalte wenn möglich immer nur in einer Version bereitzustellen. Sollte das nicht möglich sein, legt am besten eure bevorzugte Version fest, indem ihr die URL dieser Version in eurer XML-Sitemap oder die autorisierte URL im HTML-Code oder
HTTP-Header
der PDF-Datei angebt.
Weitere Tipps zur Autorisierung
findet ihr in der Webmaster-Tools-Hilfe.
F: Wie kann ich die in den Suchergebnissen angezeigten Titel meines PDF-Dokuments beeinflussen?
A: Wir verwenden hauptsächlich zwei Elemente zur Bestimmung der angezeigten Titel: die Metadaten des Titels in der Datei und den Ankertext von Links, die auf die PDF-Datei verweisen. Aktualisiert am besten beide Elemente, damit macht ihr es unseren Algorithmen einfacher, den richtigen Titel zu ermitteln.
In der
Webmaster-Tools-Hilfe
findet ihr weitere Tipps zu den Inhaltstypen, die indexiert werden können. Solltet ihr Feedback oder Fragen haben, teilt uns dies bitte über das
Webmaster-Hilfeforum
mit.
Gepostet von Gary Illyes, Webmaster Trends Analyst (Veröffentlich von Dominik Zins, Search Quality)
Keine Kommentare :
Kommentar veröffentlichen
Labels
Accessibility
Android
api
App-Indexierung
Best Practices
Code
Crawling und Indexierung
Diskussionsforum
Duplicate Content
Einsteiger
Geo-Targeting
Google Analytics
Google Places
Google-Suche
Google+
Hacking
https
JavaScript
Konferenz
Links
Malware
Mobile
Nachrichten-Center
Penalties
Performance
Rich Snippets
Richtlinien für Webmaster
robots.txt
Safe Browsing
Search Console
Sicherheit
Site Clinic
Sitemaps
Spam Report
Structured Data
Tools und Gadgets
Video
Webmaster-Academy
Webmaster-Tools
Archiv
2016
Januar
2015
Dezember
November
Oktober
September
August
Juli
Mai
April
März
Februar
Januar
2014
November
Oktober
September
August
Juni
Mai
April
März
Februar
Januar
2013
Dezember
November
Oktober
August
Juli
Juni
Mai
April
März
Februar
Januar
2012
Dezember
November
Oktober
September
August
Juli
Juni
Mai
April
März
Februar
Januar
2011
Dezember
November
Oktober
September
Was passiert mit meinem Antrag auf erneute Überprü...
Mehr Transparenz bei Anträgen auf erneute Überprüfung
Google News crawlt jetzt mit dem Googlebot
PDFs in Google-Suchergebnissen
Sind Unterstriche oder Bindestriche besser in URLs?
Optimale Nutzung der verbesserten +1-Schaltfläche
Wie kann ich PDF-Dokumente optimieren?
Einführung neuer und verbesserter Sitelinks
Wie viele 301-Weiterleitungen kann ich auf einer W...
Treffen der Top-Beitragenden der Google Diskussion...
Neues, verbessertes Formular zum Melden von Webspam
August
Juli
Juni
Mai
April
März
Februar
Januar
2010
Dezember
November
Oktober
September
August
Juli
Juni
Mai
April
März
Februar
Januar
2009
Dezember
November
Oktober
September
August
Juli
Juni
Mai
April
März
Februar
Januar
2008
Dezember
November
Oktober
September
August
Juli
Juni
Mai
April
März
Februar
Januar
2007
Dezember
November
Oktober
September
August
Juli
Juni
Mai
April
März
Feed
Forum für Webmaster
Webmaster-Sprechstunden
Webmaster-Tools-Hilfe
Developers-Site für Webmaster
Keine Kommentare :
Kommentar veröffentlichen