html-Dokumente sind in der Regel die bessere Wahl
In den meisten Fällen machen das html-Format oder eine eigene Unterseite mehr Sinn. Für den Fall, dass dennoch PDFs ohne Mehrwert in den Index gelangen, haben wir nachfolgend einige Tipps parat.
Gründe für das Entfernen von PDF-Dateien
Crawling von PDF-Dateien verhindern
Das Crawling ist die Grundvoraussetzung für die Indexierung. Um zu verhindern, dass neu veröffentlichte PDFs oder gerade entfernte PDFs wieder im Google Index auftauchen, macht ein Eintrag in der robots.txt Sinn.
Das Sperren der PDF-Dateien per robots.txt ist nur dann sinnvoll, wenn bis dato noch keine PDF-Dateien auf der Website vorhanden sind und eine mögliche Indexierung der PDFs präventiv verhindert werden soll.
Soll nur ein bestimmtes PDF vom Crawling ausgeschlossen werden, platzierst du folgende Regel in der robots.txt:
User-agent: *
Disallow: /dateiname.pdf
Um PDFs generell vom Crawling auszuschließen gibt es zwei Wege. Entweder du speicherst alle PDFs in einem eigenen Verzeichnis (z.B. /pdf/) und ergänzt folgenden Befehl in der robots.txt:
User-agent: *
Disallow: /pdf/
Oder du schließt PDF-Formate generell vom Crawling aus:
User-agent: Googlebot
Disallow: /*.pdf
Wenn die Website schon PDF-Dateien enthält und diese bereits von Google indexiert wurden, sollten die PDF-Dateien im Nachgang auf keinen Fall in der robots.txt gesperrt werden. Das Sperren verhindert zwar, dass Google auf die PDF-Dateien zugreifen kann, bedeutet gleichzeitig aber nicht, dass diese dann auch aus dem Index entfernt werden. Stattdessen sollte hier das http Canonical Tag oder das X-Robots-Tag verwendet werden.
Welche Möglichkeiten gibt es, um PDF-Dateien und -Seiten aus dem Google Index zu entfernen?
Diese Vorgehensweise eignet sich hervorragend für Websites, funktioniert aber nicht für Datei-Typen wie Word-Dokumente, PDF-Dateien oder Bilder. Das Problem besteht darin, dass zuvor genannte Dateien keine html-Website sind und somit keinen Abschnitt enthalten, der entsprechend bearbeitet werden könnte.
Um PDF-Dateien von der Indexierung auszuschließen und aus dem Google Index zu entfernen gibt es mehrere Möglichkeiten, auf die wir im Folgenden näher eingehen möchten.
HTTP Header Canonical ist nur dann sinnvoll, wenn keine Links vorhanden sind
Diese Strategie trägt dazu bei, dass der Verlust von Link Juice möglichst geringgehalten wird, indem dieser auf ein html-Äquivalent übertragen wird. Das Canonical-Tag garantiert zwar nicht, dass das PDF aus dem Google Index entfernt wird, in den meisten Fällen führt es aber dazu, dass das Dokument aus dem Index verschwindet. Sofern aus rechtlichen Gründen keine sofortige Entfernung der PDF-Datei erforderlich ist, kannst du zunächst diese „softe“ Variante versuchen.
Das Verwenden des X-Robots-Tags für das Entfernen von PDF-Dateien im Bulk-Verfahren
Die einfachste Methode, um zu vermeiden, dass PDF-Dokumente in den Suchergebnissen angezeigt werden, ist das Hinzufügen eines X-Robots-Tags „noindex“ im HTTP-Header, mit dem die Datei bereitgestellt wird. Das kann unter anderem wie folgt aussehen:
x-robots: noindex
x-robots: noindex, nofollow
Das Tag sorgt dafür, dass der Crawler die Seite zunächst herunterlädt, um dann dort das Tag zu finden. Hier kann dann durch das „noindex“-Attribut verhindert werden, dass ein Eintrag im Google-Index angelegt wird.
Um das X-Robots-Tag „noindex“ auf alle PDF-Dateien anwenden zu können, muss ein Zugriff auf die .htaccess-Datei möglich sein und diese bearbeitet werden können. Dann kannst du folgenden Befehl verwenden, um alle PDF-Dateien einer Website von der Indexierung auszuschließen:
<FilesMatch „.pdf$“>
header set x-robots-tag: noindex
<Filesmatch>
Wenn nur eine einzelne PDF-Datei nicht indexiert werden soll, dann kannst du das Folgende Snippet im HTTP-Header benutzen:
<Files guide.pdf>
header set x-robots-tag: noindex
<Files>
Sollte die Datei bereits indexiert worden sein, wird sie mit der Zeit entfernt, wenn das X-Robot-Tag mit der Anweisung „noindex“ verwendet wurde. Für eine schnellere Entfernung kannst du außerdem das Tool in der Google Search Console verwenden. Wichtig ist auch, dass im Nachgang in jedem Fall eine eigene Sitemap eingereicht und eine html-Sitemap mit allen betroffenen PDF-Dateien erstellt wird. Diese müssen dann auf „noindex, follow“ gesetzt und am besten im Footer verlinkt werden.
PDF-Dateien erfolgreich aus dem Google Index löschen
Der Beitrag Crawling und Indexierung von PDF-Dateien verhindern und aus dem Google-Index löschen erschien zuerst auf Aufgesang.