Crawling und Indexierung von PDF-Dateien verhindern und aus dem Google-Index löschen

Kategorie: Wissen

Immer wieder kommt es vor, dass man Inhalte der eigenen Website in den Google Suchergebnissen nicht mehr sehen will, sei es aufgrund veralteter Informationen oder eines bestehenden 404-Fehlers. Aber wie kannst du Inhalte deiner Website von der Indexierung ausschließen oder aus den Suchergebnissen löschen? Das beleuchten wir in diesem Beitrag genauer, insbesondere in Hinblick auf das Datei-Format PDF.

html-Dokumente sind in der Regel die bessere Wahl

Generell solltest du dich immer fragen, ob ein PDF-Format sinnvoll ist – oder ob deine Wahl nicht eher auf ein html-Dokument fallen sollte. PDF-Dateien werden in der Regel automatisch im Acrobat Reader geöffnet, was dazu führt, dass der Nutzer erst gar nicht auf eine Website gelangt oder sie verlässt. Dadurch wird der Zugang zur Navigation und möglichen Conversions verhindert. Es gibt nur wenige Fälle, in denen ein PDF-Format heute noch Sinn macht, zum Beispiel wenn man eine Checkliste zum Ausdrucken anbietet oder Dokumente, die handschriftlich signiert werden müssen.

In den meisten Fällen machen das html-Format oder eine eigene Unterseite mehr Sinn. Für den Fall, dass dennoch PDFs ohne Mehrwert in den Index gelangen, haben wir nachfolgend einige Tipps parat.

Gründe für das Entfernen von PDF-Dateien

Die Gründe für das Entfernen von PDF-Dateien aus dem Google Index können vielseitig sein. So kann das Dokument beispielsweise veraltete Informationen enthalten, keinen Mehrwert für den Nutzer mehr bieten, doppelt vorhanden sein oder sogar zu einem 404-Fehler führen. Das alles sind potenzielle Gründe, um eine PDF-Datei von der Indexierung auszuschließen oder aus dem Google Index zu löschen. Zudem spart das Sperren der PDF-Datei Crawling-Budget, da so nur die wirklich wichtigen Inhalte vom Googlebot gecrawlt werden.

Crawling von PDF-Dateien verhindern

Das Crawling ist die Grundvoraussetzung für die Indexierung. Um zu verhindern, dass neu veröffentlichte PDFs oder gerade entfernte PDFs wieder im Google Index auftauchen, macht ein Eintrag in der robots.txt Sinn.

Das Sperren der PDF-Dateien per robots.txt ist nur dann sinnvoll, wenn bis dato noch keine PDF-Dateien auf der Website vorhanden sind und eine mögliche Indexierung der PDFs präventiv verhindert werden soll.

Soll nur ein bestimmtes PDF vom Crawling ausgeschlossen werden, platzierst du folgende Regel in der robots.txt:

User-agent: *

Disallow: /dateiname.pdf

Um PDFs generell vom Crawling auszuschließen gibt es zwei Wege. Entweder du speicherst alle PDFs in einem eigenen Verzeichnis (z.B. /pdf/) und ergänzt folgenden Befehl in der robots.txt:

User-agent: *

Disallow: /pdf/

Oder du schließt PDF-Formate generell vom Crawling aus:

User-agent: Googlebot

Disallow: /*.pdf

Wenn die Website schon PDF-Dateien enthält und diese bereits von Google indexiert wurden, sollten die PDF-Dateien im Nachgang auf keinen Fall in der robots.txt gesperrt werden. Das Sperren verhindert zwar, dass Google auf die PDF-Dateien zugreifen kann, bedeutet gleichzeitig aber nicht, dass diese dann auch aus dem Index entfernt werden. Stattdessen sollte hier das http Canonical Tag oder das X-Robots-Tag verwendet werden.

Welche Möglichkeiten gibt es, um PDF-Dateien und -Seiten aus dem Google Index zu entfernen?

Wenn eine Seite aus dem Google Index entfernt werden soll, kann normalerweise das Meta-Robots-Tag „noindex“ zum Abschnitt der Website hinzugefügt werden. Sobald das erledigt ist, crawlt Google die Seite erneut, erkennt das „noindex“-Tag und entfernt die Seite schließlich aus dem Index. Dieser Prozess kann in der Google Search Console beschleunigt werden.

Diese Vorgehensweise eignet sich hervorragend für Websites, funktioniert aber nicht für Datei-Typen wie Word-Dokumente, PDF-Dateien oder Bilder. Das Problem besteht darin, dass zuvor genannte Dateien keine html-Website sind und somit keinen Abschnitt enthalten, der entsprechend bearbeitet werden könnte.

Um PDF-Dateien von der Indexierung auszuschließen und aus dem Google Index zu entfernen gibt es mehrere Möglichkeiten, auf die wir im Folgenden näher eingehen möchten.

HTTP Header Canonical ist nur dann sinnvoll, wenn keine Links vorhanden sind

Sobald eine PDF-Datei eingehende oder ausgehende Links enthält, sollte von einer Deindexierung des Dokumentes abgesehen werden. Stattdessen kannst du ein Canonical-Tag in den HTTP-Header integrieren. Gibt es auch eine html-Version der PDF-Datei oder eine Website mit Downloadmöglichkeit für das PDF-Dokument, eignet sich diese Seite zum Kanonisieren.

Diese Strategie trägt dazu bei, dass der Verlust von Link Juice möglichst geringgehalten wird, indem dieser auf ein html-Äquivalent übertragen wird. Das Canonical-Tag garantiert zwar nicht, dass das PDF aus dem Google Index entfernt wird, in den meisten Fällen führt es aber dazu, dass das Dokument aus dem Index verschwindet. Sofern aus rechtlichen Gründen keine sofortige Entfernung der PDF-Datei erforderlich ist, kannst du zunächst diese „softe“ Variante versuchen.

Das Verwenden des X-Robots-Tags für das Entfernen von PDF-Dateien im Bulk-Verfahren

Die einfachste Methode, um zu vermeiden, dass PDF-Dokumente in den Suchergebnissen angezeigt werden, ist das Hinzufügen eines X-Robots-Tags „noindex“ im HTTP-Header, mit dem die Datei bereitgestellt wird. Das kann unter anderem wie folgt aussehen:

x-robots: noindex

x-robots: noindex, nofollow

Das Tag sorgt dafür, dass der Crawler die Seite zunächst herunterlädt, um dann dort das Tag zu finden. Hier kann dann durch das „noindex“-Attribut verhindert werden, dass ein Eintrag im Google-Index angelegt wird.

Um das X-Robots-Tag „noindex“ auf alle PDF-Dateien anwenden zu können, muss ein Zugriff auf die .htaccess-Datei möglich sein und diese bearbeitet werden können. Dann kannst du folgenden Befehl verwenden, um alle PDF-Dateien einer Website von der Indexierung auszuschließen:

<FilesMatch „.pdf$“>

header set x-robots-tag: noindex

<Filesmatch>

Wenn nur eine einzelne PDF-Datei nicht indexiert werden soll, dann kannst du das Folgende Snippet im HTTP-Header benutzen:

<Files guide.pdf>

header set x-robots-tag: noindex

<Files>

Sollte die Datei bereits indexiert worden sein, wird sie mit der Zeit entfernt, wenn das X-Robot-Tag mit der Anweisung „noindex“ verwendet wurde. Für eine schnellere Entfernung kannst du außerdem das Tool in der Google Search Console verwenden. Wichtig ist auch, dass im Nachgang in jedem Fall eine eigene Sitemap eingereicht und eine html-Sitemap mit allen betroffenen PDF-Dateien erstellt wird. Diese müssen dann auf „noindex, follow“ gesetzt und am besten im Footer verlinkt werden.

PDF-Dateien erfolgreich aus dem Google Index löschen

Das Entfernen von PDF-Dateien aus dem Google Index ist also über mehrere Wege möglich. Welcher dabei der richtige ist, hängt immer davon ab, ob PDF-Dateien bereits indexiert wurden und ob man nur einzelne Dateien oder alle PDF-Dateien von der Indexierung ausschließen möchte.

Der Beitrag Crawling und Indexierung von PDF-Dateien verhindern und aus dem Google-Index löschen erschien zuerst auf Aufgesang.

Kontaktieren Sie uns für Ihre individuelle Anfrage

Telefon Icon Vektor

Oder geben Sie hier Ihre Kontaktdaten ein, damit wir Ihnen ein individuelles Angebot erstellen können.

    Kontaktieren Sie uns für Ihre individuelle Anfrage

    Oder geben Sie hier Ihre Kontaktdaten ein, damit wir Ihnen ein individuelles Angebot erstellen können.

      Anführungszeichen
      • Christoph Allefeld
        Uns hat die Kompetenz, Professionalität und Flexibilität von Aufgesang überzeugt. Die Ergebnisse unserer ersten gemeinsamen Presseaktivitäten haben unsere Erwartungen weit übertroffen. […] Das Schöne ist die Nachhaltigkeit, die diese Aktivitäten gebracht haben. Wir bekommen immer noch Nachfragen von Redakteuren. So macht Zusammenarbeit Spaß. Wir können Aufgesang auf jeden Fall weiterempfehlen.
        Christoph Allefeld
        Blumenbutler
      •  Alfred Himmelweiss
        Aufgesang leistet saubere Arbeit, zuverlässig und professionell.
        Alfred Himmelweiss
        www.usabilityreport.de
      • Udo Krier
        Durch Zufall sind wir auf Aufgesang gestoßen und das war unser Glück. Denn mit Aufgesang haben wir eine professionelle Agentur gefunden, die uns nicht nur optimal berät, sondern unsere erste Pressemitteilung zu einem großen Erfolg gemacht hat. Mit einer Reichweite von mehr als 3 Millionen Lesern und fast ein Dutzend Veröffentlichungen übertraf dies weit unsere Erwartungen. Dabei ist das Preis-Leistungsverhältnis geradezu vorbildlich.
        Udo Krier
        edeltag.de
      • Petko Kostoff
        Als Start-up mit einem kleinen Marketing-Budget sind wir auf eine gute PR angewiesen. Bei der Bekanntmachung unseres Angebots konnten wir einige bereits vorhandene Medienkontakte erfolgreich für uns nutzen. Darüber hinaus hat eine über Aufgesang durchgeführte Aktion dazu geführt, dass weitere Redakteure zu uns Kontakt aufgenommen haben. In der Folge gab es Veröffentlichungen in für unsere Zielgruppe relevanten Medien. Mit der Unterstützung, die wir durch Aufgesang erfahren haben, sind wir sehr zufrieden, sodass wir die Zusammenarbeit in naher Zukunft fortsetzen werden und die Agentur gerne weiterempfehlen.
        Petko Kostoff
        Derixx GmbH
      • Wolfgang von Hohenberg
        Als einer der führenden Internet-Stellenmärkte sind wir mit unserem Karrierenetzwerk ingenieurweb.de auf aktive Pressearbeit angewiesen. Aufgesang hat uns bei der Erreichung unseres hohen Bekanntheitsgrades durch die gezielte Verbreitung der Presseinformationen in idealer Weise unterstützt. Wir bauen weiterhin auf gute Zusammenarbeit.
        Wolfgang von Hohenberg
        www.ingenieurweb.de
      • Claudio von Koschitzky
        Ich habe Aufgesang als einen ungewöhnlich flexiblen und kompetenten Partner erlebt. Die Aktionen zur Bekanntmachung der neuen Version unserer Software verliefen so positiv, dass uns entsprechende Anzeigenflächen etwa das Zwanzigfache des tatsächlichen Einsatzes gekostet hätten. Die Krönung war ein einminütiger Fernsehbeitrag auf WDR in der besten Sendezeit. Der überwiegende Teil unserer Anwender ist durch solche Presseberichte auf Kidkey aufmerksam geworden. Ich kann Aufgesang daher ohne Einschränkung weiterempfehlen.
        Claudio von Koschitzky
        WebAdmit Software

      Ihre Vorteile auf einen Blick

      Mitarbeiter von Presseverteiler.de bei der Besprechung von Pressemitteilungen

      Individuelle, kompetente Beratung – fundiertes Know-how und jahrzehntelange Erfahrung

      „Maßgeschneiderte“ Presseverteiler, perfekt abgestimmt auf Ihren Themenbereich

      Hohe Datenqualität: Sie erreichen Redakteure in der Regel über persönliche E-Mail-Adressen

      Unser Tipp

      Ergänzende Verbreitungsmöglichkeiten

      Wir beraten Sie gerne, welcher ergänzende Kanal optimal zu Ihren Anforderungen passt. Das Ziel: Die bestmögliche Reichweite für Ihre Botschaft, innerhalb des Budgets.

      Nutzen Sie unsere Servicenummer 0800 2834372 und rufen Sie uns kostenfrei an!

      Leitfaden von Aufgesang - Presseverteiler.de

      Leitfaden

      Distributionswege der PR

      Unser kostenloser Leitfaden informiert Sie umfassend über alles Wissenswerte rund um die Verbreitung von Pressemeldungen. Optimal für Einsteiger, gewinnbringend für Profis. Nutzen Sie noch heute unsere Experten-Tipps für Ihren PR-Erfolg!