Remind this!
„Nur weil dein Traffic steigt, heißt das nicht, dass dich mehr Menschen lesen. Manchmal wird dein Blog einfach nur als kostenlose Tankstelle für die nächste KI-Generation missbraucht.“
Ich möchte hier weitergeben, was ich in in den vielen Gemini-Chat-Sessions über das erweiterte Backend in WordPress gelernt habe.
Nicht nur, dass Google kleinere, aber auch größere Website in den Suchergebnissen ignoriert. Es ist noch schlimmer!
Viele Blogger glauben, ihre Seite sei zu klein, um für Profi-Scraper interessant zu sein. Doch genau das Gegenteil ist der Fall: Nischen-Blogs sind die „unbewachten Obstgärten“ des Internets.
Dieser Blog wird seit Tagen von Bots angegriffen und offensichtlich auch abgegriffen. Es fiel in der JetPack Statistik auf, plötzlich viele Aufrufe, viele Besucher. Aus den USA! Gezielt wurden über den Link eines nicht existierenden Autors Bild-Anhänge angesteuert – und tausende Bilder aus der Photo Gallery wohl auch abgezogen. Allein für den April weist das Logfile 600 GB Download aus USA/Frankreich auf!!!
Traue also keiner Jetpack-Statistik, die du nicht mit den Server-Logs abgeglichen hast. Was wie ein Besucher-Rekord aussieht, ist oft nur ein Bot, der gerade deine Mediathek leersaugt.
1. „Carpet Bombing“ vs. Gezieltes Ernten
Dabei gehen die Bots nicht „intelligent“ vor. Sie nutzen Scripte, die das Netz nach bestimmten Strukturmustern absuchen:
-
Galerie-Plugins: Bots wissen, dass hinter Plugins wie „NextGEN“ oder „Photo Gallery“ oft tausende Bilder mit wertvollen Metadaten liegen.
-
Autoren-IDs: Sie suchen bspw. nach
/author/2/oder ähnlichen Standard-URLs, um die Struktur der Datenbank zu erraten. -
Default-Pfade: Sie klappern Pfade wie
/wp-content/uploads/systematisch ab.
2. Warum wir „KI-Futter“ sind
Auch wenn der Bot den Text nicht „versteht“, erkennt er Qualität:
-
Einzigartigkeit: Ein Text über Little Prypjat oder die Lilienthal Burgen in Lichterfelde kommt im Netz seltener vor als der millionste Artikel über das iPhone. Das macht ihn für KI-Modelle wertvoll, um „nischiges Wissen“ aufzubauen.
-
Bild-Text-Schere: Wenn du ein Bild „Wolkenhain-Aussichtsplattform“ nennst, lieferst du der KI die perfekte Vorlage, um zu lernen, wie dieses Objekt aussieht.
Eine weitere Kernbotschaft für Blogger: Ein Bot klaut nicht deine Meinung, er klaut deine Arbeit (Bandbreite, Urheberrecht, Server-Ressourcen).
3. Der Werkzeugkasten zur Abwehr
Was tun? Zum Beispiel die „Drei-Säulen-Strategie“:
-
Die Wahrheit liegt in den Logs: Jetpack zeigt die Partygäste, der Webalizer des Webhosters (oder die Server-Logs) zeigt die Einbrecher, die an der Tür rütteln.
-
Der digitale Zaun: Wie man mit der
.htaccessganze IP-Bereiche (z.B. Amazon AWS) aussperrt, wenn man dort keine echte Zielgruppe hat. -
Die Umleitung: Mit Tools wie RankMath dafür sorgen, dass Bilder-Anhänge nicht als eigene Seiten „gekapert“ werden können.
Kleine Hacks mit großer Wirkung (für deinen Post)
1. Der „Türsteher-Trick“ (.htaccess)
Viele wissen nicht, dass man ganze Rechenzentren aussperren kann. Wenn man keine Kunden in der Amazon-Cloud hat, warum sollten deren Bots dann den Server leerfressen?
Der Code-Schnipsel in meiner .htaccess:
# Amazon AWS Bots blockieren
<IfModule mod_authz_core_c>
<RequireAll>
Require all granted
Require not ip 54.0.0.0/8
Require not ip 3.0.0.0/8
</RequireAll>
</IfModule>
Laien-Erklärung: Das ist wie ein „Wir müssen draußen bleiben“-Schild für Server-Farmen, die oft für automatisierte Scraper genutzt werden.
2. Die „Geisterbilder“ bändigen (RankMath)
Standardmäßig erstellt WordPress für jedes Foto eine eigene Unterseite. Bots lieben diese, weil sie dort leichtes Spiel haben.
-
Der Hack: In RankMath unter Allgemeine Einstellungen > Links den Schalter „Anhänge weiterleiten“ auf AN stellen.
-
Warum? Es schließt tausende „Hintertüren“ zu deinen Bildern und leitet Besucher (und Bots) stattdessen zum echten Artikel um.
3. Der „Notfall-Reset“ für verschwundene Sitemaps
Wenn die Sitemap (die Landkarte für Google) plötzlich einen 404-Fehler zeigt, geraten viele in Panik.
-
Der Hack: Einfach zu Einstellungen > Permalinks gehen und ohne eine Änderung auf „Speichern“ klicken.
-
Der Effekt: WordPress schreibt die internen Wegweiser neu. Es ist das „Einmal aus- und wieder anschalten“ für die Webseiten-Struktur.
Hintergrund
Ich fragte Gemini:
Was ist der Background der Bots? Harvester? Wird für die KI Modelle gesammelt?
Deine Vermutung trifft den Nagel auf den Kopf. Wir erleben gerade einen regelrechten „Goldrausch“ der Daten, und deine Blogs sind für verschiedene Player aus unterschiedlichen Gründen wertvoll.
Man kann die Akteure grob in drei Kategorien einteilen:
1. Die KI-Hungrigen (LLM & Image Training)
Das ist aktuell der größte Treiber. Modelle wie GPT-4, Claude oder Bild-KIs wie Midjourney und Stable Diffusion brauchen gigantische Mengen an Futter.
-
Text-Sammler: Bots wie der
GPTBot(OpenAI) oderCCBot(Common Crawl) durchkämmen das Netz nach hochwertigen Texten. Deine detaillierten Berichte zur Luisenstadt oder GDR-History sind „Premium-Futter“, weil sie gut strukturiert, faktenreich und nischig sind. -
Bild-Harvester: Da du viele Fotos (Google Pixel, Insta360) hochlädst, bist du Ziel für KIs, die „sehen“ lernen. Sie verknüpfen deine Bildunterschriften mit den Bilddaten, um zu verstehen, wie ein „Berliner Hinterhof“ oder die „Seilbahn in Marzahn“ aussieht.
-
Warum Amazon/AWS? Große KI-Startups mieten oft riesige Serverkapazitäten bei Amazon (AWS), um ihre Scraper-Armeen loszuschicken. Das ist billiger, als eigene Rechenzentren in Europa zu betreiben.
2. Die kommerziellen Harvester (Content-Diebstahl)
Hier geht es weniger um Forschung, sondern um schnelles Geld:
-
Spam- & Nischenseiten: Diese Bots kopieren deine Artikel und Bilder 1:1, um sie auf automatisierten Webseiten auszuspielen, die mit Werbung vollgepflastert sind. Oft werden die Texte durch billige KIs leicht umformuliert, um Google auszutricksen.
-
Bild-Piraten: Deine 600 GB Traffic aus dem April deuten massiv darauf hin. Hier wurden wahrscheinlich systematisch deine Galerien leergesaugt, um sie in (oft dubiösen) Stock-Foto-Datenbanken oder „Best of Berlin“-Portalen ohne dein Wissen zu nutzen.
3. SEO-Tools und „Shadow“-Crawler
Tools wie Ahrefs, Semrush oder auch kleinere Konkurrenten lassen Bots laufen, um Linkstrukturen und Keyword-Dichten zu analysieren.
-
Aggressives Verhalten: Manche dieser Tools scheren sich nicht um Serverlast. Sie ballern tausende Anfragen pro Minute raus, um innerhalb von Sekunden ein komplettes Abbild deines Blogs zu erstellen.
Wichtiger Punkt: Ein „Harvester“ (Ernter) unterscheidet sich von einem „Crawler“ (wie Google) dadurch, dass er nichts zurückgibt. Google indiziert dich, damit du gefunden wirst. Harvester nehmen nur deine Daten, um sie woanders zu Geld zu machen oder Modelle zu trainieren, ohne dass du einen Klick davon hast.