Analyse von Cloudflare

Crawler durchforsten Websites, um KI-Chatbots zu trainieren

Uhr
von Yannick Chavanne und Übersetzung: Alexandra Hüsler

Eine Analyse von Cloudflare zeigt, dass die Bots hinter den KI-Chatbots, sogenannte Crawler, erhebliche Datenmengen online sammeln. Manchmal geschieht dies unter Umgehung von Einschränkungen. Nun kündet das Unternehmen ein Tool an, das beim Schutz von Webseiten helfen soll.

(Source: Kyle Glenn / Unsplash)
(Source: Kyle Glenn / Unsplash)

Die Entwicklung der Large Language Models (LLM), die den Kern von ChatGPT bilden, erfolgt auf der Grundlage von online veröffentlichten Texten. Diese Texte werden von sogenannten "Crawler"-Bots gesammelt.  Vielen Medien und Webseitenbetreibern ist diese Praxis ein Dorn im Auge.  Cloudflare hat nun sein Netzwerk an Diensten für Website-Performance und -Sicherheit analysiert, um das Ausmass des Phänomens zu erfassen und die aktivsten Crawler zu identifizieren.

Cloudflare hat im Analysezeitraum zwischen Juli 2023 und Juni 2024 in seinem Netzwerk Bytespider, Amazonbot, ClaudeBot und GPTBot als die aktivsten Bots im Dienste der LLM identifiziert. Bytedance, das Unternehmen hinter TikTok, betreibt Bytespider und sammelt Daten für seine LLM, darunter Doubao, einen Konkurrenten von ChatGPT. In Bezug auf das Anfragevolumen liegt Amazonbot auf dem zweiten Platz, während ClaudeBot, das zur Schulung des Chatbots Claude entwickelt wurde, kürzlich seine Aktivitäten erhöht hat.

Bytespider fällt durch den Umfang und die Häufigkeit seiner Crawls aus. Zugleich sei er aber auch der Bot, der am häufigsten blockiert wird, wie Cloudflare berichtet. GPTBot, der von OpenAI betrieben wird, folgt auf dem zweiten Platz. 

Cloudflare lanciert ein kostenloses Tool, um Bots daran zu hindern, Webseiten, die seine Dienste in Anspruch nehmen, zu scrapen.  "Wenn böswillige Akteure versuchen, Websites im grossen Stil zu crawlen, verwenden sie in der Regel Tools und Frameworks, die wir identifizieren können", schreibt Cloudflare. "Für jeden dieser "Fingerabdrücke", die wir sehen, nutzen wir das Netzwerk von Cloudflare, das durchschnittlich mehr als 57 Millionen Anfragen pro Sekunde durchläuft, um zu verstehen, inwieweit wir diesem "Fingerabdruck" vertrauen sollten." Um die eigenen Modelle zu füttern, berechne Cloudflare globale Aggregate für viele Signale. Auf der Grundlage der Signale seien die Modelle in der Lage, den von invasiven KI-Bots ausgehenden Datenverkehr angemessen zu melden.

 

Im Juni 2023 wurde in Kalifornien eine Sammelklage gegen OpenAI und Microsoft eingereicht. Grund dafür war das die Verwendung gesammelter Daten für das Training der LLM und die Datenauswertung durch generative KI-Modelle wie ChatGPT. Mehr dazu lesen Sie hier.

Wenn Sie mehr zu Cybercrime und Cybersecurity lesen möchten, melden Sie sich hier für den Newsletter von Swisscybersecurity.net an. Auf dem Portal gibt es täglich News über aktuelle Bedrohungen und neue Abwehrstrategien.

Webcode
j7aYbYuW