Wenn KI zum Angriffsziel wird: Wie Angreifer Sicherheitsmodelle mit versteckten Code-Instruktionen manipulieren

Ein Threat-Research-Team von Cloudflare hat dokumentiert, wie Angreifer täuschende Anweisungen in bösartigen Code einbetten, um KI-gestützte Sicherheitssysteme dazu zu bringen, schädliche Skripte als unbedenklich einzustufen. Die Ergebnisse zeigen, dass selbst Frontier-KI-Modelle messbare Schwachstellen aufweisen — insbesondere wenn schädliche Logik in umfangreichen, legitimen Code-Bibliotheken verborgen ist.

Als das Threat-Intelligence-Team von Cloudflare im März 2026 ein verdächtiges Skript analysierte, stieß es weder auf einen neuartigen Virus noch auf einen raffinierten Exploit. Was die Sicherheitsforscher vorfanden, war Sprache — Tausende von Textzeilen in mehreren Sprachen, die nicht an menschliche Leser gerichtet waren, sondern an die KI-Systeme, die für die Erkennung schädlichen Codes zuständig sind. Diese Entdeckung markierte einen Wendepunkt: Automatisierte Sicherheitssysteme waren selbst zu Zielen von Manipulationsversuchen geworden.

Die eingesetzte Methode heißt Indirect Prompt Injection (IDPI). Dabei werden versteckte Anweisungen in Daten — etwa in Quellcode — eingebettet, die KI-Modelle anschließend verarbeiten. Ziel ist es, das Modell dazu zu verleiten, schädliche Skripte als harmlos einzustufen. Cloudforce One, das Bedrohungsanalyse-Team von Cloudflare, startete daraufhin ein strukturiertes Forschungsprogramm, um die tatsächliche Wirksamkeit dieser Angriffsmethode zu messen.

Ein kontrolliertes Experiment im großen Maßstab

Das Forschungsteam konzipierte ein zweiphasiges Experiment. In der ersten Phase wurde untersucht, ob sogenannte „Notice to AI“-Lures — kommentierte Textblöcke, die den Code als sicher und unbedenklich darstellen — KI-Modelle täuschen können, wenn sie am Anfang schädlicher Skripte platziert werden. Die Ergebnisse waren gemischt: Für die meisten Modelle wirkten übermäßige Sicherheitsbehauptungen eher als Warnsignal denn als erfolgreicher Bypass.

Phase zwei adressierte drei wesentliche Lücken: Realismus, Umfang und Volumen. Kommentare wurden zufällig über die Skripte verteilt, anstatt in einem einzelnen Block platziert zu werden. Das Experiment umfasste 18.400 API-Aufrufe an 100 bestätigten schädlichen Cloudflare-Workers-Skripten. Sieben KI-Modelle wurden getestet, darunter kostenoptimierte Non-Frontier-Systeme und leistungsstarke Frontier-Modelle. Die getesteten Sprachen umfassten Englisch, Estnisch, Arabisch, Chinesisch und Russisch.

Das Testkorpus deckte vier Kategorien schädlicher Aktivitäten ab: Phishing (52 %), Proxy- und Tunneling-Missbrauch (35 %), File Hosting (7 %) sowie Streaming-Missbrauch (6 %). Jedes Skript wurde in 23 Varianten mit Kommentarmengen von einem bis zu eintausend Einträgen bewertet.

Drei zentrale Erkenntnisse

Die U-Kurve der Täuschung

Die Erkennungsraten sanken nicht linear mit steigendem Kommentarvolumen. Stattdessen folgten sie einer U-förmigen Kurve. Moderate Kommentarmengen — etwa 20 Einträge — täuschten Non-Frontier-Modelle erfolgreich. Das anfälligste Modell verzeichnete einen Rückgang der Erkennungsrate von 90 % auf 67 % bei lediglich 20 eingefügten Kommentaren. Bei extremen Volumina von eintausend oder mehr Kommentaren begannen die meisten Modelle jedoch, die Menge der Sicherheitsbehauptungen selbst als Verdachtsindikator zu werten — und die Erkennungsraten erholten sich oder verbesserten sich sogar.

Ein Non-Frontier-Modell erreichte bei maximalem Kommentarvolumen eine Erkennungsrate von 91 %, nachdem es repetitive Sicherheitshinweise effektiv als Betrugsmerkmal klassifizieren gelernt hatte. Frontier-Modelle erwiesen sich als widerstandsfähiger gegenüber Täuschungsversuchen bei geringen Volumina, obwohl keines vollständig immun war.

Die 1%-Bypass-Zone

Die Forschung identifizierte einen präzisen Schwellenwert, bei dem täuschende Kommentare am wirksamsten sind: wenn sie weniger als 1 % des gesamten Dateiinhalts ausmachen. Bei diesem Verhältnis fügen sich Kommentare in den Code ein, ohne Misstrauen zu wecken. Über alle getesteten Modelle hinweg sank die durchschnittliche Erkennungsrate vom Basiswert von 67,3 % auf 53,3 %, wenn Kommentare weniger als 1 % der Datei belegten.

Ab einer Kommentardichte von 25 % kehrte sich die Dynamik vollständig um. Bei diesem Schwellenwert interpretierten Modelle die Konzentration von Sicherheitsbehauptungen als absichtlichen Manipulationsversuch — und die Erkennungsraten stiegen auf nahezu 99 %. Die Daten belegen: Subtilität, nicht Volumen, ist das effektivste Werkzeug des Angreifers.

Volumen als ultimative Tarnung

Die folgenreichste Erkenntnis hat wenig mit Sprache oder Kommentardichte zu tun. Dateien über 3 Megabyte — typischerweise umfangreiche Drittanbieter-Bibliothekspakete wie React oder das TON-SDK — führten bei allen Modellen zu Erkennungsraten von lediglich 12 bis 18 %. Schädliche Logik, die in Tausenden von Zeilen legitimen Framework-Codes versteckt war, erschöpfte effektiv die Aufmerksamkeit der Modelle — unabhängig davon, ob die Datei das Kontextfenster überschritt oder das Modell innerhalb des Fensters schlicht überfordert wurde.

Im Vergleich dazu wurden Dateien unter 500 Kilobyte mit Raten von nahezu 100 % erkannt. Die Schlussfolgerung ist eindeutig: Ein Angreifer muss eine KI nicht davon überzeugen, dass sein Code sicher ist. Es genügt, das schädliche Signal zu klein zu machen, um gefunden zu werden.

Sprachliche Vorurteile und Modell-Stereotype

Das Experiment zeigte zudem, dass Sprache selbst das Modellverhalten beeinflusst. Nicht-englischsprachige Kommentarskripte lösten ausgeprägte modellspezifische Vorurteile aus. Russischsprachige Kommentare veranlassten ein Non-Frontier-Modell dazu, Russisch als Indikator für Social Engineering zu werten — die Erkennungsrate stieg um 14 Prozentpunkte. Frontier-Modelle zeigten erhöhte Aufmerksamkeit gegenüber chinesischen und arabischen Skripten. Estnischsprachige Kommentare hingegen reduzierten bei mehreren Modellen das Misstrauen — was auf eine implizite Vertrauenshierarchie basierend auf Sprachvertrautheit oder Trainingsdatenverteilung hindeutet.

Diese Ergebnisse deuten darauf hin, dass KI-Modelle interne Assoziationen zwischen der Sprache von Kommentaren und wahrgenommenem Risiko entwickelt haben — eine Form statistischer Stereotypisierung, die Angreifer je nach Ziel ausnutzen oder vermeiden können.

Formatkollaps: Ein Lähmungsproblem

Bei extremen Kommentarvolumina lieferten einige Frontier-Modelle keine verwertbaren Ausgaben mehr — sie klassifizierten Skripte nicht nur falsch, sondern stellten die Ausgabe vollständig ein. Anstatt ein binäres Urteil — schädlich oder unbedenklich — zu fällen, erzeugten sie unleserliche Texte oder weigerten sich, im geforderten Format zu antworten. In automatisierten Sicherheitspipelines, die auf strukturierte Antworten angewiesen sind, um Schutzmaßnahmen auszulösen, entspricht dies einer funktionalen Lähmung. Ein Angreifer, der diesen Zustand herbeiführen kann, neutralisiert das Erkennungssystem, ohne es je täuschen zu müssen.

Schutzmaßnahmen

Cloudforce One formulierte eine Reihe praktischer Gegenmaßnahmen. Das Entfernen von Kommentaren aus dem Code vor der KI-Analyse eliminiert den primären Injektionsvektor mit minimalem Aufwand. Bei der Verarbeitung großer Dateien sollten Parser funktionale Code-Blöcke gegenüber Boilerplate- oder Bibliotheks-Importen priorisieren. Variablennamen sollten anonymisiert werden, um zu verhindern, dass Modelle von beschreibenden oder beruhigenden Bezeichnern beeinflusst werden. Prompts sollten auf spezifische Angriffstypen abzielen, anstatt allgemeine Fragen zur Code-Intention zu stellen.

Das Team empfahl zudem die Implementierung einer semantischen Validierungsschicht, die Sicherheitsbehauptungen in natürlicher Sprache mit dem tatsächlichen programmatischen Verhalten abgleicht — um sicherzustellen, dass legitime Dokumentation keine Fehlalarme auslöst, während echte Täuschungsversuche erkannt werden.

Fazit

Die Erkenntnisse von Cloudforce One ordnen die durch indirekte Prompt-Injektion entstehende Bedrohung neu ein. Sprachliche Täuschung allein ist für gut trainierte Frontier-Modelle zunehmend eher ein Erkennungsmerkmal als ein erfolgreicher Angriff. Die eigentliche Gefahr liegt in struktureller Manipulation — in der gezielten Verdünnung schädlicher Signale durch legitimen Code in großem Maßstab.

Da KI-Systeme zunehmend Verantwortung in der Sicherheitsinfrastruktur übernehmen, muss die Architektur dieser Systeme entsprechend weiterentwickelt werden. Ein einzelnes KI-Modell, das rohen, unverarbeiteten Code überprüft, ist nicht mehr ausreichend. Die Forschung zeigt den Weg zu einem mehrschichtigen Pipeline-Ansatz: Rauschen eliminieren, Signale isolieren und KI als eine Komponente innerhalb einer breiteren, gehärteten Sicherheitsarchitektur einsetzen.

Jakob Jung

Dr. Jakob Jung ist Chefredakteur Security Storage und Channel Germany. Er ist seit mehr als 20 Jahren im IT-Journalismus tätig. Zu seinen beruflichen Stationen gehören Computer Reseller News, Heise Resale, Informationweek, Techtarget (Storage und Datacenter) sowie ChannelBiz. Darüber hinaus ist er für zahlreiche IT-Publikationen freiberuflich tätig, darunter Computerwoche, Channelpartner, IT-Business, Storage-Insider und ZDnet. Seine Themenschwerpunkte sind Channel, Storage, Security, Datacenter, ERP und CRM.
Kontakt – Contact via Mail: jakob.jung@security-storage-und-channel-germany.de

Wenn KI zum Angriffsziel wird: Wie Angreifer Sicherheitsmodelle mit versteckten Code-Instruktionen manipulieren

VonJakob Jung

Von Jakob Jung

Ähnlicher Beitrag

Strategischer Fahrplan für den Aufbau resilienter Managed Identity Services

Argos Security baut Partnerökosystem aus – Xenia Sausele leitet neues Channel-Geschäft

KI verändert Softwaresicherheit – aber Governance bleibt wichtig

Schreibe einen Kommentar Antwort abbrechen