Eine Studie von Booz Allen Hamilton aus dem Mai 2026 warnt vor versteckten Schwachstellen in chinesischen KI-Modellen zur Codegenerierung.

Da künstliche Intelligenz zunehmend das Rückgrat der globalen Software-Lieferkette bildet, vollzieht sich ein Paradigmenwechsel: Entwickler verlassen sich verstärkt auf KI, um Code zu generieren, zu debuggen und abzusichern. Ein im Mai 2026 veröffentlichter Bericht des prominenten US-Technologieberaters und Regierungsdienstleisters Booz Allen Hamilton warnt jedoch vor erheblichen nationalen Sicherheitsrisiken durch diese Abhängigkeit. Durch die vergleichende Evaluierung von vier führenden chinesischen KI-Modellen mit einem amerikanischen Gegenstück behauptet die Studie, dass das Herkunftsland eines Modells sowohl die Codesicherheit als auch das Verhaltens-Compliance tiefgreifend beeinflusst. Da jedoch die Grenze zwischen geopolitischer Verteidigung und kommerziellem Wettbewerb verschwimmt, mahnen Branchenanalysten zur kritischen Betrachtung der Ergebnisse – insbesondere vor dem Hintergrund, dass Booz Allen als direkter Wettbewerber für amerikanische Softwarealternativen eintritt.

Die Studie nutzte eine KI-native Testplattform, um fünf hochentwickelte Codegenerierungssysteme in mehr als 2.800 Szenarien zu prüfen, wobei rund 460.000 Zeilen Quellcode entstanden. Getestet wurden vier chinesische Large Language Models (LLMs) – Alibabas Qwen3-Coder, Moonshots Kimi K2.5, MiniMax M2.5 und DeepSeek V4-Pro – gegen Anthropics Claude Opus 4.6 aus den USA. Ziel der Forscher war es zu ermitteln, ob diese Modelle ihre Ausgabequalität oder politische Neutralität an die geografische und professionelle Persona des Nutzers anpassen.

Die bemerkenswerteste technische Behauptung betrifft eine vom Bericht als „persona-gesteuerte Schwachstellenverschiebung“ bezeichnete Dynamik. Die Daten zeigen, dass drei der vier chinesischen Modelle Quellcode mit höheren Raten an Sicherheitsmängeln erzeugten, wenn sie mit einer Persona der US-Regierung statt eines neutralen Nutzers abgefragt wurden. Alibabas Qwen3-Coder erwies sich als Hauptausreißer und verzeichnete unter der US-Regierungsbedingung einen Anstieg des aggregierten Schwachstellenwerts um 130 Prozent. Umgekehrt zeigten MiniMax M2.5 und DeepSeek V4-Pro moderate Anstiege von 20 bzw. 5 Prozent, während Moonshots Kimi K2.5 keine Veränderung aufwies. Im Gegensatz dazu reduzierte Claude Opus 4.6 die Codefehler um 18 Prozent, wenn es für eine US-Behörde programmierte.

Entscheidend ist, dass der Bericht keine koordinierte Sabotagekampagne unterstellt. Die Autoren betonen explizit, dass keine definitiven Beweise dafür vorliegen, dass diese Code-Schwachstellen von den chinesischen Herstellern absichtlich oder böswillig implementiert wurden. Stattdessen führen sie die Abweichungen auf strukturelle Dynamiken innerhalb der Modellarchitekturen zurück: Trainingsdatensätze, die durch lokale Informationskontrollen geprägt sind, sowie Prompt-Steuerung. Unter den regulatorischen Rahmenbedingungen Chinas müssen alle generativen KI-Modelle ihre Ergebnisse strikt an den „sozialistischen Grundwerten“ ausrichten – ein gesetzliches Mandat, das das nachgelagerte Codeverhalten und die Argumentationstiefe gegenüber ausländischen Staatsakteuren sichtlich beeinflusst.

Neben den Schwachstellen im Code dokumentierte die Studie erhebliche Verhaltenskonflikte bei politisch sensiblen Themen. Auf die Anfrage einer gefälschten FBI-Persona, eine Whistleblower-Plattform für chinesische Dissidenten zu programmieren, zeigten die chinesischen Modelle hohe Verweigerungsraten. MiniMax M2.5 führte die Ablehnungen mit 80 Prozent an, gefolgt von Qwen3-Coder mit 54 Prozent und Kimi K2.5 mit 32 Prozent, wobei staatliche Restriktionen oft wortwörtlich zitiert wurden. DeepSeek V4-Pro bildete mit einer niedrigen Verweigerungsrate von 8 Prozent eine Ausnahme, während Claude Opus 4.6 nur 2 Prozent der Aufgaben ablehnte. Zudem verweigerte MiniMax konsequent automatisierte Sicherheitsüberprüfungen für simulierte US-Waffensysteme, was die ideologische Verankerung direkt in den Schutzleitplanken der Modelle verdeutlicht.

Aus journalistischer Sicht lassen sich diese Erkenntnisse nicht von der kommerziellen Landschaft trennen. Booz Allen Hamilton ist ein primärer Technologiepartner des US-Militärs und ziviler Behörden und erzielt erhebliche Umsätze mit der Absicherung staatlicher Software-Infrastrukturen. Die Kernempfehlungen des Berichts – ein Nutzungsverbot nicht vertrauenswürdiges ausländischer KI-Modelle in kritischen Infrastrukturen und massive Investitionen, um US-Modelle zum globalen Standard zu machen – decken sich exakt mit den wirtschaftlichen und strategischen Eigeninteressen des Unternehmens. Indem Booz Allen ein pauschales Blockieren chinesischer Alternativen fordert und die Notwendigkeit fortschrittlicher KI-Evaluierungsplattformen betont, positioniert sich das Unternehmen strategisch, um erhebliche Marktanteile im aufstrebenden Markt für KI-Auditing und Verteidigungsvalidierung zu gewinnen.

Die wirtschaftliche Realität, die die schnelle Verbreitung chinesischer Open-Source-Modelle bei amerikanischen Start-ups antreibt, basiert vollständig auf den Kosten. Modelle wie Qwen3-Coder und DeepSeek V4-Pro bieten ein hochkompetitives Preis-Leistungs-Verhältnis pro Token, wodurch finanzschwächere Unternehmen fortschrittliche Codierungsleistungen zu einem Bruchteil des Preises westlicher Modelle erhalten. Booz Allen zieht hierbei eine scharfe historische Parallele zum Telekommunikationssektor und vergleicht den aktuellen Open-Source-KI-Boom mit der frühen westlichen Einführung kostengünstiger Hardware von Huawei und ZTE. Der Bericht erinnert daran, dass die Kosten für den Austausch („Rip-and-Replace“) der betroffenen Netze bis heute Milliarden verschlingen.

Während Washington über legislative Schritte wie den Aktionsplan „Winning the AI Race“ berät, dürfte sich die Debatte um Reziprozität drehen. Da Peking amerikanische Pionier-Modelle im eigenen öffentlichen Sektor durch strenge Genehmigungsverfahren der Cyberspace-Administration Chinas de facto und de jure verbietet, argumentieren Befürworter westlicher Schutzwälle, dass ein heimisches Verbot lediglich eine symmetrische Antwort darstellt. Für die Privatwirtschaft bleibt die Entscheidung jedoch eine komplexe Abwägung zwischen kurzfristigen Cloud-Einsparungen und den langfristigen, verborgenen Unternehmensrisiken bezüglich Nachbesserung, Compliance und systemischem Vertrauen.

Von Jakob Jung

Dr. Jakob Jung ist Chefredakteur Security Storage und Channel Germany. Er ist seit mehr als 20 Jahren im IT-Journalismus tätig. Zu seinen beruflichen Stationen gehören Computer Reseller News, Heise Resale, Informationweek, Techtarget (Storage und Datacenter) sowie ChannelBiz. Darüber hinaus ist er für zahlreiche IT-Publikationen freiberuflich tätig, darunter Computerwoche, Channelpartner, IT-Business, Storage-Insider und ZDnet. Seine Themenschwerpunkte sind Channel, Storage, Security, Datacenter, ERP und CRM. Kontakt – Contact via Mail: jakob.jung@security-storage-und-channel-germany.de

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

WordPress Cookie Hinweis von Real Cookie Banner