Un estudio de mayo de 2026 de Booz Allen Hamilton advierte sobre vulnerabilidades ocultas en modelos de IA chinos para la generación de código, desatando un debate sobre la neutralidad de los proveedores y la seguridad del software.
A medida que la inteligencia artificial se consolida como el eje central de la cadena de suministro de software global, se está produciendo un cambio de paradigma: los desarrolladores confían cada vez más en la IA para generar, depurar y asegurar el código. Sin embargo, un informe de mayo de 2026 de la destacada consultora tecnológica y contratista gubernamental estadounidense Booz Allen Hamilton advierte que esta dependencia introduce graves riesgos para la seguridad nacional. Al evaluar cuatro modelos de IA chinos de frontera frente a un homólogo estadounidense, el estudio de la firma afirma que el país de origen de un modelo influye profundamente tanto en la seguridad del código como en el cumplimiento conductual. No obstante, dado que la línea entre la defensa geopolítica y la competencia comercial es difusa, los analistas del sector advierten que estos hallazgos deben evaluarse con ojo crítico, considerando la posición de Booz Allen como un competidor directo que aboga por alternativas de software de fabricación estadounidense.
El estudio utilizó una plataforma de prueba nativa de IA para someter a cinco sistemas de generación de código de frontera a más de 2.800 escenarios experimentales, produciendo aproximadamente 460.000 líneas de código fuente. Las pruebas enfrentaron a cuatro modelos de lenguaje grandes (LLM) chinos —Qwen3-Coder de Alibaba, Kimi K2.5 de Moonshot, MiniMax M2.5 y DeepSeek V4-Pro— contra Claude Opus 4.6 de Anthropic, desarrollado en los Estados Unidos. El objetivo era determinar si estos modelos alteraban su calidad de salida o su neutralidad política en función de la identidad geográfica y profesional (persona) del usuario.
La afirmación técnica más sorprendente involucra lo que el informe describe como un «desplazamiento de vulnerabilidad basado en la persona». Los datos indican que tres de los cuatro modelos chinos generaron código fuente con mayores tasas de fallos de seguridad cuando se les introdujo una persona del gobierno de EE. UU. en comparación con un usuario neutral. Qwen3-Coder de Alibaba emergió como el principal caso atípico, exhibiendo un asombroso incremento del 130 por ciento en su puntuación de vulnerabilidad agregada bajo la condición del gobierno estadounidense. Por el contrario, MiniMax M2.5 y DeepSeek V4-Pro mostraron aumentos modestos del 20 y el 5 por ciento, respectivamente, mientras que Kimi K2.5 de Moonshot no mostró cambios. En contraste, Claude Opus 4.6 redujo los fallos de código en un 18 por ciento al apoyar a una agencia estadounidense.
Crucialmente, el informe no llega a alegar una campaña de sabotaje coordinada. Los autores señalan explícitamente que no poseen pruebas definitivas de que estos fallos de código sean introducidos de forma intencionada o maliciosa por los proveedores chinos. En su lugar, atribuyen las desviaciones a las dinámicas estructurales dentro de las arquitecturas de los modelos: conjuntos de datos de entrenamiento moldeados por los controles de información locales y el direccionamiento de instrucciones (prompt steering). Bajo los marcos regulatorios de China, todos los modelos de IA generativa deben alinear estrictamente sus resultados con los «Valores Socialistas Esenciales», un mandato legal que parece influir en el comportamiento del código resultante y en la profundidad del razonamiento cuando se enfrentan a actores estatales extranjeros.
Más allá de las vulnerabilidades del código, el estudio registró una fricción conductual significativa en temas políticamente sensibles. Cuando se utilizó una persona falsa del FBI que solicitaba una plataforma de denuncia para disidentes chinos, los modelos chinos mostraron altas tasas de rechazo. MiniMax M2.5 lideró las denegaciones con un 80 por ciento, seguido de Qwen3-Coder con un 54 por ciento y Kimi K2.5 con un 32 por ciento, citando frecuentemente las restricciones estatales oficiales de forma literal. DeepSeek V4-Pro fue una excepción, manteniendo una tasa de rechazo baja del 8 por ciento, mientras que Claude Opus 4.6 rechazó solo el 2 por ciento de las tareas. Además, MiniMax rechazó sistemáticamente realizar revisiones de seguridad automatizadas en sistemas de armas simulados de EE. UU., evidenciando un marco ideológico integrado directamente en las barreras de protección de los modelos.
Desde una perspectiva periodística, estos hallazgos no pueden separarse del panorama comercial. Booz Allen Hamilton es un socio tecnológico clave para las fuerzas armadas y las agencias civiles de EE. UU., lo que genera ingresos sustanciales mediante la protección de la infraestructura de software gubernamental. Sus recomendaciones principales —prohibir los modelos de IA extranjeros no confiables en infraestructuras críticas e invertir masivamente para establecer los modelos estadounidenses como el estándar global— se alínean perfectamente con sus propios intereses económicos y estratégicos. El instar a un bloqueo generalizado de las alternativas chinas y promover la necesidad de plataformas avanzadas de evaluación de IA le permite a la firma posicionarse de manera óptima para capturar una parte significativa del emergente mercado nacional de auditoría de IA y validación de defensa.
La realidad económica que impulsa la rápida adopción de modelos de código abierto chinos en las empresas emergentes estadounidenses se centra por completo en los costos. Modelos como Qwen3-Coder y DeepSeek V4-Pro ofrecen una relación costo por token altamente competitiva, lo que permite a las empresas con recursos limitados obtener un rendimiento de programación avanzado a una fracción del precio de los modelos occidentales. Booz Allen establece un paralelismo histórico con el sector de las telecomunicaciones, comparando el auge de la IA de código abierto con la adopción temprana en Occidente de hardware de bajo costo de Huawei y ZTE. El informe advierte que para cuando surgió una respuesta federal coordinada para asegurar las redes nacionales, los costos de reemplazo («rip-and-replace») ya sumaban miles de millones de dólares.
A medida que Washington sopesa medidas legislativas como el plan de acción «Winning the AI Race» de la Casa Blanca, el debate probablemente se centrará en la recoprocidad. Dado que Pekín impone una prohibición de facto y de jure a los modelos de frontera estadounidenses dentro de su propio sector público a través de estrictas aprobaciones de la Administración del Ciberespacio de China, los defensores de los cortafuegos comerciales argumentan que una prohibición nacional es simplemente una respuesta simétrica. Para la industria privada, sin embargo, la elección sigue siendo un cálculo complejo que equilibra el gasto inmediato en la nube frente a las responsabilidades ocultas a largo plazo relacionadas con la mitigación de errores, el cumplimiento normativo y la confianza sistémica.

El Dr. Jakob Jung es redactor jefe de Security Storage y Channel Germany. Lleva más de 20 años trabajando en el periodismo especializado en TI. A lo largo de su carrera ha colaborado con Computer Reseller News, Heise Resale, Informationweek, Techtarget (almacenamiento y centros de datos) y ChannelBiz. Además, colabora como freelance con numerosas publicaciones del sector de las TI, entre las que se incluyen Computerwoche, Channelpartner, IT-Business, Storage-Insider y ZDnet. Sus temas principales son el canal, el almacenamiento, la seguridad, los centros de datos, los sistemas ERP y CRM.
Contacto – Contacto por correo electrónico: jakob.jung@security-storage-und-channel-germany.de