Cuando la IA se convierte en el objetivo: cómo los atacantes manipulan los modelos de seguridad con instrucciones ocultas en el código

Un equipo de investigación de amenazas de Cloudflare ha documentado cómo los atacantes insertan instrucciones engañosas dentro de código malicioso para engañar a los sistemas de seguridad basados en IA y hacer que aprueben scripts dañinos. Los hallazgos revelan que incluso los modelos de IA de frontera presentan vulnerabilidades medibles, especialmente cuando la lógica maliciosa está oculta dentro de grandes paquetes de bibliotecas legítimas.

Cuando el equipo de inteligencia de amenazas de Cloudflare revisó un script sospechoso en marzo de 2026, no encontró un virus nuevo ni un exploit sofisticado. Lo que hallaron fue lenguaje: miles de líneas de texto, escritas en varios idiomas, dirigidas no a lectores humanos sino a los sistemas de IA responsables de identificar código malicioso. El descubrimiento marcó un punto de inflexión: los sistemas de seguridad automatizados se habían convertido en objetivos de manipulación.

La técnica se denomina inyección indirecta de prompts (IDPI). Consiste en incrustar instrucciones ocultas dentro de datos — como código fuente — que los modelos de IA procesan posteriormente. El objetivo es engañar al modelo para que clasifique scripts dañinos como inofensivos. Cloudforce One, el equipo de operaciones de amenazas de Cloudflare, puso en marcha un programa de investigación estructurado para determinar la efectividad real de esta forma de ataque.

Un experimento controlado a escala

El equipo de investigación diseñó un experimento en dos fases. La primera fase analizó si los señuelos llamados «Notice to AI» — bloques de texto comentado que afirman que el código es seguro e inocuo — podían engañar a los modelos de IA cuando se colocaban al inicio de scripts maliciosos. Los resultados fueron mixtos: para la mayoría de los modelos, las afirmaciones de seguridad excesivas actuaron más como señal de alerta que como mecanismo de evasión.

La segunda fase abordó tres carencias críticas: realismo, alcance y volumen. Los comentarios se distribuyeron aleatoriamente a lo largo de los scripts en lugar de concentrarse en un único bloque. El experimento se amplió a 18.400 llamadas a la API sobre 100 scripts de Cloudflare Workers confirmados como maliciosos. Se probaron siete modelos de IA, desde sistemas non-frontier optimizados en costes hasta modelos frontier de alta capacidad. Los idiomas evaluados fueron inglés, estonio, árabe, chino y ruso.

El corpus abarcó cuatro categorías de comportamiento malicioso: phishing (52 %), abuso de proxy y tunelización (35 %), alojamiento de archivos (7 %) y abuso de streaming (6 %). Cada script fue evaluado en 23 variantes con volúmenes de comentarios que oscilaban entre uno y mil entradas.

Tres hallazgos principales

La curva en U del engaño

Las tasas de detección no disminuyeron de forma lineal al aumentar el volumen de comentarios. En cambio, siguieron una curva en forma de U. Volúmenes moderados de comentarios — alrededor de 20 — lograron engañar con éxito a los modelos non-frontier. El modelo menos robusto del estudio vio caer su tasa de detección del 90 % al 67 % con apenas 20 comentarios insertados. Sin embargo, con volúmenes extremos de mil o más comentarios, la mayoría de los modelos comenzaron a interpretar el volumen de afirmaciones de seguridad como una señal de sospecha en sí misma, y las tasas de detección se recuperaron o incluso mejoraron.

Un modelo non-frontier alcanzó una tasa de detección del 91 % con el volumen máximo de comentarios, habiendo aprendido a tratar los avisos de seguridad repetitivos como una huella de fraude. Los modelos frontier demostraron ser más resistentes al engaño de bajo volumen, aunque ninguno resultó completamente inmune.

La zona de bypass del 1 %

La investigación identificó un umbral preciso en el que los comentarios engañosos resultan más efectivos: cuando representan menos del 1 % del contenido total del archivo. Con esta proporción, los comentarios se integran en el código sin levantar sospechas. En todos los modelos evaluados, la tasa de detección promedio cayó del 67,3 % de referencia al 53,3 % cuando los comentarios ocupaban menos del 1 % del archivo.

A partir de una densidad de comentarios del 25 %, la dinámica se invirtió por completo. En ese umbral, los modelos interpretaron la concentración de afirmaciones de seguridad como un intento deliberado de manipulación, elevando las tasas de detección a casi el 99 %. Los datos demuestran que la sutileza, no el volumen, es la herramienta más eficaz del atacante.

El volumen como camuflaje definitivo

El hallazgo más relevante tiene poco que ver con el idioma o la densidad de comentarios. Los archivos de más de 3 megabytes — normalmente paquetes de bibliotecas de terceros como React o el SDK de TON — produjeron tasas de detección de apenas el 12 al 18 % en todos los modelos. La lógica maliciosa oculta entre miles de líneas de código de frameworks legítimos agotó de manera efectiva la atención de los modelos, independientemente de si el archivo superaba la ventana de contexto o simplemente saturaba la capacidad de enfoque del modelo dentro de ella.

Por el contrario, los archivos de menos de 500 kilobytes se detectaron con tasas cercanas al 100 %. La implicación es directa: un atacante no necesita convencer a una IA de que su código es seguro. Solo necesita hacer que la señal maliciosa sea demasiado pequeña para ser encontrada.

Sesgos lingüísticos y estereotipos de los modelos

El experimento también reveló que el idioma en sí condiciona el comportamiento de los modelos. Los scripts con comentarios en idiomas distintos al inglés activaron sesgos específicos de cada modelo. Los comentarios en ruso llevaron a un modelo non-frontier a marcar el ruso como indicador de ingeniería social, elevando la tasa de detección en 14 puntos porcentuales. Los modelos frontier mostraron mayor suspicacia ante scripts en chino y árabe. Los comentarios en estonio, por el contrario, redujeron la suspicacia en varios modelos, lo que sugiere una jerarquía de confianza implícita basada en la familiaridad con el idioma o la distribución de los datos de entrenamiento.

Estos hallazgos indican que los modelos de IA han desarrollado asociaciones internas entre el idioma de los comentarios y el riesgo percibido — una forma de estereotipación estadística que los atacantes pueden explotar o evitar según su objetivo.

Colapso de formato: un problema de parálisis

Con volúmenes extremos de comentarios, algunos modelos frontier no solo clasificaron los scripts de forma incorrecta: dejaron de producir respuestas utilizables. En lugar de emitir un veredicto binario — malicioso o benigno — devolvieron texto incoherente o se negaron a responder en el formato requerido. En pipelines de seguridad automatizados que dependen de respuestas estructuradas para activar acciones de protección, esto constituye una forma de parálisis funcional. Un atacante que pueda inducir este estado neutraliza el sistema de detección sin necesidad de engañarlo.

Medidas defensivas

Cloudforce One esbozó una serie de contramedidas prácticas. Eliminar los comentarios del código antes del análisis con IA suprime el principal vector de inyección con un coste mínimo. Al procesar archivos grandes, los analizadores deben priorizar los bloques de código funcional frente al boilerplate o las importaciones de bibliotecas. Los nombres de variables deben anonimizarse para evitar que los modelos se vean influidos por identificadores descriptivos o tranquilizadores. Los prompts deben orientarse a tipos de ataque específicos en lugar de plantear preguntas generales sobre la intención del código.

El equipo también recomendó implementar una capa de validación semántica que contraste las afirmaciones de seguridad en lenguaje natural con el comportamiento programático real, para garantizar que la documentación legítima no genere falsos positivos mientras los intentos de engaño genuinos sean detectados.

Conclusión

Los hallazgos de Cloudforce One reencuadran la amenaza que representa la inyección indirecta de prompts. El engaño lingüístico por sí solo se convierte cada vez más en una huella de detección antes que en un ataque exitoso para los modelos frontier bien entrenados. El peligro real reside en la manipulación estructural: en la dilución deliberada de señales maliciosas dentro de código legítimo a gran escala.

A medida que los sistemas de IA asumen mayor responsabilidad en la infraestructura de seguridad, la arquitectura de estos sistemas debe evolucionar en consecuencia. Un único modelo de IA revisando código bruto y sin procesar ya no es suficiente. La investigación apunta hacia un enfoque de pipeline por capas: eliminar el ruido, aislar las señales y desplegar la IA como un componente dentro de una arquitectura de seguridad más amplia y reforzada.

Jakob Jung

El Dr. Jakob Jung es redactor jefe de Security Storage y Channel Germany. Lleva más de 20 años trabajando en el periodismo especializado en TI. A lo largo de su carrera ha colaborado con Computer Reseller News, Heise Resale, Informationweek, Techtarget (almacenamiento y centros de datos) y ChannelBiz. Además, colabora como freelance con numerosas publicaciones del sector de las TI, entre las que se incluyen Computerwoche, Channelpartner, IT-Business, Storage-Insider y ZDnet. Sus temas principales son el canal, el almacenamiento, la seguridad, los centros de datos, los sistemas ERP y CRM.

Contacto – Contacto por correo electrónico: jakob.jung@security-storage-und-channel-germany.de

Cuando la IA se convierte en el objetivo: cómo los atacantes manipulan los modelos de seguridad con instrucciones ocultas en el código

PorJakob Jung

Un experimento controlado a escala

Tres hallazgos principales

Sesgos lingüísticos y estereotipos de los modelos

Colapso de formato: un problema de parálisis

Medidas defensivas

Conclusión

Por Jakob Jung

Entrada relacionada

Hoja de ruta estratégica para construir servicios gestionados de identidad resilientes

Argos Security amplía su ecosistema de socios – Xenia Sausele lidera el nuevo negocio de canal

Los siete pecados capitales de la ciberseguridad: por qué la mayoría de las pymes no necesitan un hacker sofisticado para ser vulneradas

Deja una respuesta Cancelar la respuesta