DeepSeek lanza su modelo de 1.6 billones de parámetros, utilizando atención dispersa y memoria Engram para desafiar la economía de la IA.

El lanzamiento de DeepSeek-V4-Pro representa un movimiento calculado hacia la eficiencia a gran escala. Al integrar 1.6 billones de parámetros en una estructura de Mixture-of-Experts (MoE), el modelo aborda los desafíos del razonamiento de alta capacidad y los costos computacionales.

La arquitectura es el punto central del desarrollo de DeepSeek-V4-Pro. A diferencia de iteraciones anteriores, V4-Pro introduce «Manifold-Constrained Hyper-Connections» (mHC). Esta técnica estabiliza el entrenamiento de sistemas de billones de parámetros al restringir el flujo de gradientes, evitando la inestabilidad común en configuraciones masivas de MoE.

La gestión de memoria es igualmente innovadora. Mediante la «Engram Conditional Memory», DeepSeek separa la recuperación de información estática del razonamiento dinámico. Esto permite al sistema descargar parámetros en la memoria DRAM, logrando una precisión del 97% en pruebas de contexto largo. Esta eficiencia es vital para la ventana de contexto de 1 millón de tokens, permitiendo procesar repositorios de código completos sin los costos de latencia tradicionales.

Optimizado para dispositivos como el Huawei Ascend 950 y los sistemas NVIDIA, V4-Pro está diseñado para tareas «basadas en agentes»: programación autónoma, planificación en múltiples pasos y refactorización entre archivos. Al equilibrar el «límite máximo» del rendimiento del software de código abierto con una excelente relación calidad-precio, DeepSeek-V4-Pro establece un nuevo estándar en inteligencia artificial de alta gama accesible.

Al integrar un total de 1,6 billones de parámetros en un marco de «mezcla de expertos» (MoE) —aunque solo se activan 49 000 millones por token—, el modelo V4-Pro ofrece un modelo a seguir para alcanzar una capacidad enorme al tiempo que se gestiona la sobrecarga computacional.

La estrategia de dos modelos: Pro y Flash

La serie V4 sigue una estrategia de doble modelo para satisfacer diferentes necesidades, una práctica habitual en el sector para maximizar el alcance en el mercado: DeepSeek-V4-Pro (Buque insignia, capacidad máxima) y DeepSeek-V4-Flash ( Ligero, velocidad y rentabilidad).

Los «parámetros activados» son la clave de esta eficiencia. A diferencia de un modelo denso, que utiliza todos sus parámetros para cada cálculo, un modelo MoE enruta dinámicamente un token solo a un subconjunto de sus subredes «expertas». Esta activación selectiva permite a DeepSeek-V4-Pro poseer el conocimiento de un modelo masivo con el coste computacional de uno mucho más pequeño.

Redefiniendo la economía del contexto largo

La característica más destacada de DeepSeek-V4-Pro es su ventana de contexto de 1 millón de tokens, lo que supone un aumento de casi 10 veces con respecto a los 128 000 de su predecesor. Más importante que la capacidad en sí misma es la eficiencia con la que se consigue. El modelo aborda la complejidad cuadrática de la atención estándar, donde el procesamiento de secuencias más largas resulta prohibitivamente costoso.

Con 49 mil millones de parámetros activos, el modelo asegura que los costos financieros por token sigan siendo competitivos. Optimizado para tareas de agentes autónomos y programación compleja, DeepSeek-V4-Pro establece un nuevo estándar para la inteligencia artificial de código abierto de alto nivel.

By Jakob Jung

El Dr. Jakob Jung es redactor jefe de Security Storage y Channel Germany. Lleva más de 20 años trabajando en el periodismo especializado en TI. A lo largo de su carrera ha colaborado con Computer Reseller News, Heise Resale, Informationweek, Techtarget (almacenamiento y centros de datos) y ChannelBiz. Además, colabora como freelance con numerosas publicaciones del sector de las TI, entre las que se incluyen Computerwoche, Channelpartner, IT-Business, Storage-Insider y ZDnet. Sus temas principales son el canal, el almacenamiento, la seguridad, los centros de datos, los sistemas ERP y CRM. Contacto – Contacto por correo electrónico: jakob.jung@security-storage-und-channel-germany.de

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Aviso sobre Cookies en WordPress por Real Cookie Banner