La startup china DeepSeek se encuentra en el centro de atención internacional tras el impacto generado por su modelo de razonamiento R1, y ahora se prepara para lanzar su sucesor, el modelo R2, antes de lo previsto. Según fuentes cercanas a la compañía, el lanzamiento originalmente programado para mayo podría adelantarse significativamente, aunque sin una fecha precisa confirmada.

El modelo R1 de DeepSeek desató una venta masiva en los mercados bursátiles globales, superando en rendimiento a varias propuestas de gigantes tecnológicos occidentales, a pesar de haber sido construido con chips Nvidia menos potentes. Esta eficiencia generó inquietud en la industria y en el gobierno estadounidense, que considera el liderazgo en inteligencia artificial como una prioridad nacional.

Con el modelo R2, DeepSeek espera mejorar sus capacidades de programación y ampliar el razonamiento en idiomas distintos al inglés.

Este desarrollo refuerza la posición de China en la carrera global por la innovación en IA, con el apoyo de empresas y autoridades locales que ya integran los modelos de DeepSeek en sus sistemas.

El modelo R2 promete una mayor eficiencia en la generación de código y un mejor rendimiento en tareas de razonamiento complejo.

Se espera que también incorpore mejoras en la arquitectura de redes neuronales y técnicas avanzadas de optimización, permitiéndole competir con modelos desarrollados con inversiones mayores.

DeepSeek inteligencia artificial IA
Modelo R1 de DeepSeek.

La visión detrás del éxito

El éxito de esta startup radica en la visión de su fundador, Liang Wenfeng, un multimillonario que alcanzó su fortuna a través del fondo de cobertura cuantitativo High-Flyer. Liang transformó a DeepSeek en un laboratorio de investigación más que en una empresa tradicional de tecnología.

El modelo de IA de bajo costo de DeepSeek es posible gracias a las inversiones de High-Flyer en investigación y capacidad de cómputo. En 2020 y 2021, el fondo adquirió dos clusters de supercomputación, incluyendo Fire-Flyer II, compuesto por unos 10 mil chips Nvidia A100. Esta infraestructura resultó crucial tras la prohibición estadounidense de exportar estos componentes a China en 2022.

Los clusters permiten realizar experimentos a gran escala, optimizando el entrenamiento de modelos mediante el uso de técnicas avanzadas como Mixture-of-Experts (MoE) y Multihead Latent Attention (MLA).

El MoE divide el modelo en diferentes áreas de especialización, activando solo las necesarias para cada consulta. El MLA, por su parte, procesa simultáneamente distintos aspectos de la información, mejorando la detección de detalles clave.

Desafíos y perspectivas futuras

El lanzamiento anticipado del modelo R2 podría marcar un punto de inflexión en la industria de IA, desafiando el dominio de las grandes compañías occidentales y acelerando la competencia global.

La combinación de innovación, eficiencia y respaldo estatal posiciona a DeepSeek como un actor clave en el futuro de la inteligencia artificial.

No obstante, la compañía enfrenta desafíos relacionados con el embargo de chips avanzados por parte de Estados Unidos, lo que podría afectar su capacidad para mantener el ritmo de innovación en el largo plazo. Liang Wenfeng reconoció esta situación, señalando que la principal limitación para DeepSeek no es la financiación, sino el acceso a hardware de última generación.

Tal vez te interese: ¿Es realmente la aparición de DeepSeek un “momento Sputnik”?

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí