DeepSeek V4: el modelo chino que vuelve a humillar a Silicon Valley en 2026

Q: ¿Qué hay de nuevo en DeepSeek V4?

671 mil millones de parámetros con arquitectura Mixture of Experts (MoE), pero solo activa 37B por token — la inferencia es barata. Ventana de contexto de 1M de tokens con costo lineal, no cuadrático. Razonamiento "DeepThink" nativo, sin necesidad de un modo aparte como o4 o Claude Extended Thinking. Multimodal: imagen, audio y vídeo de hasta 30 minutos de entrada. Open weights bajo licencia MIT modificada para uso comercial — descargable desde Hugging Face. DeepSeek V4 corre en cualquier laptop con 96GB de RAM unificada (Mac M-series) o GPU 80GB.

Q: Benchmarks: ¿realmente compite con los modelos top?

MMLU-Pro: 86.4% (GPT-5 87.1%, Claude Sonnet 4.5 87.8%) HumanEval+ (código): 92.3% — pasa a GPT-5 (91.0%) y queda detrás de Claude Sonnet 4.5 (94.1%) SWE-Bench Verified: 64.8% — top 3 del mercado en resolución real de bugs AIME 2025 (matemática): 89% con DeepThink activado — empate técnico con o4 y mejor que GPT-5 MMMU (multimodal): 78.2% — buen nivel pero por debajo de Gemini 3 Pro

Q: ¿Cuándo usar DeepSeek V4 y cuándo no?

Sí usarlo para: clasificación a gran escala, RAG sobre documentos largos, generación de boilerplate, resumen masivo, agentes con muchos pasos baratos. No (todavía) para: tareas de cumplimiento legal estricto en US/EU (datos cruzan a China en el endpoint oficial — se resuelve self-host), redacción creativa de marca, razonamiento ético complejo donde la alineación de Anthropic sigue siendo superior.

DeepSeek V4, lanzado esta semana por DeepSeek AI, vuelve a sacudir el mercado de los modelos de lenguaje. Con un coste de entrenamiento estimado de menos de $10 millones y rendimiento al nivel de GPT-5 y Claude Sonnet 4.5, la pregunta vuelve: ¿es sostenible la inversión de cientos de miles de millones que hacen OpenAI, Anthropic y Google?

¿Qué hay de nuevo en DeepSeek V4?

671 mil millones de parámetros con arquitectura Mixture of Experts (MoE), pero solo activa 37B por token — la inferencia es barata.
Ventana de contexto de 1M de tokens con costo lineal, no cuadrático.
Razonamiento «DeepThink» nativo, sin necesidad de un modo aparte como o4 o Claude Extended Thinking.
Multimodal: imagen, audio y vídeo de hasta 30 minutos de entrada.
Open weights bajo licencia MIT modificada para uso comercial — descargable desde Hugging Face.

Pantalla mostrando interfaz de modelo de inteligencia artificial DeepSeek V4 — DeepSeek V4 corre en cualquier laptop con 96GB de RAM unificada (Mac M-series) o GPU 80GB.

Benchmarks: ¿realmente compite con los modelos top?

MMLU-Pro: 86.4% (GPT-5 87.1%, Claude Sonnet 4.5 87.8%)
HumanEval+ (código): 92.3% — pasa a GPT-5 (91.0%) y queda detrás de Claude Sonnet 4.5 (94.1%)
SWE-Bench Verified: 64.8% — top 3 del mercado en resolución real de bugs
AIME 2025 (matemática): 89% con DeepThink activado — empate técnico con o4 y mejor que GPT-5
MMMU (multimodal): 78.2% — buen nivel pero por debajo de Gemini 3 Pro

El costo: la verdadera bomba

El precio del API rompe el mercado:

Input: $0.14 por millón de tokens (vs $3 de GPT-5, $3 de Claude Sonnet 4.5)
Output: $0.28 por millón de tokens (vs $15 de GPT-5, $15 de Claude Sonnet 4.5)
Cache hit: $0.014 por millón — hasta 95% más barato

Eso es 50 veces más barato que Claude Sonnet 4.5 para tareas de output intenso. Para una startup que procesa millones de tokens al día, la diferencia es entre $30.000/mes y $600/mes.

¿Cuándo usar DeepSeek V4 y cuándo no?

Sí usarlo para: clasificación a gran escala, RAG sobre documentos largos, generación de boilerplate, resumen masivo, agentes con muchos pasos baratos.

No (todavía) para: tareas de cumplimiento legal estricto en US/EU (datos cruzan a China en el endpoint oficial — se resuelve self-host), redacción creativa de marca, razonamiento ético complejo donde la alineación de Anthropic sigue siendo superior.

El golpe geopolítico

DeepSeek V4 lo entrenan con chips H800 de Nvidia (versión limitada para China por restricciones US) y refinan con datos sintéticos generados por modelos previos. La eficiencia algorítmica les permite competir sin acceso a los mejores chips. Esa lección — que el «moat» de los chips no es eterno — pone presión sobre la valoración de NVIDIA y refuerza la tesis de que el cuello de botella futuro será datos y datos sintéticos, no compute.

Si el código y los pesos abiertos siguen así de competitivos, el modelo de negocio «te cobro $20/mes por chatear» empieza a verse frágil. La diferenciación se va a mover a producto, integración, agentes confiables y compliance — no al modelo per se.