DeepSeek V4, lanzado esta semana por DeepSeek AI, vuelve a sacudir el mercado de los modelos de lenguaje. Con un coste de entrenamiento estimado de menos de $10 millones y rendimiento al nivel de GPT-5 y Claude Sonnet 4.5, la pregunta vuelve: ¿es sostenible la inversión de cientos de miles de millones que hacen OpenAI, Anthropic y Google?
¿Qué hay de nuevo en DeepSeek V4?
- 671 mil millones de parámetros con arquitectura Mixture of Experts (MoE), pero solo activa 37B por token — la inferencia es barata.
- Ventana de contexto de 1M de tokens con costo lineal, no cuadrático.
- Razonamiento «DeepThink» nativo, sin necesidad de un modo aparte como o4 o Claude Extended Thinking.
- Multimodal: imagen, audio y vídeo de hasta 30 minutos de entrada.
- Open weights bajo licencia MIT modificada para uso comercial — descargable desde Hugging Face.

Benchmarks: ¿realmente compite con los modelos top?
- MMLU-Pro: 86.4% (GPT-5 87.1%, Claude Sonnet 4.5 87.8%)
- HumanEval+ (código): 92.3% — pasa a GPT-5 (91.0%) y queda detrás de Claude Sonnet 4.5 (94.1%)
- SWE-Bench Verified: 64.8% — top 3 del mercado en resolución real de bugs
- AIME 2025 (matemática): 89% con DeepThink activado — empate técnico con o4 y mejor que GPT-5
- MMMU (multimodal): 78.2% — buen nivel pero por debajo de Gemini 3 Pro
El costo: la verdadera bomba
El precio del API rompe el mercado:
- Input: $0.14 por millón de tokens (vs $3 de GPT-5, $3 de Claude Sonnet 4.5)
- Output: $0.28 por millón de tokens (vs $15 de GPT-5, $15 de Claude Sonnet 4.5)
- Cache hit: $0.014 por millón — hasta 95% más barato
Eso es 50 veces más barato que Claude Sonnet 4.5 para tareas de output intenso. Para una startup que procesa millones de tokens al día, la diferencia es entre $30.000/mes y $600/mes.
¿Cuándo usar DeepSeek V4 y cuándo no?
Sí usarlo para: clasificación a gran escala, RAG sobre documentos largos, generación de boilerplate, resumen masivo, agentes con muchos pasos baratos.
No (todavía) para: tareas de cumplimiento legal estricto en US/EU (datos cruzan a China en el endpoint oficial — se resuelve self-host), redacción creativa de marca, razonamiento ético complejo donde la alineación de Anthropic sigue siendo superior.
El golpe geopolítico
DeepSeek V4 lo entrenan con chips H800 de Nvidia (versión limitada para China por restricciones US) y refinan con datos sintéticos generados por modelos previos. La eficiencia algorítmica les permite competir sin acceso a los mejores chips. Esa lección — que el «moat» de los chips no es eterno — pone presión sobre la valoración de NVIDIA y refuerza la tesis de que el cuello de botella futuro será datos y datos sintéticos, no compute.
Si el código y los pesos abiertos siguen así de competitivos, el modelo de negocio «te cobro $20/mes por chatear» empieza a verse frágil. La diferenciación se va a mover a producto, integración, agentes confiables y compliance — no al modelo per se.
