Google sorprendió este fin de semana con el lanzamiento de Gemini 3 Ultra, presionando fuerte a OpenAI y Anthropic justo antes del Google I/O 2026. Tres cosas llaman la atención: 5 millones de tokens de contexto, multimodalidad real-time (no streaming, no batches) y un precio agresivo en API.
Lo nuevo en Gemini 3 Ultra

- Contexto de 5M tokens — el más grande del mercado (vs 1M de Claude 4.7 y GPT-6). Cabe un libro entero, una codebase mediana o 2 horas de vídeo procesados de una sola vez.
- Multimodal real-time — input simultáneo de texto + audio + vídeo + imagen con respuestas en menos de 800ms.
- Reasoning mode «Deep» — equivalente al razonamiento extendido de Claude/o4, con visualización del pensamiento step-by-step.
- Native function calling paralelo — ejecuta hasta 12 herramientas simultáneamente.
- Integración nativa con Google Workspace — Gmail, Docs, Sheets, Calendar accesibles sin OAuth manual para usuarios de Workspace.
Benchmarks: el panorama actual de mayo 2026
- MMLU-Pro: Gemini 3 Ultra 92.4% · Claude 4.7 Opus 91.2% · GPT-6 91.0%
- HumanEval+ (código): Claude 4.7 95.8% · Gemini 3 Ultra 93.2% · GPT-6 92.4%
- MMMU (multimodal): Gemini 3 Ultra 87.6% · GPT-6 84.1% · Claude 4.7 Opus 82.3%
- Video-MME (vídeo largo): Gemini 3 Ultra 79.8% · líder claro
- NeedleInHaystack 5M: solo Gemini lo soporta (98.4% recall)
Precios competitivos
- Gemini 3 Ultra: $2.50 input / $10 output por millón de tokens
- Gemini 3 Pro: $0.75 / $3 (vs Claude Sonnet $1.95/$9.75)
- Gemini 3 Flash: $0.075 / $0.30 — el más barato del mercado para modelos top-tier
- Cache: hasta 80% de descuento
El gambito del contexto masivo
5M tokens permiten algo que ningún competidor puede igualar hoy: análisis de codebases enterprise enteras, libros completos con su bibliografía, o vídeos de 2 horas con transcripción + análisis frame-by-frame en una sola petición. Para casos como auditoría legal de contratos largos o reverse-engineering de software, esto cambia el cálculo.
El truco está en si el modelo realmente usa ese contexto bien. NeedleInHaystack 5M pasa con 98.4%, pero los benchmarks de razonamiento sobre contextos largos siguen mostrando degradación después de 1M tokens. Útil saberlo antes de meter Moby Dick entero.
¿Quién gana en mayo 2026?
- Código y software: Claude 4.7 Opus sigue líder.
- Multimodal y vídeo: Gemini 3 Ultra sin competencia.
- Ecosistema Google Workspace: Gemini 3 Pro imbatible.
- Razonamiento profundo + creatividad: empate Claude 4.7 / GPT-6.
- Coste-efectividad volumen alto: Gemini 3 Flash y DeepSeek V4.
- Privacidad / on-premise: DeepSeek V4 open weights.
El mercado ya no tiene un solo «ganador». Cada modelo está optimizando para un nicho y el smart play en 2026 es multi-modelo: usar Claude para código, Gemini para multimodal, DeepSeek para volumen, OpenAI para integraciones empresariales. Las orquestadores (LangChain, LlamaIndex, LiteLLM) están viviendo su mejor momento.
