La serie «o» de OpenAI — modelos especializados en razonamiento — ha dado un salto espectacular con o3 y o4-mini. Estos modelos no buscan ser los más rápidos ni los más baratos: buscan ser los más correctos, incluso si eso significa «pensar» durante varios segundos o minutos.
¿Qué son los modelos «o»?
A diferencia de GPT-4o (optimizado para velocidad y versatilidad), los modelos «o» de OpenAI usan razonamiento encadenado interno (chain-of-thought): antes de dar una respuesta, el modelo genera una cadena de pensamiento interna que puede tener miles de tokens. El resultado visible es solo la conclusión final.
o3: Para problemas de máxima dificultad
- 🏆 87.7% en GPQA Diamond — supera el nivel de expertos humanos
- 🥇 96.7% en AIME 2024 — prácticamente perfecto en olimpiadas de matemáticas
- 💻 71.7% en SWE-bench — resuelve bugs reales de repositorios GitHub
- 🔬 87.5% en MLE-bench — compite en Machine Learning con ingenieros senior
o4-mini: Razonamiento accesible
o4-mini ofrece el 85-90% de las capacidades de o3 a una fracción del coste. Ideal para aplicaciones empresariales que necesitan razonamiento sólido sin pagar el precio premium de o3.
Límites del razonamiento extendido
El modelo puede pasar decenas de segundos «pensando» en un problema complejo. Para preguntas simples, esto es innecesario — y caro. La clave es saber cuándo usar o3 y cuándo bastar con GPT-4o.
