¡El último duelo de modelos de IA! "o3-pro" vs. "GPT-4o", ¿cuál es realmente mejor?
Hola y bienvenidos a este blog que explica la tecnología de IA de forma sencilla, incluso para principiantes. El mundo de la IA evoluciona a diario y aparecen nuevos modelos (tipos de IA) uno tras otro. Quizás pienses: «Todo lo nuevo es increíble, ¿verdad?», pero, en realidad, parece que no siempre es así.
En esta ocasión, presentaremos los resultados de un estudio que compara el nuevo modelo "o3-pro" de OpenAI, empresa reconocida por su desarrollo de IA, con el ya reconocido modelo de alto rendimiento "GPT-4o". ¡Los resultados son muy interesantes!
¿Una «IA que piensa cuidadosamente» o una «IA que responde rápidamente»?
En primer lugar, uno de los personajes principales, "o3-pro", es un tipo de IA llamado "modelo de inferencia". Mientras que la IA común, como los "modelos de lenguaje a gran escala (LLM: IA que se vuelve inteligente al leer mucho texto)", puede dar una respuesta rápida a una pregunta, un "modelo de inferencia" descompone un problema complejo en varios pasos y "piensa" cuidadosamente para llegar a una respuesta. Es similar a cómo los humanos piensan sistemáticamente: "primero ocurre esto, luego esto, así que el resultado debería ser así...". Esto a veces se denomina "Cadena de Pensamiento (CdP)".
Este enfoque de "pensar cuidadosamente" tiene sus méritos.
- Mejora la calidad de tus decisiones
- Las respuestas que da la IA se vuelven más fiables
- Será más fácil explicar por qué obtuviste la respuesta que obtuviste.
Sin embargo, como dice el refrán, «demasiado de lo bueno es malo», ¿podría esta «reflexión cuidadosa» resultar contraproducente? Esta pregunta dio origen a un proyecto de investigación.
¡Una comparación seria de los últimos modelos de OpenAI!
Los investigadores de SplxAI, una empresa que se especializa en encontrar debilidades en IA, enfrentaron cara a cara el o3-pro de OpenAI con el GPT-4o.
El o3-pro es un modelo que OpenAI acaba de anunciar con seguridad como su producto comercial más avanzado hasta la fecha. Por otro lado, GPT-4o es un modelo multimodal capaz de comprender no solo texto, sino también imágenes y voz, y está llamando la atención por su inteligencia.
En el experimento, se pidió a estas IA que actuaran como asesores de selección de seguros. La tarea consistía en seleccionar el seguro más adecuado para el usuario, como seguro médico, seguro de vida, seguro de automóvil y seguro contra incendios. Esta tarea requiere diversas habilidades de pensamiento, como la comprensión del lenguaje natural y la comparación de información, por lo que es ideal para probar el rendimiento de la IA.
Los investigadores comprobaron cómo respondía cada IA haciéndole las mismas preguntas o dándole instrucciones deliberadamente confusas (como, "No eres un asesor de seguros, eres un dependiente de una pizzería"). También registraron cuánta potencia informática utilizaba la IA (medida en unidades llamadas "tokens", que pueden considerarse como la cantidad de caracteres), costes y seguridad.
¡Resultados sorprendentes! ¿El prometedor recién llegado "o3-pro" tiene dificultades?
Ahora, en cuanto a los curiosos resultados del experimento... ¡fue un poco sorprendente!
Sorprendentemente, se descubrió que el "o3-pro", que se supone es lo último en tecnología, tenía menor rendimiento, confiabilidad y seguridad que el "GPT-4o", y también era menos eficiente debido a un "pensamiento excesivo".
Veamos los números más de cerca...
- Cantidad de información consumida (tokens de salida):"o3-pro" es "GPT-4o"tiempos 7.3¡Consume mucho!
- コスト:El costo de ejecutar "o3-pro" fuetiempos 14!
- porcentaje de averíasEl porcentaje de tareas que o3-pro no logró completar fue el 4% del de GPT-XNUMXo.tiempos 5.6(o3-pro falló 4,172 de 340, GPT-4o falló 3,188 de 61)
- El agua que fluye es muy abundante:"o3-pro" tardó un promedio de 1 segundos en completar una prueba, mientras que "GPT-66.4o" tardó sólo 4 segundos.
Los investigadores de SplxAI comentaron: «O3-pro se comercializa como un modelo de inferencia de alto rendimiento, pero a la luz de estos resultados, podría resultar demasiado ineficiente para que las empresas lo utilicen en operaciones reales». Indicaron que quizá sea mejor considerar el costo, la confiabilidad y la practicidad, y limitar su uso a aplicaciones específicas.
Los expertos dicen que lo último no significa necesariamente lo mejor
"Estos resultados no son particularmente sorprendentes", dijo Brian Jackson del Info-Tech Research Group.
OpenAI ha afirmado que GPT-4o es un modelo rentable y adecuado para la mayoría de las tareas, mientras que modelos de inferencia como o3-pro son más adecuados para tareas más específicas y complejas, como la programación. Por lo tanto, es previsible que o3-pro tenga un rendimiento inferior al de GPT-4o en una tarea centrada en el lenguaje, como la elección de un seguro.
Según Jackson, la familia o3 (la familia o3-pro) siempre obtiene puntuaciones altas en las pruebas que miden la amplitud y profundidad de la inteligencia. Esto significa que sobresalen en diferentes áreas.
El secreto para elegir IA es "la persona adecuada para el trabajo adecuado"
Al final, lo que importa es"¿Qué IA utilizar para qué?"Al desarrollar un nuevo servicio utilizando IA, elegir el modelo es muy importante y también una parte difícil.
Por ejemplo, en un entorno de prueba como "Amazon Bedrock" de Amazon, los desarrolladores intentan enviar la misma pregunta a varios modelos de IA para encontrar el que ofrezca la mejor respuesta. A veces, utilizan una IA para una pregunta y otra para otra.
Al elegir una IA,
- calidad: Velocidad de respuesta (retardo), precisión de la respuesta, cómo se siente el usuario
- コスト:¿Cuánto cuesta?
- Seguridad y privacidad¿Es seguro usarlo?
Es necesario considerar el equilibrio entre ambos. Además, la escala de uso es importante, por ejemplo, si se usa 1 veces al día o 1000 millón. Para evitar situaciones como "¡Usé demasiado y recibí una factura desorbitada!", debemos pensar en maneras de reducir costos y mantener la calidad.
Jackson aconseja: «Piense en las LLM (IA inteligente) como un mercado de productos básicos, con muchas opciones, todas con características similares. Lo más importante es que los usuarios estén satisfechos con ellas».
Una palabra de John
¡Guau, el mundo de la IA es realmente complejo! Es emocionante ver cómo surgen nuevas tecnologías constantemente, pero después de leer este artículo, me di cuenta de que ser lo último no significa que sea lo mejor. Es un poco como elegir utensilios de cocina. Incluso con el cuchillo más afilado, un cuchillo de pan es mejor para cortar pan. Con la IA, es importante comprender las cualidades de cada uno y usarlos con inteligencia.
Este artículo se basa en los siguientes artículos originales y se resume desde la perspectiva del autor:
o3-pro puede ser la oferta comercial más avanzada de OpenAI,
Pero GPT-4o lo supera