• Escala con IA
  • Posts
  • ¡OpenAI consigue el oro en la Olimpiada Matemática!

¡OpenAI consigue el oro en la Olimpiada Matemática!

ADEMÁS: La nueva prueba interactiva de AGI de ARC

¡Muy buenos días, gente de Escala con IA! ¿Recuerdan esos dolores de cabeza resolviendo ecuaciones en el colegio? ¿O esa sensación de mirar un problema de matemáticas y pensar '¿y esto para qué sirve?' Pues prepárense, porque OpenAI acaba de demostrarnos para qué sirve ser un genio matemático, ¡y lo hicieron a lo grande!.

Han logrado algo que muchos creían imposible: alcanzar un rendimiento de nivel gold en la mismísima International Math Olympiad (IMO) 2025 con un LLM experimental. Sí, un modelo de lenguaje que no solo escribe, ¡sino que ahora también resuelve problemas matemáticos como si fuera el mismísimo Albert Einstein... pero con esteroides digitales! Claro, por ahí algunos escépticos (los que seguro reprobaron cálculo) se preguntan cómo fue la evaluación de OpenAI y si de verdad el bot no 'hizo trampa' (ejem), pero la verdad es que este avance en la IMO nos acerca un paso más a una 'superinteligencia matemática'. Imaginen una IA que pueda resolver esos problemas que a la humanidad le siguen dando pesadillas, o que descubra nuevas fórmulas que ni los cerebritos más grandes han podido descifrar. ¡Eso sí que nos cambiaría el juego! Vamos a ver los detalles de esta proeza numérica.

Esto es lo que debes saber acerca de AI:

  • El rendimiento de nivel gold de OpenAI en matemáticas

    La nueva prueba interactiva de AGI de ARC

    Crea tu propio asistente de escritura de contenido con IA

    Modelos de IA caen en trucos psicológicos humanos

    4 nuevas herramientas de IA y 4 oportunidades de trabajo

  • Todo lo demás en IA hoy

OpenAI y su desempeño de oro en matemáticas

Escala con IA: ¡Imagínate esto! OpenAI acaba de anunciarnos que su modelo de "razonamiento general experimental" ¡se rifó con un nivel oro! en una evaluación inspirada en la Olimpiada Internacional de Matemáticas de 2025. Básicamente, lo pusieron a resolver los mismos problemas que los cerebritos humanos, pero a ver si la IA podía con el paquete.

Detalles:

  • El LLM se enfrentó a las pruebas bajo las mismas reglas que los humanos: dos exámenes de 4.5 horas, resolviendo problemas con pruebas en lenguaje natural, ¡y sin acceso a herramientas ni internet! Una locura, ¿no?

    OpenAI presume que este modelo, que aún no tiene nombre oficial, resolvió 5 de 6 problemas, obteniendo 35/42 puntos. ¡Suficiente para llevarse una medalla de oro en la competencia real!

    Para que no quedara duda, tres exmedallistas de la IMO evaluaron cada respuesta de forma independiente, y la puntuación final fue por consenso unánime. ¡Nada de trampas!

    Eso sí, Google DeepMind ya salió a ponerle un pero a la cosa, diciendo que la IMO tiene sus propias reglas de calificación y que no se puede cantar victoria sin ellas. ¡Siempre hay alguien para ponerle picante a la historia!

Por qué es importante:  Las críticas sobre la validez son normales, sobre todo porque alcanzar el oro en la IMO ha sido una meta largamente deseada para la IA, algo que muchos creían casi imposible. Lo más interesante es que lo logró un modelo experimental, que aún no sale al público. ¡Esto nos da una pista de que OpenAI se trae entre manos mucho más!

ARC’s nuevo test interactivo de AGI

Escala con IA: ARC Prize ha lanzado un preview de ARC-AGI-3, un nuevo benchmark de razonamiento interactivo para poner a prueba la habilidad de los agentes de IA para generalizar en entornos no vistos. Los primeros resultados muestran que la IA de frontera aún falla en igualar o superar a los humanos.

Detalles:

  • El benchmark presenta tres juegos originales construidos para evaluar la construcción de modelos del mundo y la planificación a largo plazo con feedback mínimo.

  • Los agentes no reciben instrucciones y deben aprender puramente por ensayo y error, imitando cómo los humanos se adaptan a nuevos desafíos.

  • Los resultados iniciales muestran que modelos de frontera como o3 de OpenAI y Grok 4 luchan incluso para completar los niveles básicos de los juegos, que son bastante fáciles para los humanos.

  • ARC Prize también está lanzando un concurso público, invitando a la comunidad a crear agentes que puedan superar la mayor cantidad de niveles, y así probar de verdad el estado del razonamiento de AGI.

Por qué es importante: Este nuevo benchmark interactivo centrado en la novedad va más allá de las pruebas de habilidades especializadas y empuja la investigación hacia la inteligencia artificial general verdadera, donde los sistemas de IA pueden generalizar y adaptarse a entornos novedosos y no vistos con precisión, muy parecido a como lo hacemos los humanos.

Los modelos de IA caen en trucos psicológicos humanos

Escala con IA: Los Laboratorios de IA Generativa de Wharton publicaron una nueva investigación que demuestra que los modelos de IA, incluido GPT-4o-mini, pueden ser engañados para responder consultas objetables usando técnicas de persuasión psicológica que normalmente funcionan en humanos.

Detalles:

  • El equipo probó los principios de influencia de Robert Cialdini —autoridad, compromiso, simpatía, reciprocidad, escasez y unidad— en 28,000 conversaciones con 4o-mini.

  • Durante estos chats, intentaron persuadir a la IA para que respondiera dos consultas: una para insultar al usuario y otra para sintetizar instrucciones para materiales restringidos.

  • En general, encontraron que los principios más que duplicaron el cumplimiento del modelo a consultas objetables, pasando del 33% al 72%.

  • El compromiso y la escasez parecieron tener los impactos más fuertes, llevando las tasas de cumplimiento del 19% y 13% al 100% y 85%, respectivamente.

Por que es importante: Estos hallazgos revelan una vulnerabilidad crítica: los modelos de IA pueden ser manipulados utilizando las mismas tácticas psicológicas que influyen en los humanos. Con el avance exponencial de la IA, es crucial que los laboratorios de IA colaboren con científicos sociales para comprender los patrones de comportamiento de la IA y desarrollar defensas más sólidas.

Más allá de los datos: ¿Y si tu información pudiera crear?

Escala con IA: Imagina que tus datos no solo informan, sino que crean: textos, imágenes, música e incluso código funcional. Esto es la IA Generativa (GenAI), una tecnología que está redefiniendo lo posible y transformando la forma en que generamos valor a partir de la información.

Detalles:

Desde 2022, GenAI ha sido clave, especialmente con datos no estructurados. Permite a las empresas:

  • Generar informes personalizados extrayendo insights.

  • Agilizar el diseño de productos.

  • Explorar fronteras creativas en arte y música.

  • Crear contenido y borradores automáticamente.

Integrar GenAI plantea desafíos (privacidad, seguridad, orquestación). Una solución especializada co-creada con Muze AI facilita la conexión de diversos modelos de IA (LLMs), permite construir asistentes inteligentes que interactúan con tus datos y APIs, gestionar su uso en proyectos y controlar costos. Su implementación exitosa requiere una estrategia centrada en Personas, Ideas y Plataformas.

Por que es importante: 

La GenAI no es una promesa futura, es una realidad presente con el poder de redefinir las fronteras de tu negocio. Su capacidad de transformar información en creación tangible la hace revolucionaria. Ya está optimizando la productividad, mejorando la atención al cliente, potenciando ventas y agilizando el acceso a información crítica en diversas industrias. Es el motor potencial de tu próxima gran transformación.

¿Sientes la curiosidad y ves el potencial? Si estas ideas resuenan contigo y quieres explorar cómo la IA Generativa puede ser clave para tu negocio, conversemos.

El resto de noticias sobre IA de hoy

  • OpenAI lanzó un fondo de 50 millones de dólares para apoyar a organizaciones sin fines de lucro y comunitarias. ¡Buena onda!

  • Perplexity está negociando con fabricantes de teléfonos para preinstalar su nuevo navegador, Comet, en smartphones. ¡Ojo con este competidor de Google!

  • Microsoft parece estar bloqueando el acceso de Cursor a más de 60,000 extensiones en su ecosistema VSCode. ¡Las guerras del código siguen!

  • Elon Musk anunció que xAI desarrollará un "Baby Grok" amigable para niños, además de añadir matchmaking a Grok. ¿Ya le viste su lado tierno?

  • Meta (los de Facebook) no firmará el Código de Práctica de IA de la UE, argumentando que añade incertidumbre legal y va más allá de lo necesario. ¡Cada quien su rollo!

  • El CEO de OpenAI, Sam Altman, compartió que para fin de año tendrán más de 1 millón de GPUs funcionando, y su meta es multiplicarlas por 100. ¡Quieren dominar el mundo... de la IA, claro!

¡Y eso es todo por hoy en nuestro resumen IA!

¡Y así, amig@s de la IA, llegamos al final de nuestro viaje noticioso por hoy! Ver estos avances, desde la matemática pura hasta la capacidad de que la IA caiga en 'trucos humanos', nos demuestra que esto no para. ¡Prepárense, que la próxima semana seguro nos trae más sorpresas que nos harán decir '¡¿Qué?!'

¡Espero que tengas un día genial y lleno de descubrimientos! ¡Nos leemos en la próxima edición de Escala con IA!

Mark, Parte del equipo de Escala con IA.