• Escala con IA
  • Posts
  • El nuevo modelo 'profesor' de Amazon: Nova Premier

El nuevo modelo 'profesor' de Amazon: Nova Premier

ADEMÁS: Nuevos modelos pequeños de Microsoft y un estudio le pone un "pero" al benchmark de IA más seguido

¡Muy buenos días, gente de Escala con IA! ¿Alguna vez te has esforzado por estar en el primer lugar de una lista o ranking? En el mundo de la IA, estar arriba en los 'leaderboards' (esas tablas de clasificación de modelos) puede ser el cielo o el infierno para un nuevo lanzamiento. Pero, ¡ojo! un estudio recién salido del horno dice que quizás esa tabla esté un poco chueca, favoreciendo a los pesos pesados de siempre. Con acusaciones de pruebas secretas y experimentos medio amañados que podrían estar torciendo los resultados de una plataforma de 'benchmarking' (medición de rendimiento) súper popular, el juego de evaluar IAs se puso... interesante. Si te late este mundo, ¡esto te va a gustar!

Esto es lo que debes saber acerca de AI:

Nuestro plato fuerte de hoy: un estudio que le saca los trapitos al sol a la tabla de clasificación más famosa del mundo IA. ¿Hay favoritismo por los gigantes tech? Haz clic aquí para enterarte de los detalles y por qué esto importa para Escala con IA.

Microsoft sigue apostando por los 'small language models' o SLMs. Son chiquitos pero matones en tareas de razonamiento. ¿Podrán competir con los grandes?

Amazon presenta Nova Premier, pensado para tareas complejas y ¡para enseñar a otros modelos! Revisa los detalles y porque es importante aquí.

¿Te quedaste con ganas de más? Aquí tienes un resumen rápido con otras noticias del día.

Un estudio le pone un "pero" al benchmark de IA más seguido

Escala con IA: ¿Te has puesto a pensar si esas "listas de los mejores" que vemos por ahí son realmente justas? Un nuevo estudio, donde participaron investigadores de Cohere Labs, MIT, Stanford y otras universidades importantes, le ha puesto el ojo a LMArena, que es como el benchmark de IA más famoso (donde la gente vota por sus modelos favoritos). Según ellos, LMArena podría estar dándole una mano extra a las empresas más grandes, ¡y eso podría estar distorsionando la famosa lista!

Detalles:

  • El estudio dice que las empresas pesadas como Meta, Google y OpenAI prueban un montón de versiones secretas de sus modelos en la Arena para ver cuál funciona mejor y publicar solo esa. Como practicar el examen antes de presentarlo.

  • También encontraron que los modelos de los laboratorios grandes salen más en las interacciones de los usuarios que los modelos más pequeños o de código abierto. ¡Google y OpenAI se llevaron más del 60% de todas las interacciones!

  • Hicieron experimentos que mostraron algo interesante: si tienes acceso a los datos de LMArena, tus modelos mejoran justo en las tareas de LMArena. Esto sugiere que los modelos se están entrenando específicamente para pasar el benchmark (algo que llaman overfitting), en lugar de ser realmente más capaces en general.

  • Otro dato curioso que encontraron los investigadores es que 205 modelos han sido eliminados de la plataforma "en silencio", y los modelos de código abierto (los open source) han desaparecido con más frecuencia.

Por qué es importante: LMArena ya salió a defenderse, diciendo que su leaderboard (la lista de los mejores) solo refleja lo que la gente prefiere de verdad. Pero, sinceramente, estas acusaciones le pegan directo a la credibilidad de la plataforma, y LMArena influye muchísimo en cómo percibimos cuáles IAs son las "mejores". Esto, sumado al rollo que hubo con el benchmark de Llama 4 Maverick (que también tuvo sus controversias), nos recuerda que evaluar las IAs es más complicado de lo que parece y que, a veces, no todo es como lo pintan.

Los nuevos modelos de razonamiento pequeño de Microsoft

Escala con IA: Ok, hablemos de algo que suena a ciencia ficción pero es real. ¿Viste cuando necesitas hacer algo complicado pero solo tienes tu teléfono a mano? ¡Pues Microsoft acaba de lanzar tres nuevos modelos de IA en su familia Phi que son exactamente para eso! Son pequeñitos (son "open-weights models", o sea, de código abierto y livianos) pero súper capaces en "reasoning tasks" (tareas de razonamiento complejas), ¡y rinden mejor que otros modelos ENORMES! La idea es que quepan perfecto en tu teléfono o laptop.

Detalles:

  • El modelo estrella se llama Phi-4-reasoning. Tiene solo 14B parameters (imagina, como 14 mil millones de "piezas" de información que procesa), pero le gana al o1-mini de OpenAI y hasta iguala al modelo de 671B de DeepSeek en pruebas clave ("benchmarks"). ¡Una bestia en miniatura!

  • Hay una versión aún más chiquita, de 3.8B parameters, llamada Phi-4-mini-reasoning. Esta sí que es ideal para "mobile devices". Y aunque es mini, en pruebas de matemáticas ("math benchmarks") le va igual que a modelos de 7B.

  • Fueron diseñados pensando en la eficiencia. Quieren que tengas capacidades de reasoning potentes incluso en lugares con recursos limitados ("constrained environments"), como "edge devices" (gadgets fuera de la nube) y las nuevas Copilot+ PCs.

  • Lo mejor es que los tres son "open-source" (código abierto) con licencias súper flexibles ("permissive licenses"). Esto significa que cualquiera puede usarlos, modificarlos y hasta ganar plata con ellos sin restricciones (siempre respetando la licencia, claro).

Por qué es importante: Microsoft le sigue subiendo la vara a su familia Phi. Estos modelos chiquitos pero matones ahora vienen con un reasoning increíblemente bueno, ¡y caben en tus dispositivos de todos los días! Todavía estamos al principio de ver IA integrada de verdad en nuestros gadgets, pero las nuevas Copilot+ PCs de Microsoft podrían sacarle un jugo tremendo a este impulso en el reasoning. Imagina tu laptop o teléfono pensando contigo de forma avanzada, sin necesidad de conectarse a internet todo el tiempo. ¡Eso sí es escalar con IA!

El nuevo modelo 'profesor' de Amazon: Nova Premier

Escala con IA: ¿Te imaginas que una IA súper inteligente no solo haga cosas complejas, sino que también le "enseñe" a otras IA más pequeñas a ser casi tan buenas como ella? Pues Amazon acaba de lanzar Nova Premier, su modelo de IA más avanzado hasta ahora, diseñado justo para eso: manejar tareas complicadas Y actuar como "profesor" para entrenar (o fine-tune, como dicen en la jerga) modelos más chicos para que estén a su nivel.

Detalles:

  • Es un modelo multimodal (procesa texto, imágenes y videos) con una context window de 1 millón de tokens, o sea, puede analizar como 750 mil palabras al mismo tiempo. ¡Imagínate el contexto!

  • En pruebas internas, Premier se queda un poco atrás de los pesos pesados como Gemini 2.5 Pro en benchmarks de mates, ciencia y código. No es el campeón en todo.

  • Donde sí brilla es organizando multi-agent workflows. En pruebas, mostró ser muy bueno en análisis financiero e investigación de inversiones.

  • Usando algo que Amazon llama Model Distillation de Bedrock, Premier puede "pasar" sus habilidades a modelos más pequeños como Nova Pro y Micro, mejorando su rendimiento hasta en un 20%.

Por que es importante: ¿Por qué nos importa esto? Con Nova Premier, Amazon está diciendo algo interesante: su modelo estrella no busca ser el campeón absoluto en tareas de razonamiento súper avanzadas (como competir directamente contra otros gigantes). En cambio, lo posiciona como un "super profesor" que puede mejorar a toda su familia de modelos. Esto sugiere que Amazon apunta a optimizar el rendimiento general y prefiere tener modelos más pequeños, eficientes y especializados para tareas específicas, en lugar de un único modelo todopoderoso. Es como si prefirieran un equipo de especialistas bien entrenados que un solo genio.

🛠️ Herramientas IA del Momento

  •  🎥 Gen-4 References - Para que tus personajes y escenas se vean consistentes en los videos. ¡Adiós a los cambios de look aleatorios!

  •  🎨 Gemini App - Se actualizó con funciones nativas para editar imágenes con IA directamente. Menos clics, más magia.

  •  🧠 MiMo-7B - El modelo de razonamiento de código abierto de Xiaomi. Pequeño, pero dicen que potente. ¡A ver qué sale de ahí!

  •  📸 F-Lite - El modelo de Freepik (sí, los de las imágenes de stock) para generar imágenes. También de código abierto.

El resto de noticias sobre IA de hoy

Anthropic lanzó Integrations, permitiendo que Claude se conecte con remote MCPs para integrar herramientas adicionales. Detalles: También trae nuevas capacidades de investigación como web support.

NVIDIA criticó las recomendaciones de Anthropic sobre la política de exportación de AI chip argumentando que las empresas de EE. UU. deberían enfocarse en la innovación en lugar de limitar la competitividad con políticas. Por que es importante: ¡Aquí se puso picante la cosa! Es una muestra de las tensiones en la industria.

Google expandió su AI Mode in Search a todos los usuarios de Labs en EE. UU. Detalles: También introdujo nuevas funciones de visual shopping y planificación local. ¡Google Maps con superpoderes!

Suno presentó la v4.5 de su plataforma para generar música con IA. Detalles: Añadió nuevos géneros, mejoró el prompting y la adherencia, la capacidad de crear canciones de hasta 8 minutos, y más. ¡Prepara el karaoke!

Microsoft se rumorea que va a añadir el modelo Grok de xAI a su plataforma de desarrollo Azure. Por que es importante: Esto llega en medio de rumores de tensiones entre el CEO Satya Nadella y Sam Altman de OpenAI. ¡El drama!

Google lanzó Little Language Lessons, tres experimentos nuevos AI-powered que usan las capacidades multilingual de Gemini. Detalles: Ofrecen experiencias de aprendizaje de idiomas personalizadas. ¿Aprender otro idioma chateando con una IA? Ya estamos ahí.

¡Y eso es todo por hoy en nuestro resumen IA!

¡Y con la polémica de los benchmarks y nuevos modelos bajo el brazo, nos despedimos por hoy! Siempre es bueno recordar que, aunque la IA avanza a pasos agigantados, el ojo crítico es clave. Especialmente cuando se trata de rankings y comparaciones. Gracias por acompañarnos en Escala con IA.

¡Espero que tengas un día genial y lleno de descubrimientos! ¡Nos leemos en la próxima edición de Escala con IA!

Mark, Parte del equipo de Escala con IA.