in

El nuevo conjunto de datos de IA de Apple tiene como objetivo mejorar los modelos de edición de fotografías

Los investigadores de Apple han publicado Pico-Banana-400Kun conjunto de datos completo de 400.000 imágenes seleccionadas que ha sido diseñado específicamente para mejorar la forma en que los sistemas de inteligencia artificial editan fotografías basándose en indicaciones de texto.


El enorme conjunto de datos tiene como objetivo abordar lo que Apple describe como una brecha en la capacitación actual en edición de imágenes de IA. Si bien sistemas como GPT-4o pueden realizar ediciones impresionantes, los investigadores dicen que el progreso se ha visto limitado por datos de entrenamiento inadecuados elaborados a partir de fotografías reales. El nuevo conjunto de datos de Apple tiene como objetivo mejorar la situación.

Pico-Banana-400K presenta imágenes organizadas en 35 tipos de edición diferentes en ocho categorías, desde ajustes básicos como cambios de color hasta transformaciones complejas como convertir personas en personajes estilo Pixar o figuras LEGO. Cada imagen pasó por el sistema de control de calidad impulsado por inteligencia artificial de Apple, y se utilizó Gemini-2.5-Pro ​​de Google para evaluar los resultados en función del cumplimiento de las instrucciones y la calidad técnica.

El conjunto de datos también incluye tres subconjuntos especializados: 258 000 ejemplos de edición única para capacitación básica, 56 000 pares de preferencias que comparan ediciones exitosas y fallidas y 72 000 secuencias de múltiples turnos que muestran cómo evolucionan las imágenes a través de múltiples ediciones consecutivas.

Apple creó el conjunto de datos utilizando el modelo de edición Gemini-2.5-Flash-Image (también conocido como Nano-Banana) de Google, que se lanzó hace apenas unos meses. Sin embargo, la investigación de Apple reveló sus limitaciones. Si bien los cambios de estilo globales tuvieron éxito el 93% de las veces, las tareas precisas como reubicar objetos o editar texto tuvieron serios problemas, con tasas de éxito inferiores al 60%.

edición de imágenes de Apple conjunto de datos ai pico bananaedición de imágenes de Apple conjunto de datos ai pico banana
A pesar de las limitaciones, los investigadores dicen que su objetivo con Pico-Banana-400K es establecer «una base sólida para entrenar y comparar la próxima generación de modelos de edición de imágenes guiados por texto». El el conjunto de datos completo está disponible gratuitamente para uso de investigación no comercial en GitHub, de modo que los desarrolladores puedan usarlo para entrenar una IA de edición de imágenes más capaz.

Fuente

Justine Calma

¿Por qué Bill Gates controla el tono del cambio climático?

Signal: No nos queda más remedio que utilizar AWS

Signal: No nos queda más remedio que utilizar AWS