El gran modelo de lenguaje multimodal, GPT-4, está listo para el horario de máxima audiencia, aunque, contrariamente a los informes que circulan desde el viernes, no admite la capacidad de producir videos a partir de texto.
Sin embargo, GPT-4 puede aceptar entrada de imagen y texto y producir salida de texto. En una variedad de dominios, incluidos documentos con texto y fotografías, diagramas o capturas de pantalla, GPT-4 exhibe capacidades similares a las de las entradas de solo texto, explicó OpenAI en su sitio web.
Esa característica, sin embargo, está en «vista previa de investigación» y no estará disponible públicamente.
OpenAI explicó que GPT-4, si bien es menos capaz que los humanos en muchos escenarios del mundo real, exhibe un desempeño a nivel humano en varios puntos de referencia académicos y profesionales.
Por ejemplo, aprobó un examen de barra simulado con una puntuación de alrededor del 10% superior de los examinados. Por el contrario, la puntuación de GPT-3.5 se situó en torno al 10 % inferior.
Saltos sobre modelos anteriores
Uno de los primeros usuarios de GPT-4 es Casetext, creador de un asistente legal de inteligencia artificial, CoCounsel, que dice que es capaz de aprobar tanto las partes escritas como las de opción múltiple del Examen Uniforme de Abogados.
“GPT-4 supera el poder de los modelos de lenguaje anteriores”, dijo Pablo Arredondo, cofundador y director de innovación de Casetext, en un comunicado. “La capacidad del modelo no solo para generar texto, sino también para interpretarlo, presagia nada menos que una nueva era en la práctica del derecho”.
«CoCounsel de Casetext está cambiando la forma en que se practica la ley al automatizar tareas críticas que consumen mucho tiempo y liberando a nuestros abogados para que se concentren en los aspectos más impactantes de la práctica», agregó Frank Ryan, presidente de las Américas de DLA Piper, una firma de abogados global. presione soltar.
OpenAI explicó que pasó seis meses alineando GPT-4 utilizando las lecciones de su programa de pruebas contradictorias, así como ChatGPT, lo que resultó en sus mejores resultados, aunque lejos de ser perfectos, en cuanto a factualidad, capacidad de dirección y rechazo a salirse de las barandillas.
Agregó que la carrera de entrenamiento de GPT-4 fue estable sin precedentes. Fue el primer modelo grande de la compañía cuyo rendimiento de entrenamiento pudo predecir con anticipación con precisión.
“A medida que continuamos enfocándonos en un escalado confiable”, escribió, “nuestro objetivo es perfeccionar nuestra metodología para ayudarnos a predecir y prepararnos para capacidades futuras cada vez con mayor anticipación, algo que consideramos crítico para la seguridad”.
Distinciones sutiles
OpenAI señaló que la distinción entre GPT-3.5 y GPT-4 podría ser sutil. La diferencia surge cuando la complejidad de la tarea alcanza un umbral suficiente, explicó. GPT-4 es más confiable y creativo y puede manejar instrucciones más matizadas que GPT-3.5.
GPT-4 también se puede personalizar más que su predecesor. En lugar de la personalidad clásica de ChatGPT con una verbosidad, tono y estilo fijos, explicó OpenAI, los desarrolladores, y pronto los usuarios de ChatGPT, ahora pueden prescribir el estilo y la tarea de su IA describiendo esas instrucciones en el mensaje del «sistema». Los mensajes del sistema permiten a los usuarios de la API personalizar significativamente la experiencia de sus usuarios dentro de ciertos límites.
Sin embargo, los usuarios de API tendrán que esperar inicialmente para probar esa función, ya que su acceso a GPT-4 estará restringido por una lista de espera.
OpenAI reconoció que, a pesar de sus capacidades, GPT-4 tiene limitaciones similares a las de los modelos GPT anteriores. Lo más importante es que todavía no es completamente confiable. “Alucina” hechos y comete errores de razonamiento.
Se debe tener mucho cuidado al usar los resultados del modelo de lenguaje, particularmente en contextos de alto riesgo, advirtió OpenAI.
GPT-4 también puede equivocarse con confianza en sus predicciones, sin tener cuidado de verificar el trabajo cuando es probable que cometa un error, agregó.
T2V Ausente
La expectativa por el nuevo lanzamiento de GPT se avivó durante el fin de semana después de que un ejecutivo de Microsoft en Alemania sugiriera que la capacidad de texto a video sería parte del paquete final.
“Presentaremos GPT-4 la próxima semana, donde tenemos modelos multimodales que ofrecerán posibilidades completamente diferentes, por ejemplo, videos”, dijo Andreas Braun, director de tecnología de Microsoft en Alemania, en un evento de prensa el viernes.
El texto a video sería muy perturbador, observó Rob Enderle, presidente y analista principal de la Grupo Enderleuna firma de servicios de asesoría en Bend, Oregón.
“Podría cambiar drásticamente la forma en que se crean las películas y los programas de televisión, cómo se formatean los programas de noticias al proporcionar un mecanismo para la personalización del usuario altamente granular”, dijo a TechNewsWorld.
Enderle señaló que un uso inicial de la tecnología podría ser la creación de guiones gráficos a partir de borradores de guiones. “A medida que esta tecnología madure, avanzará hacia algo más cercano a un producto terminado”.
Proliferación de videos
El contenido creado por aplicaciones de texto a video sigue siendo básico, señaló Greg Sterling, cofundador de Cerca de los mediosun sitio web de noticias, comentarios y análisis.
“Pero el texto a video tiene el potencial de ser disruptivo en el sentido de que veremos mucho más contenido de video generado a muy bajo costo o casi sin costo”, dijo a TechNewsWorld.
“La calidad y efectividad de ese video es un asunto diferente”, continuó. “Pero sospecho que algo de eso será decente”.
Agregó que los explicadores y la información básica de procedimientos son buenos candidatos para la conversión de texto a video.
“Me imagino que algunas agencias lo usarán para crear videos para que las PYMES los usen en sus sitios o en YouTube con fines de clasificación”, dijo.
“No será bueno, al menos al principio, en ningún contenido de marca”, continuó. “El contenido de las redes sociales es otro caso de uso. Verás que los creadores de YouTube lo usan para aumentar el volumen y generar visitas e ingresos publicitarios».
No engañado por deepfakes
Como se descubrió con ChatGPT, existen peligros potenciales para la tecnología como el texto a video.
“Los casos de uso más peligrosos, como todas las herramientas como esta, son las estafas comunes que se hacen pasar por personas ante familiares o los ataques a personas o instituciones particularmente vulnerables”, observó Will Duffield, analista de políticas de la Instituto Catónun grupo de expertos de Washington, DC.
Duffield, sin embargo, descartó la idea de usar texto a video para producir «falsificaciones profundas» efectivas.
“Cuando hemos visto ataques con buenos recursos, como el deepfake ruso de la rendición de Zelenskyy el año pasado, han fallado porque hay suficiente contexto y expectativas en el mundo para refutar la falsificación”, explicó.
“Tenemos nociones muy bien definidas de quiénes son las figuras públicas, qué hacen, qué podemos esperar que hagan”, continuó. “Entonces, cuando vemos que los medios se comportan de una manera aberrante, que no se ajusta a esas expectativas, es probable que seamos muy críticos o escépticos al respecto”.