CM3leon es la nueva IA de Meta para crear imágenes a partir de texto y viceversa utilizando menos recursos. Todos los detalles a continuación
Meta presentó este viernes a CM3leonel primer modelo multimodal de IA generativa capaz de crear imágenes a partir de texto y viceversa, con una “receta adaptada” de lenguaje multimodal que, además, se entrena con “cinco veces menos recursos”.
La empresa dirigida por Mark Zuckerberg investiga modelos generativos de IA e introduce avances en el procesamiento del lenguaje natural, en este caso, para permitir que las páginas comprendan y expresen el lenguaje, así como sistemas que pueden generar imágenes basadas en la entrada de texto.
En este marco, Meta lanzó su nuevo modelo CM3leon AI -denominado “camaleón”- capaz de ofrecer “el mayor rendimiento” en la conversión de texto a imagen y viceversa, que además está entrenado con cinco veces menos recursos que los modelos anteriores y genera secuencias. de texto e imágenes basadas en “secuencias arbitrarias de otro contenido de texto e imagen”.
Según expresó la compañía en un comunicado, se trata de una solución innovadora porque es el “primer modelo multimodal” que se entrena con una adaptación de modelos de lenguaje de solo texto. En otras palabras, los modelos generativos de solo texto se ajustan a instrucciones multitarea, que comprenden diferentes rangos de acciones al seguir instrucciones.
Sin embargo, los modelos de imágenes están especializados, por regla general, solo para tareas específicas.
Meta presentó CM3leon
Al aplicar la multitarea a gran escala de los modelos de solo texto a la generación de imágenes y texto, se mejoró el rendimiento en otras tareas, como la generación de texto a partir de imágenes para escribir un título para ellas.
Meta lanzó CM3leon, su propia IA
Además, aunque es un modelo entrenado con cinco veces menos recursos que los modelos anteriores, CM3leon es capaz de ofrecer un rendimiento de “última generación” para crear imágenes a partir de texto y viceversa. De hecho, Meta ha subrayado que CM3leon tiene la “versatilidad y eficacia de los modelos autorregresivos”.
Como consecuencia, es un modelo que mantiene bajos costes de formación y es eficiente.
Con todo ello, la compañía explicó que se trata de un modelo causal enmascarado mixto-modal (CM3) ya que puede generar secuencias de texto e imágenes condicionadas a “secuencias arbitrarias de otro contenido de imagen y texto”. Como afirmó la compañía, “esto amplía enormemente la funcionalidad de los modelos anteriores que eran solo de texto a imagen o solo de imagen a texto”.
En esta línea, CM3Leon también muestra una capacidad “impresionante” para generar objetos compositivos complejos, es decir, imágenes con diferentes componentes que nada tienen que ver entre sí o que son difíciles de encajar entre sí.
Independientemente, la empresa matriz de Instagram señaló que CM3leon se desempeña bien en una “amplia variedad de tareas de visión y lenguaje”, incluida la respuesta visual a las preguntas y los subtítulos de formato largo.
Capacidades de CM3leon
Gracias a todas sus características, CM3leon puede proceder a generar y editar imágenes guiadas por texto. En concreto, la edición con texto modificado es “un reto” ya que es necesario que el modelo entienda tanto las instrucciones del texto como la propia imagen generada para poder editarla posteriormente.
La inteligencia artificial crece día a día
En el camino, este nuevo modelo Meta también puede editar imágenes siguiendo las instrucciones de la estructura. Esta es una opción que le permite crear ediciones “visualmente consistentes y contextualmente apropiadas” a una imagen que se adhieren a las pautas de diseño ya descritas anteriormente.
Otra de las capacidades que realiza CM3leon es generar una imagen a partir de un texto con descripciones. Pero, en concreto, de un texto que describe una imagen “potencialmente muy compositiva”, que pone a prueba el modelo para seguir de forma coherente las indicaciones del texto.
CM3leon también es capaz de realizar tareas de texto. En este sentido, puedes seguir distintas indicaciones para generar subtítulos cortos o largos a partir de una imagen, incluso puedes responder preguntas sobre una imagen.
Dentro de sus capacidades para generar imágenes, el usuario puede escribir una descripción que incluya la ubicación exacta de donde se van a colocar los objetos que se han incluido en la descripción, dentro de un espacio delimitado.
CM3leon también es capaz de ofrecer una salida de “súper resolución”, esta opción agrega una etapa entrenada separada para alimentar imágenes de mayor resolución a la salida del modelo original.