OpenAI tiene Anunciado la implementación de nuevas capacidades de voz e imagen en ChatGPT. Estas funciones permitirán a los usuarios hablar directamente con ChatGPT, mostrarle imágenes para obtener respuestas y tener conversaciones más elaboradas. Los usuarios del Planes Plus y Enterprise Podrás disfrutar de estas funciones que revolucionarán la forma en que interactuamos con esta IA generativa en las próximas semanas.
Asimismo, la implementación de estas funciones se realiza con un claro enfoque en la seguridad y utilidad, ya que OpenAI reconoce los desafíos y riesgos potenciales asociados con la voz y la imagen en la IA.
Mantén conversaciones habladas con ChatGPT gracias a sus funciones de voz
En el caso de la voz, OpenAI ha decidido centrarse principalmente en la chat de vozlo que significa que las capacidades de conversación de voz están diseñadas para ser seguras y útiles para los usuarios en situaciones como solicitar información, contar historias o responder preguntas.
Ahora los usuarios podrán pedirle a ChatGPT un cuento antes de dormir, discutir un tema o simplemente tener una conversación. Este nuevo nivel de interacción está diseñado para hacer eso la experiencia es más personal y accesible.
Para comenzar a usar la voz, simplemente vaya a la Configuración En la aplicación móvil, seleccione “Nuevas funciones” y optar por el “Conversaciones de voz”. Luego elige uno de los 5 voces disponibles para tu asistente. La tecnología subyacente se basa en un modelo de texto a voz que puede generar audio que replica de manera realista la voz humana a partir de texto y una breve muestra de voz. Las voces utilizadas en la función de voz se han creado en colaboración con actores de doblaje profesionales.
Esta innovación también descansa sobre Susurroel sistema de reconocimiento de voz de código abierto desarrollado por OpenAI, que transcribe tus palabras habladas en texto. A través de esta integración de voz, ChatGPT ofrece una experiencia más rica y natural para los usuarios, permitiéndoles mantener conversaciones con IA.
Además, OpenAI también está aplicando esta tecnología de voz en colaboración con organizaciones externas, como Spotify. Un ejemplo mencionado es el piloto de la función de traducción de voz de Spotify, que permite a los podcasters ampliar su audiencia traducción de sus programas a diferentes idiomas utilizando las voces de los propios podcasters.
Nuevas capacidades de comprensión de imágenes.
La otra gran adición a ChatGPT es su Capacidad para comprender y discutir imágenes.. Ahora puedes mostrarle una o más imágenes y obtener respuestas útiles basadas en lo que ve. Esto tiene un sinfín de aplicaciones, desde resolver problemas técnicos hasta planificar comidas con lo que tienes en el frigorífico o analizar gráficas complejas para obtener información relevante para tu trabajo.
Por ejemplo, en la siguiente imagen, ChatGPT analiza la fotografía subida por el usuario en respuesta a la consulta “ayúdame a bajar el asiento de mi bicicleta”. Luego ofrece instrucciones sobre cómo obtenerla en función del modelo de bicicleta de la fotografía, indicándote incluso en qué parte de la imagen se puede encontrar la pieza a la que se refiere.
Comprender las imágenes en ChatGPT se basa en el Modelos multimodales GPT-3.5 y GPT-4que aplican sus habilidades de razonamiento lingüístico a una amplia variedad de imágenes, incluidas Ffotografías, capturas de pantalla y documentos que combinan texto e imágenes. Esta funcionalidad promete hacer que las conversaciones sean aún más informativas y prácticas.
Además, para esta función, OpenAI ha priorizado su utilidad y seguridad. Han implementado medidas técnicas para limitar la capacidad de ChatGPT para analizar y hacer afirmaciones sobre personas en imágenes, respetando así la privacidad del usuario. Esto significa que la IA no realizará análisis intrusivos o inapropiados de personas en imágenes que los usuarios compartan, garantizando un uso seguro y ético de la tecnología de imágenes.
Foto: descargar
Mantente informado de las noticias más relevantes en nuestro canal Telegrama