OpenAI lanza nuevos modelos de transcripción y conversión de voz
/https://assets.iproup.com/assets/jpg/2023/03/34214.jpg)
OpenAI ha presentado una nueva generación de modelos de inteligencia artificial enfocados en la transcripción y la conversión de voz.
El objetivo de este avance es mejorar la precisión y brindar mayor flexibilidad en la personalización del audio.
La compañía lanzó dos nuevos modelos de voz a texto basados en GPT-4o y GPT-4o Mini, los cuales ofrecen mejoras significativas en la tasa de error y el reconocimiento del lenguaje.
En comparación con Whisper, su modelo anterior de transcripción, la nueva versión llamada gpt-4o-transcribe optimiza la precisión gracias a mejoras en el aprendizaje por refuerzo y el uso de datos de audio de alta calidad.
Además, OpenAI anunció un modelo de conversión inversa, es decir, de texto a voz.
El gpt-4o-mini-tts permite generar voces con mayor naturalidad y personalización, ya que los desarrolladores pueden ajustar no solo el contenido del mensaje, sino también su entonación y estilo.
La empresa adelantó que continuará trabajando en la mejora de estos modelos, con la meta de ofrecer herramientas aún más precisas e inteligentes que permitan la incorporación de voces personalizadas en diversas aplicaciones.