OpenAI ha presentado una nueva generación de modelos de inteligencia artificial enfocados en la transcripción y la conversión de voz.

El objetivo de este avance es mejorar la precisión y brindar mayor flexibilidad en la personalización del audio.

La compañía lanzó dos nuevos modelos de voz a texto basados en GPT-4o y GPT-4o Mini, los cuales ofrecen mejoras significativas en la tasa de error y el reconocimiento del lenguaje.

En comparación con Whisper, su modelo anterior de transcripción, la nueva versión llamada gpt-4o-transcribe optimiza la precisión gracias a mejoras en el aprendizaje por refuerzo y el uso de datos de audio de alta calidad.

Además, OpenAI anunció un modelo de conversión inversa, es decir, de texto a voz.

El gpt-4o-mini-tts permite generar voces con mayor naturalidad y personalización, ya que los desarrolladores pueden ajustar no solo el contenido del mensaje, sino también su entonación y estilo.

La empresa adelantó que continuará trabajando en la mejora de estos modelos, con la meta de ofrecer herramientas aún más precisas e inteligentes que permitan la incorporación de voces personalizadas en diversas aplicaciones.

Te puede interesar