La compañía presentó modelos mejorados para convertir voz a texto y texto a voz, con mayor precisión y opciones de personalización
21.03.2025 • 10:48hs • Tecnología
Tecnología
OpenAI revoluciona la transcripción y síntesis de voz con inteligencia artificial
OpenAI ha presentado una nueva generación de modelos de inteligencia artificial enfocados en la transcripción y la conversión de voz.
El objetivo de este avance es mejorar la precisión y brindar mayor flexibilidad en la personalización del audio.
La compañía lanzó dos nuevos modelos de voz a texto basados en GPT-4o y GPT-4o Mini, los cuales ofrecen mejoras significativas en la tasa de error y el reconocimiento del lenguaje.
En comparación con Whisper, su modelo anterior de transcripción, la nueva versión llamada gpt-4o-transcribe optimiza la precisión gracias a mejoras en el aprendizaje por refuerzo y el uso de datos de audio de alta calidad.
Además, OpenAI anunció un modelo de conversión inversa, es decir, de texto a voz.
El gpt-4o-mini-tts permite generar voces con mayor naturalidad y personalización, ya que los desarrolladores pueden ajustar no solo el contenido del mensaje, sino también su entonación y estilo.
La empresa adelantó que continuará trabajando en la mejora de estos modelos, con la meta de ofrecer herramientas aún más precisas e inteligentes que permitan la incorporación de voces personalizadas en diversas aplicaciones.