Pese aque las tecnologías de inteligencia artificial o de machine learning avanzan a pasos agigantados, el reconocimiento de la voz aún está casi en pañales.
Pese a existir ya muchos dispositivos y aplicaciones que responden a comandos o reconocen el habla, las variaciones de la última, los idiomas, las entonaciones, o hasta determinado "cantito" en la voz, puede resultar en malas interpretaciones
Es por ello que lograr que un dispositivo nos entienda cuando le hablamos es extremadamente complejo. Cathy Pearl lleva más de 20 años trabajando en ello. "Cuando empecé, el reconocimiento de voz se circunscribía a los sistemas de telefonía automática. Básicamente, empresas tratando de ahorrar dinero automatizando tareas, haciendo que los clientes le hablaran a ordenadores en vez de a humanos, que es más caro", explica la directora de diseño de conversaciones en Google. Quién le iba a decir entonces que acabaríamos hablándole al móvil... y que este nos entendería (relativamente bien).
A un mes de esto saltó la polémica: Google confirmó que "expertos del lenguaje" repartidos por el mundo escuchaban el 0,2% de las conversaciones entre usuarios y asistentes virtuales. La respuesta de Pearl cuando se le preguntó al respecto fue ceñirse al comunicado oficial de la compañía, en el que Google asegura que las escuchas se hacían para ayudar al sistema "a entender mejor los idiomas" y en el que se confirma que estas "revisiones humanas" han sido canceladas.
Google está avanzado en el reconocimiento de voz, y va por más, como explica Pearl: "estamos invirtiendo mucho en diseño de conversaciones. El año pasado publicamos un manual de buenas prácticas para que se pueda aplicar al desarrollo de esta tecnología. Creemos que estamos ante otra potencial interfaz. No decimos que la voz vaya a ser lo único, pero será un canal importante".
Asimismo hay mejoras en determinados aspectos, como "en primer lugar, los micrófonos, que ya no necesitas tener delante para que te capten bien. La precisión del speech recognition es enorme. Y el entendimiento del lenguaje natural ha mejorado mucho, aunque todavía queda mucho camino por delante".
Pero también existe una preocupación sobre la privacidad no sólo de los datos, sino la propia física. "Cuando usas Google Assistant puedes ver en la app de tu teléfono si Ok Google está operativo. El teléfono te avisa cada vez que algo se ha grabado, y las grabaciones se pueden borrar permanentemente. También estamos trabajando en tecnologías que harán que el reconocimiento de voz suceda localmente en tu teléfono, sin enviar nada a la nube", asegura la investigadora.
Eso no quita que la gente se vaya acostumbrando cada vez más a interactuar con dispositivos de esta manera. "Un estudio que sacó la National Public Radio dice que la mitad del tiempo en el que la gente usa smart speakers está con otras personas. Me gusta ese aspecto de comunidad. Dicen que el 41% de nuestras vidas va a pasar delante de una pantalla, así que poder hablar con los aparatos significa también separarnos algo de ellos. Puedes lanzar una pregunta rápida mientras estás en la mesa comiendo, lo que es mucho menos farragoso que ponerte a buscar algo en el móvil. Y así todo el mundo oye la pregunta y la respuesta, de modo que la conversación no se interrumpe. El reconocimiento de voz puede aliviar algo nuestra adicción a las pantallas", comenta Pearl.
En cuanto al futuro de estas tecnologías, la investigadora cree que se convertirá en algo muy común. "Ahora, por ejemplo, los smart speakers se ven sobre todo en los hogares, pero pronto estarán también en tiendas, restaurantes o en el trabajo. Una de las razones ahí es porque cuando estamos en público no nos gusta hablar en voz alta a los dispositivos. Ahí entra la tecnología llamada silent speech, que se ha prototipado en el MIT Media Lab bajo el nombre de Alter Ego.
El aparato cuenta con sensores en la mandíbula que recogen las señales del prehabla: antes de hablar mandamos microseñales. La idea es captarlas y codificarlas, de forma que podamos comunicarnos sin que nadie nos oiga. Esta tecnología disparará el uso del reconocimiento de voz".
El camino no está exento de desafíos. "Una de las mayores limitaciones es lo que llamamos descubrebilidad (discoverability). Digamos que tienes un smart speaker: ¿cómo sabes qué puede hacer? Seguramente sea capaz de hacer miles de cosas, ¿pero cómo sabes tú qué decir exactamente para que funcione? A veces se convierte en una especie de juego a las adivinanzas, y eso puede resultar frustrante para el usuario. Otra cosa que está muy limitada tiene que ver con el entendimiento del lenguaje natural, es decir, con la comprensión del contexto.Los ordenadores no tienen mucho sentido común. Cosas que pueden ser tremendamente obvias para una persona no las capta el sistema. Puede ser difícil tener conversaciones multiturno en las que el ordenador realmente se dé cuenta del contexto de lo que se ha dicho y de cómo eso influye en lo que haya que hacer a continuación. Hay proyectos que tratan de adivinar el estado de ánimo del usuario por su tono de voz", comparte Pearl.
Que va más allá "queda mucho para reconocer emociones. Por ejemplo, si estoy hablando contigo y te digo: "¿Por qué estás tan enfadado?" y tú me respondes: "¡No estoy enfadado!", a la máquina no le resultará evidente que sí lo estás. Captar esos matices no es sencillo, aunque sean determinantes en una conversación".
Finalmente se refiere a si tecnologías como la 5G ayudarán al desarrollo del reconocimiento de voz. "Quizás. Ahora hay algo de latencia cuando hablas con un sistema. A veces hay una pausa antes de recibir la respuesta que puede resultar desconcertante. Nuestras réplicas en las conversaciones suelen ser muy rápidas, en torno a 200 milisegundos, el equivalente a un pestañeo. Si te pregunto por ejemplo si me llevas mañana a un sitio y tardas más que eso en responder, un segundo, ya sé que la respuesta es no. Esa pausa contiene información importante que me estás diciendo de forma implícita. En la comunicación con las máquinas podemos llegar a pensar que van a decir que no, cuando en realidad lo único que pasa es que todavía son demasiado lentas", indicó El País.