Meta está trabajando hace rato para desarrollar modelos de inteligencia artificial más eficiente.
"El idioma es nuestra cultura, nuestra identidad y nuestro nexo con el mundo. Sin embargo, como hay cientos de idiomas que no cuentan con herramientas de traducción de alta calidad, en la actualidad, miles de millones de personas no pueden acceder al contenido digital ni participar plenamente en conversaciones y comunidades online en sus lenguas maternas o sus idiomas de preferencia", contaron desde Meta en un informe enviado a iProUP.
Para ayudar a las personas a conectarse mejor en la actualidad y a formar parte del metaverso del futuro, el equipo de investigación de Meta AI creó No Language Left Behind (NLLB), una iniciativa para el desarrollo de funciones de traducción automática de alta calidad que incluye la mayoría de los idiomas del mundo.
"Es impresionante cómo la IA está mejorando todos nuestros servicios. Acabamos de publicar en código abierto un modelo de inteligencia artificial que construimos y que puede traducir 200 idiomas diferentes, muchos de los cuales no son soportados por los sistemas de traducción actuales. Llamamos a este proyecto "No Language Left Behind", y las técnicas de modelado de IA que utilizamos nos están ayudando a realizar traducciones de alta calidad para idiomas hablados por miles de millones de personas en todo el mundo", comentó Mark Zuckerberg, Fundador y Director general de Meta.
Hoy, la empresa anuncia un importante avance en NLLB: desarrollaron un modelo único de IA llamado NLLB-200, que traduce 200 idiomas diferentes con resultados de primer nivel. Muchos de estos idiomas, como el kamba y el lao, no se admitían correctamente o no se admitían en lo absoluto en las herramientas de traducción que hay en la actualidad.
Hoy en día, menos de 25 idiomas africanos se admiten en las herramientas de traducción más utilizadas, muchas de las cuales son de baja calidad. En cambio, NLLB-200 admite 55 idiomas africanos con resultados de excelente calidad. Este modelo único puede proporcionar traducciones de alta calidad en idiomas hablados por miles de millones de personas en todo el mundo.
La empresa, además, aseguró que abrirá el código del modelo NLLB-200 y publicará una serie de herramientas de investigación para que otros investigadores puedan incluir más idiomas en este trabajo y crear tecnologías más inclusivas. Meta AI también proporcionará hasta u$s200.000 en subvenciones a organizaciones sin fines de lucro para usos reales del modelo NLLB-200.
Los avances en la investigación de NLLB ayudarán a que se proporcionen más de 25.000 millones de traducciones todos los días en la sección de noticias de Facebook, Instagram y el resto de nuestras plataformas. Imagina que visitas tu grupo favorito de Facebook, te encuentras con una publicación en igbo o luganda y puedes entenderlo en tu propio idioma con solo hacer clic en un botón.
Con la ayuda de traducciones bien precisas en más idiomas, se podría detectar contenido dañino e información errónea, proteger la integridad de las elecciones y frenar los casos de explotación sexual y trata de personas online. Las técnicas de modelado y los aprendizajes de nuestra investigación NLLB se están aplicando ahora también a los sistemas de traducción que utilizan los editores de Wikipedia.
"La traducción es una de las áreas más fascinantes de la IA por su impacto en la vida cotidiana de las personas. NLLB es mucho más que brindar a las personas un mejor acceso al contenido de internet. Facilitará que las personas hagan contribuciones y compartan información en todos los idiomas. Tenemos más trabajo por hacer, pero nos anima nuestro reciente progreso y cómo nos acerca a cumplir la misión de Meta", sumaron desde la empresa.
Facilitar herramientas de traducción a miles de millones de personas
Para desarrollar este modelo se asociaron con Wikimedia Foundation, la organización sin fines de lucro que alberga Wikipedia, para ayudar a mejorar los sistemas de traducción en Wikipedia.
Hay versiones de Wikipedia en más de 300 idiomas, pero la mayoría tienen muchos menos artículos que los más de 6 millones disponibles en inglés. Esta disparidad es muy grande para los idiomas que se hablan principalmente fuera de Europa y América del Norte.
Actualmente, los editores de Wikipedia usan la tecnología de NLLB-200 a través de la herramienta de traducción de contenido de Wikimedia Foundation, para traducir artículos en más de 20 idiomas de bajos recursos (aquellos que no cuentan con amplios conjuntos de datos para entrenar sistemas de IA), incluidos 10 que anteriormente no se admitían en ninguna herramienta de traducción automática en la plataforma.
Los desafíos de crear un modelo único para cientos de idiomas
Los sistemas de traducción automática, como todos los modelos de IA, se entrenan con datos. En el caso de los sistemas de traducción de textos, esto suele consistir en millones de frases cuidadosamente adaptadas de un idioma a otro. Pero no existen grandes volúmenes de frases paralelas entre, por ejemplo, el inglés y el fula.
Los modelos de traducción actuales intentan solucionar esta situación recopilando datos de internet. Sin embargo, los resultados suelen ser de baja calidad porque el texto de origen es diferente según cada idioma. Además, por lo general, se encuentran muchas formas de escribir incorrectas o incoherentes y faltan las tildes y otros signos diacríticos.
Otro desafío importante es optimizar un único modelo para que funcione en cientos de idiomas sin comprometer el rendimiento ni la calidad de la traducción. Tradicionalmente, la mejor calidad de traducción se logró con un modelo distinto para cada dirección lingüística. Pero es difícil ampliar este enfoque, ya que el rendimiento y la calidad de la traducción se perjudican a medida que se agregan más idiomas.
Los modelos de traducción también producen errores que pueden ser difíciles de detectar.
Estos sistemas se basan en las redes neuronales utilizadas para la generación de textos, por lo que pueden producir errores de forma natural, como alucinaciones (afirmar con seguridad algo como verdadero, aunque no lo sea), afirmaciones erróneas y contenido no seguro.
En general, simplemente hay menos puntos de referencia y conjuntos de datos en los idiomas de bajos recursos, lo que hace mucho más difícil probar y mejorar los modelos.
Traducción más amplia y mayor inclusión
"Las herramientas de traducción de alta calidad pueden ser transformadoras. La realidad actual es que unos pocos idiomas (como el inglés, el mandarín, el español y el árabe) dominan internet", comentaron desde la empresa .
Los hablantes nativos de estos idiomas tan extensos pueden perder la noción de lo significativo que es leer algo en su propia lengua materna: "Creemos que NLLB ayudará a preservar el idioma tal y como fue creado para comunicarse, en lugar de necesitar siempre un idioma intermedio que suele malinterpretar el sentimiento o el contenido".
También puede ayudar a avanzar en otras tareas de NLP, más allá de la traducción.
A medida que el metaverso empiece a tomar forma, la capacidad de crear tecnologías que funcionen bien en cientos o incluso miles de idiomas ayudará realmente a democratizar el acceso a nuevas experiencias envolventes en los mundos virtuales.
Hace apenas unos años, la traducción automática de alta calidad solo funcionaba en unos pocos idiomas.
"Con NLLB-200, estamos más cerca de contar algún día con sistemas que permitan a las personas comunicarse con quien quieran. Nos entusiasma lo que esto permite en el presente y lo que podría significar en el futuro, ya que seguimos ampliando los límites de las traducciones automáticas", concluyeron desde la compañía.