La investigadora Marta Ruiz Costa-Jussà ha sido distinguida con la ayuda Starting Grant del European Research Council (ERC) para explorar nuevos métodos de traducción automática de texto y voz. Con el proyecto LUNAR estudiará un sistema de traducción automática más eficiente que los actuales que ofrezca cualidades similares para lenguas mayoritarias y minoritarias.
Hace años que las nuevas tecnologías han suplantado la función de los diccionarios y la han mejorado, ofreciendo consultas mucho más rápidas y completas. Del mismo modo, miles de traductores han visto como su profesión se ha transformado los últimos años. Se ha automatizado el proceso más pesado y farragoso de traducir largos textos y el talento humano se focaliza ahora en aspectos más técnicos y abstractos del lenguaje, de momento difíciles de comprender por las máquinas.
Los softwares de traducción automática están en todas partes y hacen posible un acercamiento cultural sin precedentes, convirtiendo de forma casi instantánea textos y voz entre cientos de idiomas. No obstante, aún hay mucho margen de mejora.
El proyecto LUNAR
Recientemente, la investigadora Marta Ruiz Costa-Jussà, del Departamento de Ciencias de la Computación de la Universitat Politècnica de Catalunya (UPC), ha ganado una ayuda de 1,5 millones de euros del Consejo Europeo de Investigación (ERC, por sus siglas en inglés) para desarrollar una investigación en esta línea. Ruiz Costa-Jussà ha coordinado con éxito otros proyectos nacionales e internacionales y ha recibido varios galardones como los Google Faculty Research Awards de 2018 y 2019.
Con el proyecto Lifelong UNiversal lAnguage Representation – LUNAR se investigarán varias mejoras en los sistemas neuronales en que se basa la traducción automática desde el año 2014. Este sistema, basado en el aprendizaje profundo (del inglés deep learning), dejó atrás los sistemas de reglas y estadístico en que se basaba anteriormente. Los sistemas de reglas necesitaban miles de reglas y enormes diccionarios. Los sistemas estadísticos necesitaban bancos de traducciones para cada uno de los idiomas (dependencia cuadrática). Aunque los sistemas neuronales también tienen esta dependencia con los bancos de traducciones, ofrecen una alternativa a partir de la cual el sistema neuronal establece un idioma intermedio (como si fuera una especie de esperanto de naturaleza matemática) hacia el cual y a partir del cual pasan todas las traducciones. De esta forma, todo el proceso es más ágil (se pasa a una dependencia lineal) y de mejor calidad, al poderse concentrar todos los esfuerzos en la codificación y decodificación de este idioma intermedio.
Sin embargo, este método –que es el que usan los gigantes de la traducción automática– presenta actualmente algún inconveniente. Por ejemplo, al disponer de un único codificador y decodificador universal, los idiomas que han alimentado el sistema con menos recursos se ven incapaces de obtener traducciones tan ricas como las que obtienen los idiomas con más recursos. Se trata de lenguas minoritarias, o bien endémicas de zonas remotas donde no se ha producido una informatización completa del idioma.
Inclusividad idiomática y traducción de voz
Concretamente, el proyecto LUNAR estudiará una solución al problema de los idiomas infrarrepresentados en las bases de datos de textos y audios que alimentan el sistema. Estableciendo codificadores y decodificadores específicos para cada idioma, el objetico es que la traducción desde el lenguaje intermedio sea lo más rica y completa posible en cualquier idioma.
Por otro lado, el proyecto LUNAR hará posible que este sistema también funcione en la traducción automática de voz. Este aspecto será sin duda uno de los más destacados ya que conseguirlo con éxito supondría un gran avance en este campo de investigación (es una funcionalidad que ni los gigantes de la traducción automática aún no han podido aplicar).
La ética en los sistemas de traducción automática
Finalmente, desde el proyecto LUNAR se toma conciencia de los sesgos en las traducciones automáticas actuales. Se trata del sesgo geopolítico, que consiste en la infrarrepresentación de lenguas como las africanas o las asiáticas que, como se ha mencionado, resulta en peores traducciones desde estos idiomas; el sesgo de género, que se absorbe inevitablemente de los textos y audios a partir de los cuales se alimenta el sistema y que implican que, por ejemplo, la palabra neutra inglesa “nurse” siempre se traduzca en femenino y “doctor” en masculino; y el sesgo corporativo, provocado por el hecho que muchos de estos datos provienen de grandes que de alguna forma influyen en el rango de vocabulario y el tipo de información empleada por el sistema. Los resultados de LUNAR no ignorarán estos sesgos, sino que en la medida de lo posible se reportarán y se mitigarán.