“Si la IA es útil en general, imagina para aquellos que tienen algún hándicap”

La IA aplicada y dirigida a ayudar a las personas. Esa es una de las grandes motivaciones del grupo de investigación VertexLit, liderado por el profesor del Campus de Alcoy de la UPV del departamento de Sistemas informáticos y computación, Jordi Linares.

El último reto –pionero, puesto que no se había hecho antes a nivel nacional– ha sido que un enfermo de ELA, en este caso, Fran Vivó, vecino de Benaguasil, recuperase su voz. Unos audios de WhatsApp fueron el punto de partida para que unas redes neuronales entrenadas en la clonación de voces, como si de un imitador se tratase.

– ¿Cómo surge la iniciativa?
– En el grupo de investigación trabajamos en el tema de la IA desde hace años, y siempre nos gusta aplicarla para ayudar a las personas, que puedan llevar a cabo sus tareas, en la educación, personas con necesidades especiales…Esa es nuestra motivación y tenemos caso de éxito interesantes.

Si la IA es útil en general, imagina para aquellos que tienen algún hándicap o diversidad funcional, es un beneficio notable.

Barret Cooperativa Valenciana está haciendo un documental a Fran Vivó, sobre su caso y lo que es la ELA, lo que supone esta enfermedad. Fueron ellos los que dijeron de tratar de recuperar su voz, y contactaron con la UPV. Cuando recibimos el reto dijimos, vamos a intentarlo.

– ¿Qué suponía este reto?
– Fran es de Benaguasil, por lo que no solo habla castellano, si no valenciano, y valenciano de Benaguasil, propio.

Había muy poco registrado, básicamente unas conversaciones por WhatsApp. Lo cogimos incluso de forma personal. En dos o tres meses teníamos la tarea.

Es interesante porque no teníamos mucho audio, hay modelos de IA que nos permiten clonar voces, pero queríamos clonar muy bien la voz de Fran, en cuanto prosodia, las emociones, y por supuesto, el reto del valenciano de Benaguasil. Gastamos todos nuestros recursos y conocimientos en el campo y creamos lo que ya tiene la familia, que es una herramienta web.

– ¿De qué forma funciona esa herramienta?
– Al principio era con control ocular de Fran, pero está en una fase muy profunda de la ELA. Su padre es el que mejor le comprende y es el que se encarga de sacar el texto.

Se escribe el texto y nosotros hacemos una estimación de inyección de emociones y la traducción al valenciano, después ellos, en esa aplicación, pueden cambiar algunos matices o elementos y generar audio sin límite.

Intentamos que cada vez el audio tenga una característica diferente para que ellos puedan elegir cual se adecúa más a Fran.

Ese audio se puede descargar, enviarlo a la familia, e incluso escucharlo el propio Fran, que para él, según dice su padre y su madre, ha resultado muy emotivo.

– Previamente, ¿cómo se han trabajado los audios de los que se disponía?
– Hacemos un proceso de limpieza para asegurarnos que solo está esa voz, porque a veces hay conversaciones cruzadas. Cuanto más audio hay, le da más riqueza.

Aquí gastamos redes neuronales que ya están pre entrenadas en esa capacidad de clonar voces, es decir, ya han escuchado mucha voz humana y tiene esa habilidad de coger patrones de una voz en concreto. A partir de ahí, ya en función de lo que se quiera decir, se analiza el texto, intentamos etiquetar las frases de forma semántica, tratamos de que la IA haga una predicción de qué emoción tiene que inyectar a esa frase, a esa sección del texto, si alegría, entusiasmo, tristeza…

– Este proyecto abre un abanico de posibilidades, ¿hay un siguiente paso previsto?
– Ahora el objetivo es escalar el proyecto. Ha habido un aluvión de asociaciones de enfermos de ELA, colectivos también afectados por ictus o otros problemas por los que han perdido la voz.

El caso de Fran y su familia está ayudando a sensibilizar un poco.

La idea es que de alguna manera y si obtenemos la financiación necesaria, la gente pueda hacerlo con independencia nuestra, hacer un sistema que coja los audios y lo haga.

>>Puede leer la entrevista completa en El Nostre del 5 de diciembre.