“Si la IA és útil en general, imagina per a aquells que tenen algun hàndicap”
Entrevista a Jordi Linares, professor del Campus d'Alcoi de la UPV
La IA aplicada i dirigida a ajudar a les persones. Eixa és una de les grans motivacions del grup d’investigació VertexLit, liderat pel professor del Campus d’Alcoi de la UPV del departament de Sistemes informàtics i computació, Jordi Linares.
L’últim repte –pioner, ja que no s’havia fet abans a nivell nacional– ha sigut que un malalt d’ELA, en aquest cas, Fran Vivó, veí de Benaguasil, recuperara la seua veu. Uns àudios de WhatsApp van ser el punt de partida perquè unes xarxes neuronals entrenades en la clonació de veus, com si d’un imitador es tractara.
– Com sorgeix la iniciativa?
– En el grup d’investigació treballem en el tema de la IA des de fa anys, i sempre ens agrada aplicar-la per a ajudar a les persones, que puguen dur a terme les seues tasques, en l’educació, persones amb necessitats especials…Eixa és la nostra motivació i tenim cas d’èxit interessants.
Si la IA és útil en general, imagina per a aquells que tenen algun hàndicap o diversitat funcional, és un benefici notable.
Barret Cooperativa Valenciana està fent un documental a Fran Vivó, sobre el seu cas i el que és l’ELA, la qual cosa suposa aquesta malaltia. Van ser ells els que van dir de tractar de recuperar la seua veu, i van contactar amb la UPV. Quan rebem el repte vam dir, l’intentarem.
– Què suposava aquest repte?
– Fran és de Benaguasil, per la qual cosa no sols parla castellà, si no valencià, i valencià de Benaguasil, propi.
Hi havia molt poc registrat, bàsicament unes converses per WhatsApp. Ho vam agafar fins i tot de manera personal. En dos o tres mesos teníem la tasca.
És interessant perquè no teníem molt d’àudio, hi ha models d’IA que ens permeten clonar veus, però volíem clonar molt bé la veu de Fran, com a prosòdia, les emocions, i per descomptat, el repte del valencià de Benaguasil. Gastem tots els nostres recursos i coneixements en el camp i creem el que ja té la família, que és una eina web.
– De quina forma funciona eixa eina?
– Al principi era amb control ocular de Fran, però està en una fase molt profunda de l’ELA. El seu pare és el que millor li comprén i és el que s’encarrega de traure el text.
S’escriu el text i nosaltres fem una estimació d’injecció d’emocions i la traducció al valencià, després ells, en eixa aplicació, poden canviar alguns matisos o elements i generar àudio sense límit.
Intentem que cada vegada l’àudio tinga una característica diferent perquè ells puguen triar com s’adequa més a Fran.
Eixe àudio es pot descarregar, enviar-lo a la família, i fins i tot escoltar-lo el mateix Fran, que per a ell, segons diu el seu pare i la seua mare, ha resultat molt emotiu.
– Prèviament, com s’han treballat els àudios dels quals es disposava?
– Fem un procés de neteja per a assegurar-nos que només està eixa veu, perquè a vegades hi ha converses creuades. Com més àudio hi ha, li dona més riquesa.
Ací gastem xarxes neuronals que ja estan pre entrenades en eixa capacitat de clonar veus, és a dir, ja han escoltat molta veu humana i té eixa habilitat d’agafar patrons d’una veu en concret. A partir d’ací, ja en funció del que es vulga dir, s’analitza el text, intentem etiquetar les frases de manera semàntica, tractem que la IA faça una predicció de quina emoció ha d’injectar a eixa frase, a eixa secció del text, si alegria, entusiasme, tristesa…
– Aquest projecte obri un ventall de possibilitats, hi ha un següent pas previst?
– Ara l’objectiu és escalar el projecte. Hi ha hagut un al·luvió d’associacions de malalts d’ELA, col·lectius també afectats per ictus o altres problemes pels quals han perdut la veu.
El cas de Fran i la seua família està ajudant a sensibilitzar un poc.
La idea és que d’alguna manera i si obtenim el finançament necessari, la gent puga fer-ho amb independència nostra, fer un sistema que agafe els àudios i el faça.
>>Pot llegir l’entrevista completa en El Nostre del 5 de desembre.