Una interfaz cerebro-mรกquina de รบltima generaciรณn creada por los neurocientรญficos de la UC San Francisco puede generar un discurso sintรฉtico de sonido natural mediante el uso de la actividad cerebral para controlar un tracto vocal virtual: una simulaciรณn por computadora anatรณmicamente detallada que incluye los labios, la mandรญbula, la lengua y la laringe.
El estudio se realizรณ en participantes de investigaciรณn con habla intacta, pero la tecnologรญa podrรญa algรบn dรญa restaurar las voces de las personas que han perdido la capacidad de hablar debido a la parรกlisis y otras formas de daรฑo neurolรณgico.
El nuevo sistema que se estรก desarrollando en el laboratorio deย Edward Changย , MD, demuestra que es posible crear una versiรณn sintetizada de la voz de una persona que puede controlarse mediante la actividad de los centros del habla de su cerebro.ย En el futuro, este enfoque podrรญa no solo restaurar la comunicaciรณn fluida a personas con discapacidades del habla severas, dicen los autores, sino que tambiรฉn podrรญa reproducir parte de la musicalidad de la voz humana que transmite las emociones y la personalidad del hablante.
“Por primera vez, este estudio demuestra que podemos generar oraciones habladas completas basadas en la actividad cerebral de un individuo”, dijo Chang, profesor de cirugรญa neurolรณgica y miembro delย Instituto de Neurociencia Weillย de laย UCSFย .ย “Esta es una prueba de principio estimulante de que con la tecnologรญa que ya estรก a nuestro alcance, deberรญamos poder construir un dispositivo que sea clรญnicamente viable en pacientes con pรฉrdida del habla”.
El tracto vocal virtual mejora la sรญntesis del habla natural.
La investigaciรณn fue dirigida porย Gopala Anumanchipalliย , PhD, cientรญfico del habla, y Josh Chartier, un estudiante graduado en bioingenierรญa en elย laboratorio Changย .ย Se basa en unย estudio recienteย en el que la pareja describiรณ por primera vez cรณmo los centros del habla del cerebro humano coreografรญan los movimientos de los labios, la mandรญbula, la lengua y otros componentes del tracto vocal para producir un habla fluida.
“La relaciรณn entre los movimientos del tracto vocal y los sonidos del habla que se producen es complicada”, dijo Anumanchipalli.ย “Razonamos que si estos centros de habla en el cerebro codifican movimientos en lugar de sonidos, deberรญamos intentar hacer lo mismo para decodificar esas seรฑales”.
En su nuevo estudio, Anumancipali y Chartier pidieron a cinco voluntarios que estaban siendo tratados en elย Centro de Epilepsia deย laย UCSFย (pacientes con habla intacta a los que se les habรญan implantado temporalmente electrodos en el cerebro para mapear la fuente de sus ataques en preparaciรณn para la neurocirugรญa) para leer varios cientos de oraciones en voz alta mientras los investigadores registraron la actividad de una regiรณn del cerebro que se sabe estรก involucrada en la producciรณn del lenguaje.
Basados โโen las grabaciones de audio de las voces de los participantes, los investigadores utilizaron principios lingรผรญsticos para aplicar tรฉcnicas de ingenierรญa inversa a los movimientos del tracto vocal necesarios para producir esos sonidos: juntar los labios aquรญ, apretar las cuerdas vocales, mover la punta de la lengua al techo del Boca, luego relajarla, y asรญ sucesivamente.
Este mapeo detallado del sonido a la anatomรญa permitiรณ a los cientรญficos crear un tracto vocal virtual realista para cada participante que podrรญa ser controlado por su actividad cerebral.ย Esto comprendรญa dos algoritmos de aprendizaje automรกtico de “red neuronal”: un decodificador que transforma los patrones de actividad cerebral producidos durante el habla en movimientos del tracto vocal virtual, y un sintetizador que convierte estos movimientos del tracto vocal en una aproximaciรณn sintรฉtica de la voz del participante.
Los investigadores hallaron que el discurso sintรฉtico producido por estos algoritmos era significativamente mejor que el discurso sintรฉtico descodificado directamente de la actividad cerebral de los participantes sin la inclusiรณn de simulaciones de las partes vocales de los oradores.ย Los algoritmos produjeron oraciones que eran comprensibles para cientos de oyentes humanos en las pruebas de transcripciรณn en colaboraciรณn realizadas en la plataforma Amazon Mechanical Turk.
Al igual que ocurre con el habla natural, los transcriptores tuvieron mรกs รฉxito cuando recibieron listas mรกs cortas de palabras para elegir, como serรญa el caso de los cuidadores que estรกn preparados para los tipos de frases o solicitudes que los pacientes pueden pronunciar.
Los transcriptores identificaron con precisiรณn el 69 por ciento de las palabras sintetizadas de las listas de 25 alternativas y transcribieron el 43 por ciento de las oraciones con perfecta precisiรณn.ย Con 50 palabras mรกs desafiantes para elegir, la precisiรณn general de los transcriptores se redujo a 47 por ciento, aunque aรบn eran capaces de entender perfectamente el 21 por ciento de las oraciones sintetizadas.
“Todavรญa tenemos maneras de imitar perfectamente el lenguaje hablado”, reconociรณ Chartier.ย “Somos bastante buenos para sintetizar sonidos mรกs lentos como ‘sh’ y ‘z’, asรญ como para mantener los ritmos y las entonaciones del habla y el gรฉnero y la identidad del hablante, pero algunos de los sonidos mรกs abruptos como ‘b’s y’ p’s get un poco confuso,ย Aun asรญ, los niveles de precisiรณn que producimos aquรญ serรญan una mejora asombrosa en la comunicaciรณn en tiempo real en comparaciรณn con lo que estรก disponible actualmente”.
