Una interfaz cerebro-máquina de última generación creada por los neurocientÃficos de la UC San Francisco puede generar un discurso sintético de sonido natural mediante el uso de la actividad cerebral para controlar un tracto vocal virtual: una simulación por computadora anatómicamente detallada que incluye los labios, la mandÃbula, la lengua y la laringe.
El estudio se realizó en participantes de investigación con habla intacta, pero la tecnologÃa podrÃa algún dÃa restaurar las voces de las personas que han perdido la capacidad de hablar debido a la parálisis y otras formas de daño neurológico.
El nuevo sistema que se está desarrollando en el laboratorio de Edward Chang , MD, demuestra que es posible crear una versión sintetizada de la voz de una persona que puede controlarse mediante la actividad de los centros del habla de su cerebro. En el futuro, este enfoque podrÃa no solo restaurar la comunicación fluida a personas con discapacidades del habla severas, dicen los autores, sino que también podrÃa reproducir parte de la musicalidad de la voz humana que transmite las emociones y la personalidad del hablante.
«Por primera vez, este estudio demuestra que podemos generar oraciones habladas completas basadas en la actividad cerebral de un individuo», dijo Chang, profesor de cirugÃa neurológica y miembro del Instituto de Neurociencia Weill de la UCSF . «Esta es una prueba de principio estimulante de que con la tecnologÃa que ya está a nuestro alcance, deberÃamos poder construir un dispositivo que sea clÃnicamente viable en pacientes con pérdida del habla».
El tracto vocal virtual mejora la sÃntesis del habla natural.
La investigación fue dirigida por Gopala Anumanchipalli , PhD, cientÃfico del habla, y Josh Chartier, un estudiante graduado en bioingenierÃa en el laboratorio Chang . Se basa en un estudio reciente en el que la pareja describió por primera vez cómo los centros del habla del cerebro humano coreografÃan los movimientos de los labios, la mandÃbula, la lengua y otros componentes del tracto vocal para producir un habla fluida.
«La relación entre los movimientos del tracto vocal y los sonidos del habla que se producen es complicada», dijo Anumanchipalli. «Razonamos que si estos centros de habla en el cerebro codifican movimientos en lugar de sonidos, deberÃamos intentar hacer lo mismo para decodificar esas señales».
En su nuevo estudio, Anumancipali y Chartier pidieron a cinco voluntarios que estaban siendo tratados en el Centro de Epilepsia de la UCSF (pacientes con habla intacta a los que se les habÃan implantado temporalmente electrodos en el cerebro para mapear la fuente de sus ataques en preparación para la neurocirugÃa) para leer varios cientos de oraciones en voz alta mientras los investigadores registraron la actividad de una región del cerebro que se sabe está involucrada en la producción del lenguaje.
Basados ​​en las grabaciones de audio de las voces de los participantes, los investigadores utilizaron principios lingüÃsticos para aplicar técnicas de ingenierÃa inversa a los movimientos del tracto vocal necesarios para producir esos sonidos: juntar los labios aquÃ, apretar las cuerdas vocales, mover la punta de la lengua al techo del Boca, luego relajarla, y asà sucesivamente.
Este mapeo detallado del sonido a la anatomÃa permitió a los cientÃficos crear un tracto vocal virtual realista para cada participante que podrÃa ser controlado por su actividad cerebral. Esto comprendÃa dos algoritmos de aprendizaje automático de «red neuronal»: un decodificador que transforma los patrones de actividad cerebral producidos durante el habla en movimientos del tracto vocal virtual, y un sintetizador que convierte estos movimientos del tracto vocal en una aproximación sintética de la voz del participante.
Los investigadores hallaron que el discurso sintético producido por estos algoritmos era significativamente mejor que el discurso sintético descodificado directamente de la actividad cerebral de los participantes sin la inclusión de simulaciones de las partes vocales de los oradores. Los algoritmos produjeron oraciones que eran comprensibles para cientos de oyentes humanos en las pruebas de transcripción en colaboración realizadas en la plataforma Amazon Mechanical Turk.
Al igual que ocurre con el habla natural, los transcriptores tuvieron más éxito cuando recibieron listas más cortas de palabras para elegir, como serÃa el caso de los cuidadores que están preparados para los tipos de frases o solicitudes que los pacientes pueden pronunciar.
Los transcriptores identificaron con precisión el 69 por ciento de las palabras sintetizadas de las listas de 25 alternativas y transcribieron el 43 por ciento de las oraciones con perfecta precisión. Con 50 palabras más desafiantes para elegir, la precisión general de los transcriptores se redujo a 47 por ciento, aunque aún eran capaces de entender perfectamente el 21 por ciento de las oraciones sintetizadas.
«TodavÃa tenemos maneras de imitar perfectamente el lenguaje hablado», reconoció Chartier. «Somos bastante buenos para sintetizar sonidos más lentos como ‘sh’ y ‘z’, asà como para mantener los ritmos y las entonaciones del habla y el género y la identidad del hablante, pero algunos de los sonidos más abruptos como ‘b’s y’ p’s get un poco confuso, Aun asÃ, los niveles de precisión que producimos aquà serÃan una mejora asombrosa en la comunicación en tiempo real en comparación con lo que está disponible actualmente».