Di lo que piensas, el implante que convierte las ondas cerebrales al habla. | Video.

Una interfaz cerebro-máquina de última generación creada por los neurocientíficos de la UC San Francisco puede generar un discurso sintético de sonido natural mediante el uso de la actividad cerebral para controlar un tracto vocal virtual: una simulación por computadora anatómicamente detallada que incluye los labios, la mandíbula, la lengua y la laringe.

El estudio se realizó en participantes de investigación con habla intacta, pero la tecnología podría algún día restaurar las voces de las personas que han perdido la capacidad de hablar debido a la parálisis y otras formas de daño neurológico.

El nuevo sistema que se está desarrollando en el laboratorio de Edward Chang , MD, demuestra que es posible crear una versión sintetizada de la voz de una persona que puede controlarse mediante la actividad de los centros del habla de su cerebro. En el futuro, este enfoque podría no solo restaurar la comunicación fluida a personas con discapacidades del habla severas, dicen los autores, sino que también podría reproducir parte de la musicalidad de la voz humana que transmite las emociones y la personalidad del hablante.

“Por primera vez, este estudio demuestra que podemos generar oraciones habladas completas basadas en la actividad cerebral de un individuo”, dijo Chang, profesor de cirugía neurológica y miembro del Instituto de Neurociencia Weill de la UCSF . “Esta es una prueba de principio estimulante de que con la tecnología que ya está a nuestro alcance, deberíamos poder construir un dispositivo que sea clínicamente viable en pacientes con pérdida del habla”.

El tracto vocal virtual mejora la síntesis del habla natural.

La investigación fue dirigida por Gopala Anumanchipalli , PhD, científico del habla, y Josh Chartier, un estudiante graduado en bioingeniería en el laboratorio Chang . Se basa en un estudio reciente en el que la pareja describió por primera vez cómo los centros del habla del cerebro humano coreografían los movimientos de los labios, la mandíbula, la lengua y otros componentes del tracto vocal para producir un habla fluida.

“La relación entre los movimientos del tracto vocal y los sonidos del habla que se producen es complicada”, dijo Anumanchipalli. “Razonamos que si estos centros de habla en el cerebro codifican movimientos en lugar de sonidos, deberíamos intentar hacer lo mismo para decodificar esas señales”.

En su nuevo estudio, Anumancipali y Chartier pidieron a cinco voluntarios que estaban siendo tratados en el Centro de Epilepsia de la UCSF (pacientes con habla intacta a los que se les habían implantado temporalmente electrodos en el cerebro para mapear la fuente de sus ataques en preparación para la neurocirugía) para leer varios cientos de oraciones en voz alta mientras los investigadores registraron la actividad de una región del cerebro que se sabe está involucrada en la producción del lenguaje.

Basados ​​en las grabaciones de audio de las voces de los participantes, los investigadores utilizaron principios lingüísticos para aplicar técnicas de ingeniería inversa a los movimientos del tracto vocal necesarios para producir esos sonidos: juntar los labios aquí, apretar las cuerdas vocales, mover la punta de la lengua al techo del Boca, luego relajarla, y así sucesivamente.

Este mapeo detallado del sonido a la anatomía permitió a los científicos crear un tracto vocal virtual realista para cada participante que podría ser controlado por su actividad cerebral. Esto comprendía dos algoritmos de aprendizaje automático de “red neuronal”: un decodificador que transforma los patrones de actividad cerebral producidos durante el habla en movimientos del tracto vocal virtual, y un sintetizador que convierte estos movimientos del tracto vocal en una aproximación sintética de la voz del participante.

Los investigadores hallaron que el discurso sintético producido por estos algoritmos era significativamente mejor que el discurso sintético descodificado directamente de la actividad cerebral de los participantes sin la inclusión de simulaciones de las partes vocales de los oradores. Los algoritmos produjeron oraciones que eran comprensibles para cientos de oyentes humanos en las pruebas de transcripción en colaboración realizadas en la plataforma Amazon Mechanical Turk.

Al igual que ocurre con el habla natural, los transcriptores tuvieron más éxito cuando recibieron listas más cortas de palabras para elegir, como sería el caso de los cuidadores que están preparados para los tipos de frases o solicitudes que los pacientes pueden pronunciar.

Los transcriptores identificaron con precisión el 69 por ciento de las palabras sintetizadas de las listas de 25 alternativas y transcribieron el 43 por ciento de las oraciones con perfecta precisión. Con 50 palabras más desafiantes para elegir, la precisión general de los transcriptores se redujo a 47 por ciento, aunque aún eran capaces de entender perfectamente el 21 por ciento de las oraciones sintetizadas.

“Todavía tenemos maneras de imitar perfectamente el lenguaje hablado”, reconoció Chartier. “Somos bastante buenos para sintetizar sonidos más lentos como ‘sh’ y ‘z’, así como para mantener los ritmos y las entonaciones del habla y el género y la identidad del hablante, pero algunos de los sonidos más abruptos como ‘b’s y’ p’s get un poco confuso, Aun así, los niveles de precisión que producimos aquí serían una mejora asombrosa en la comunicación en tiempo real en comparación con lo que está disponible actualmente”.

Referencia: Nature Science
Fuente: Instituto de Neurociencia Weill de UCSF

Deja un comentario

Ir arriba

Suscríbete para recibir nuevas actualizaciones biológicas y los avances más importantes del mundo científico.