SANTO DOMINGO, República Dominicana.- Stephen Hawking, el científico más famoso de finales del siglo XX y comienzos del siglos XXI, usaba un único músculo no atrofiado para pulsar teclas que una computadora sintetizaba para leer lo que decía y hablar. Ya ni siquiera ese único músculo será necesario con el nuevo sistema que, sin embargo, aún está en fase de experimentación.
Este sistema, revelado a finales del mes pasado en la revista científica Nature, descifra los comandos de motricidad del cerebro que guían el movimiento vocal cuando hablamos —como la dirección de la lengua o qué tanto pegamos los labios— y genera oraciones inteligibles que se aproximen a la cadencia natural de un hablante.
Síntesis del habla a partir de decodificación neural de oraciones habladas. Así se traduce el estudio, que admite que aún es un proyecto que requiere de mucho mayor desarrollo antes de convertirse en el futuro en un recurso útil efectivo para personas con lesiones neurológicas, como apoplejías.
“La tecnología que traduce la actividad neuronal al habla sería transformadora para las personas que no pueden comunicarse como resultado de discapacidades neurológicas. Decodificar el habla a partir de la actividad neuronal es un desafío porque el habla requiere un control multidimensional muy preciso y rápido de los articuladores del tracto vocal”, se lee en el este trabajo científico.
“Aquí diseñamos –prosigue- un decodificador neural que aprovecha explícitamente las representaciones cinemáticas y de sonido codificadas en la actividad cortical humana para sintetizar el habla audible. Las redes neuronales recurrentes primero decodificaron directamente la actividad cortical grabada directamente en representaciones del movimiento articulatorio, y luego transformaron estas representaciones en acústica del habla”.
La University de California, campus San Francisco, ha hecho un vídeo para graficar mejor este trabajo de sus científicos:
Bajo el título “La nueva tecnología es un trampolín para una prótesis de habla neural, según los investigadores”, la universidad explicó que se trata de una “interfaz cerebro-máquina de última generación que puede generar un discurso sintético de sonido natural mediante el uso de la actividad cerebral para controlar un tracto vocal virtual: una simulación por computadora anatómicamente detallada que incluye los labios, la mandíbula, la lengua y la laringe”.
El accidente cerebrovascular, la lesión cerebral traumática y las enfermedades neurodegenerativas como la enfermedad de Parkinson, la esclerosis múltiple y la esclerosis lateral amiotrófica (ELA o enfermedad de Lou Gehrig) a menudo causan una pérdida irreversible de la capacidad para hablar.
Algunas personas con discapacidades del habla severas aprenden a deletrear sus pensamientos letra por letra utilizando dispositivos de asistencia que rastrean movimientos oculares muy pequeños o músculos faciales.
“Sin embargo, producir texto o voz sintetizada con tales dispositivos es laborioso, propenso a errores y dolorosamente lento, generalmente permitiendo un máximo de 10 palabras por minuto, en comparación con las 100 a 150 palabras por minuto de voz natural”, destaca la UC.
El autor principal del estudio, Edward Chang, MD, ha estado estudiando cómo el cerebro produce y analiza el habla durante más de una década y tiene como objetivo desarrollar una prótesis de habla para restaurar las voces de las personas que han perdido el habla por parálisis y otras formas de daño neurológico.
La investigación en sí fue dirigida por Gopala Anumanchipalli, PhD, científico del habla, y Josh Chartier, un estudiante graduado en bioingeniería en el laboratorio Chang.
Anumanchipalli y Chartier se dieron cuenta de que los intentos anteriores para decodificar directamente el habla a partir de la actividad cerebral podrían haber tenido un éxito limitado debido a que estas regiones del cerebro no representan directamente las propiedades acústicas de los sonidos del habla, sino las instrucciones necesarias para coordinar los movimientos del cerebro.
Este mapeo detallado del sonido a la anatomía permitió a los científicos crear un tracto vocal virtual realista para cada participante que podría ser controlado por su actividad cerebral.
Esto comprendía dos algoritmos de aprendizaje automático de "red neuronal": un decodificador que transforma los patrones de actividad cerebral producidos durante el habla en movimientos del tracto vocal virtual, y un sintetizador que convierte estos movimientos del tracto vocal en una aproximación sintética de la voz del participante.
Los investigadores hallaron que el discurso sintético producido por estos algoritmos era significativamente mejor que el discurso sintético descodificado directamente de la actividad cerebral de los participantes sin la inclusión de simulaciones de las partes vocales de los oradores. Los algoritmos produjeron oraciones que eran comprensibles para cientos de oyentes humanos en las pruebas de transcripción.