Como a inteligência artificial devolveu a voz a uma mulher paralisada

Pesquisadores desenvolveram uma interface cérebro-computador (BCI) que permitiu que uma mulher com paralisia grave de um derrame cerebral falasse por meio de um avatar digital.

Créditos: UC San Francisco (UCSF)

É a primeira vez que a fala ou as expressões faciais são sintetizadas a partir de sinais cerebrais. O sistema também pode decodificar esses sinais em texto a quase 80 palavras por minuto, uma grande melhoria em relação à tecnologia disponível comercialmente.

Edward Chang, MD, presidente de cirurgia neurológica da UCSF, que trabalhou na tecnologia, conhecida como interface de computador cerebral, ou BCI, por mais de uma década, espera que este último avanço da pesquisa, publicado em 23 de agosto de 2023 na Nature, leve a um sistema aprovado pela FDA que permita a fala a partir de sinais cerebrais em um futuro próximo.

"Nosso objetivo é restaurar uma maneira completa e incorporada de se comunicar, que é realmente a maneira mais natural de falarmos com os outros", disse Chang, que é membro do Instituto Weill de Neurociência da UCSF e professor distinto de psiquiatria Jeanne Robertson. "Esses avanços nos aproximam muito mais de tornar essa uma solução real para os pacientes."

A equipe de Chang demonstrou anteriormente que era possível decodificar sinais cerebrais em texto em um homem que também havia sofrido um derrame no tronco cerebral muitos anos antes. O estudo atual demonstra algo mais ambicioso: decodificar sinais cerebrais na riqueza da fala, juntamente com os movimentos que animam o rosto de uma pessoa durante a conversa.

Chang implantou um retângulo fino de papel de 253 eletrodos na superfície do cérebro da mulher sobre áreas que sua equipe descobriu serem críticas para a fala. Os eletrodos interceptaram os sinais cerebrais que, se não fosse o AVC, teriam ido para os músculos dela, língua, mandíbula e laringe, além do rosto. Um cabo, conectado a uma porta fixada à sua cabeça, conectava os eletrodos a um banco de computadores.

Durante semanas, a participante trabalhou com a equipe para treinar os algoritmos de inteligência artificial do sistema para reconhecer seus sinais cerebrais únicos para a fala. Isso envolveu repetir frases diferentes de um vocabulário conversacional de 1.024 palavras várias vezes, até que o computador reconhecesse os padrões de atividade cerebral associados aos sons.

Em vez de treinar a IA para reconhecer palavras inteiras, os pesquisadores criaram um sistema que decodifica palavras de fonemas. Estas são as subunidades da fala que formam as palavras faladas da mesma forma que as letras formam as palavras escritas. "Olá", por exemplo, contém quatro fonemas: "HH", "AH", "L" e "OW".

Usando essa abordagem, o computador só precisava aprender 39 fonemas para decifrar qualquer palavra em inglês. Isso melhorou a precisão do sistema e o tornou três vezes mais rápido.

Publicado originalmente em Science Daily
Artigo do estudo: Nature

Postagem Anterior Próxima Postagem