首次實(shí)現(xiàn)漢語實(shí)時(shí)腦機(jī)解碼!上海團(tuán)隊(duì)攻克聲調(diào)語言腦信號(hào)翻譯難題-肽度TIMEDOO

近日,來自上海的研究團(tuán)隊(duì)在 Science Advances 發(fā)表最新成果:他們成功利用腦機(jī)接口(Brain-Computer Interface, BCI)系統(tǒng),實(shí)現(xiàn)了對(duì)漢語普通話的實(shí)時(shí)語言解碼——這是全球首例針對(duì)聲調(diào)語言的腦機(jī)實(shí)時(shí)譯碼研究。令人驚喜的是,受試者不僅能通過腦信號(hào)輸出漢語語句,還能控制機(jī)械臂、數(shù)字化身,并與大語言模型互動(dòng)。

腦機(jī)接口:為失語患者“讀心”發(fā)聲

盡管“讀心”技術(shù)聽上去有些科幻,但對(duì)于那些因神經(jīng)系統(tǒng)疾?。ㄈ缰酗L(fēng)或肌萎縮側(cè)索硬化癥,ALS)而失語的患者,腦機(jī)接口提供了一條全新的溝通途徑。通過解碼大腦皮層中的神經(jīng)信號(hào),BCI系統(tǒng)可以將腦活動(dòng)“翻譯”成語音或文字,幫助患者重新獲得交流能力。

目前,國際上多數(shù)BCI語音解碼研究集中在英語等非聲調(diào)語言。這種研究通常聚焦于大腦的腹側(cè)感覺運(yùn)動(dòng)皮層(ventral sensorimotor cortex),該區(qū)域負(fù)責(zé)控制發(fā)音運(yùn)動(dòng)。科學(xué)家可將該區(qū)域的神經(jīng)信號(hào)轉(zhuǎn)化為離散的語言單元或發(fā)音參數(shù),再合成為語音或文字,從而恢復(fù)患者的溝通能力。

漢語的挑戰(zhàn):聲調(diào)與同音字的“噪音”

然而,普通話的腦機(jī)解碼難度要遠(yuǎn)高于英語。漢語是聲調(diào)性單音節(jié)語言,具有大量同音詞和復(fù)雜的音調(diào)變化,這使得神經(jīng)信號(hào)的區(qū)分更加困難。以往的研究多能識(shí)別少量音節(jié)或聲調(diào),但尚未實(shí)現(xiàn)覆蓋全部音節(jié)、實(shí)時(shí)輸出的系統(tǒng)。

此次研究的突破得益于一項(xiàng)臨床合作??蒲袌F(tuán)隊(duì)在一名43歲的癲癇患者臨床監(jiān)測(cè)過程中,植入了一塊256通道高密度皮層腦電圖(ECoG)陣列,連續(xù)記錄了11天的語言相關(guān)腦信號(hào)。受試者完成了包括單字朗讀與句子閱讀在內(nèi)的任務(wù),研究團(tuán)隊(duì)還引入了**三元漢語語言模型(3-gram Mandarin language model)**以提升句子解碼的準(zhǔn)確性。

實(shí)時(shí)解碼與交互:從腦信號(hào)到語言

結(jié)果顯示,ECoG信號(hào)揭示了音節(jié)與聲調(diào)在大腦中的不同神經(jīng)表征。系統(tǒng)在單字任務(wù)中達(dá)到了71.2%的音節(jié)識(shí)別準(zhǔn)確率;結(jié)合語言模型的實(shí)時(shí)句子解碼準(zhǔn)確率達(dá)73.1%,信息傳遞速率約為每分鐘49.7個(gè)漢字。

論文作者指出,這一成果得益于“高密度、超貼合ECoG陣列與以音節(jié)為中心的解碼框架(syllable-centric decoding framework)相結(jié)合”。這種設(shè)計(jì)使得研究團(tuán)隊(duì)能夠在無需語言學(xué)后處理的情況下,僅通過神經(jīng)特征成功區(qū)分394個(gè)漢語聲調(diào)音節(jié)

首次實(shí)現(xiàn)漢語實(shí)時(shí)腦機(jī)解碼!上海團(tuán)隊(duì)攻克聲調(diào)語言腦信號(hào)翻譯難題-肽度TIMEDOO

展望未來:從單例驗(yàn)證到普適應(yīng)用

盡管成果顯著,研究團(tuán)隊(duì)也指出當(dāng)前工作仍有局限:實(shí)驗(yàn)僅基于一位受試者,電極覆蓋范圍也受到臨床監(jiān)測(cè)需求限制,尚未囊括所有與聲調(diào)加工相關(guān)的腦區(qū)。

未來,研究人員計(jì)劃進(jìn)一步擴(kuò)展研究對(duì)象,提升系統(tǒng)的普適性與穩(wěn)定性。他們認(rèn)為,除了改進(jìn)硬件與算法外,擴(kuò)大腦區(qū)信號(hào)采集范圍將是下一階段的重要方向。未來的BCI系統(tǒng)可能不僅利用運(yùn)動(dòng)與前運(yùn)動(dòng)皮層信號(hào),還會(huì)整合中顳回、下額回及緣上回等更高層次語言處理區(qū)的活動(dòng),從而融合語義與句法信息,構(gòu)建出更穩(wěn)定、更精準(zhǔn)的語音解碼系統(tǒng)。

這項(xiàng)研究不僅為聲調(diào)語言的腦機(jī)解碼奠定了技術(shù)基礎(chǔ),也為失語癥、腦卒中及神經(jīng)退行性疾病患者的溝通重建帶來了新的希望。

參考文獻(xiàn):Youkun Qian et al, Real-time decoding of full-spectrum Chinese using brain-computer interface,?Science Advances?(2025).?DOI: 10.1126/sciadv.adz9968

編輯:王洪

排版:李麗