大腦通過識別音節來分析口語。日內瓦大學(UNIGE)和不斷發展的語言國家能力研究中心(NCCR)的科學家設計了一種計算模型,該模型再現了中樞神經系統執行此操作的複雜機制539必中法。該模型將兩個獨立的台灣娛樂城理論框架使用腦活動產生的神經元振動的等效物來處理所連接語音的連續聲流。該模型根據稱為預測編碼的理論運行,從而大腦通過不斷嘗試根據候選假設(此模型中的音節)預測感覺信號來優化感知。生成的模型,在日記中有地下539包牌描述 自然通訊。,幫助實時識別以自然語言說出的數百個句子中包含的數千個音節。這已經證實了這樣的想法,即神經元振動可以用來協調我們聽到的音節的流動與大腦的預測。
“大腦活動會產生可通過腦電圖測量的神經元振盪,” UNIGE醫學院基礎神經科學系教授,不斷發展的語言NCCR聯合主任Anne-Lise Giraud開始說。這些是電磁波,是由整個神經元網絡的相干電活動產生的。有幾種類型,根據它們的頻率定義。它們被稱為α,β,θ,δ或γ波。這些節奏單獨或疊加在一起,與不同的認知功能相關,例如感知,記憶,注意力,機敏性等。
但是,神經科學家尚不知道他們是否積極參與這些功能以及如何發揮作用。在2015年發表的一項較早的研究中,吉拉德(Giraud)教授的研究小組表明,θ波(低頻)和gamma波(高頻)相互配合,對音節中的音流進行排序,並分析其內容,以便對其進行識別。
總部位於日內瓦的科學家基於這些生理節律開發了一種突跳的神經網絡計算機模型,該模型在現場(在線)音節排序方面的性能優於傳統的自動語音識別系統。
目錄
音節的節奏
在他們的第一個模型中,theta波(介於4赫茲和8赫茲之間)使跟隨音節的音節節奏成為可能。炫海娛樂城系統。伽馬波(大約30赫茲)用於將聽覺信號切成較小的切片並進行編碼。這會產生一個鏈接到每個聲音序列的“音素”配置文件,可以將它與後驗音源與已知音節庫進行比較。這種類型的模型的優點之一是,它可以自發地適應語音速度,語音速度可能因人而異。
預測編碼
在這篇新文章中,為了更接近生物學現實,Giraud教授及其團隊開發了一種新模型,其中結合了來自另一個理論框架的元素,而與神經元振盪無關:“預測編碼”。 “該理論認為,大腦的功能是如此之好,因為它一直在嘗試使用已學習的外界事件如何產生感覺信號的模型來預測和解釋環境中正在發生的事情。就口頭語言而言,它會根據已學到並會不斷更新的一系列心理表徵,嘗試找出隨著語音的發展而引起耳朵感知到的聲音的最可能原因。” Giraud小組的計算神經科學家Itsaso Olasagasti監督了新模型的實現。
“我們開發了一種模擬這種預測編碼的計算機模型,”基礎神經科學系研究員,文章的第一作者Sevada 霍夫塞普揚解釋說。 “而且我們通過合併將其實施tha娛樂城振盪機制。”
經過2888個音節的測試
進入系統的聲音是娛樂城首先由類似於神經元種群產生的θ(慢)波調製。這樣就可以發信號通知音節的輪廓。然後,(快速)伽馬波序列有助於在音節被感知時對音節進行編碼。在此過程中,系統會建議可能的音節,並在必要時更正選擇。在兩個級別之間來回幾次後,它會發現正確的音節。隨後,系統在每個音節結束時運彩版ptt將其重置為零。
該模型已成功使用220個句子中包含的2888個不同音節以英語自然語言進行了測試。 “一方面,我們成功地將兩個非常不同的理論框架整合到一個計算機模型中,” Giraud教授解釋說。 “另一方面,我們已經證明,神經元振盪很可能在節奏上使大腦的內源性功能與通過感覺器官從外部傳入的信號對齊。如果我們將其放回預測編碼理論中,則意味著這些振盪可能使大腦在正確的時機做出正確的假設。”
參考
霍夫塞普揚 等(2020)。結合預測編碼和神經網絡博弈娛樂城顫動可以在自然語音中實現在線音節識別。 自然通訊。 DOI:https://doi.org/10.1038/s41467-020-16956-5
本文已從以下材料重新發布。注意:材料的長度和內容可能已被編輯。有關更多信息,請聯繫引用的來源。