車聯(lián)網(wǎng)名詞注解系列(上)語音控制篇
在過去一年的智能汽車測試項目中,總有朋友提問:文章中我們提到的很多名詞,從字面上很難理解,有時候讓人摸不著頭腦。正好趁這個機會在家里“安頓”一下自己,我們就展開一個系列,把那些晦澀難懂的專有名詞給大家一一注釋,說說它們的含義、背景和意義,也為以后相關文章中的參考做好準備。第一期,我們來說說語音控制中的一些常見名詞。
STT和TTS
常見的互聯(lián)網(wǎng)知識告訴我們,當兩個字母/數(shù)字之間有一個“t”或“2”時,指的是“to”字的概率很高,例如P2P、B2C、V2X、STT和TTS都是類似的。
在一些技術文獻中,這一環(huán)節(jié)又被稱為ASR,是一項集語言學、計算機科學和電氣工程等領域的知識和研究于一體的復雜工程。
我們在標語中經(jīng)常聽到的“語音引擎”通常是指這五個環(huán)節(jié)的集合。在研發(fā)過程中,雖然有些供應商有完整的解決方案,但一輛車的語音控制系統(tǒng)往往會在不同的環(huán)節(jié)選擇不同的供應商,相互配合,達到最終的效果。
除了我們上面解釋的單詞之外,自然語言處理是將用戶的指令轉(zhuǎn)換成結(jié)構化和機器可理解的語言。
語音控制是一項復雜的功能,涉及語言學、計算機科學、電氣工程等。,它是云和本地的結(jié)合。往往需要車企電氣部門和多個供應商同時配合才能達到最佳效果。對于服務提供商來說,提供最好的產(chǎn)品需要多年的語言分析和指令集積累。做好真的不容易。
啥?連續(xù)說?免喚醒?一個熱的連續(xù)理論,沒有喚醒
在過去一年的車內(nèi)語音控制測試中,有兩個“高頻詞”——一拍連續(xù)和不喚醒。除了“識別率”,它們也是我們最喜歡的語音控制功能。
你有沒有想過為什么要喚醒文字?因為人們在日常交流中很容易觸發(fā)語音控制中的某些功能,喚醒詞就是指定一個時間段,在此期間語音引擎會對你說的話進行處理反饋。在目前的語音控制技術下,如果沒有喚醒詞,就會被車內(nèi)語音控制騷擾到自閉。
為什么不能像日常交流一樣直呼自己的名字?比如:李湘,幫我打開空鍵。也是因為兩三個字的名字容易被誤認,導致語音控制誤觸發(fā)。因此,喚醒詞通常設置為“重疊”、“你好+名字”和“同學”,以降低誤觸發(fā)的概率。
但這也導致了一個問題——人與人之間的溝通方式完全不同!下圖是基本的車內(nèi)語音控制通訊方式。你覺得特別眼熟嗎?
OneShot是什么意思?很簡單,就是喚醒詞可以和指令一起說,而不是先說喚醒詞,等待系統(tǒng)響應后再給出指令。有了OneShot連續(xù)通話功能,情況就是這樣。
喚醒詞是什么意思?顧名思義,連喚醒詞都不需要。您可以不調(diào)用語音控制功能直接給出指令,如下所示:
不,這是一個越來越接近人們交流方式的過程,也是一個越來越不禮貌的過程。是的,人們交流的方式是不禮貌的。
以上就是OneShot和不叫醒的意義和意義。至于“免醒”這個詞,我想在這里多說幾句。在這個階段,免喚醒可以分為兩種模式。
或者在音樂播放界面,不用先喚醒語音控制功能,直接說“暫?!?、“下一首歌”、“提高音量”。這是目前使用最廣泛的免喚醒方案。
部分車型采用了這種邏輯。)搭配科大訊飛語音引擎。
在這里,我們也可以看到,在大部分功能都可以直接給出指令的情況下,系統(tǒng)還是需要限定一個時間的。如果時間沒有限制,誤喚醒的概率還是不能接受的。想象一下,你和副駕駛正愉快地聊著今天的好天氣。突然,系統(tǒng)開始自言自語:“今天北京陽光明媚,空空氣質(zhì)量……”如果這種情況發(fā)生兩次,您可能會永久關閉語音控制功能。
總結(jié)
在《車聯(lián)網(wǎng)名詞注釋系列》第一期中,我們解釋了語音控制系統(tǒng)的幾個名詞,并講述了它們的定義、背景和價值。事實上,人與人之間的交流大多是通過“說”和“聽”來實現(xiàn)的。當然,我們也有表情、手勢等等。相比之下,機器更難理解表情和手勢的含義。各大車企、研究機構、語音交互解決方案提供商口中的類人交互,就是讓機器學會理解語言、手勢,甚至是感受。作為其中之一,語音控制才剛剛起步。在我們進入下一個更智能的階段之前,“處理”什么時候才能真正變成“理解”。
>>點擊查看今日優(yōu)惠<<