智能音箱熱鬧了一年 為何說只是過渡?

摘要
行業(yè)熱,行業(yè)洗牌,行業(yè)發(fā)展,下一個十年的人機交互會怎樣進行?
「在深圳,至少有 200 家工廠在做智能音箱,但是從全球,你能找到既提供軟件、硬件整合解決方案還設(shè)有專項產(chǎn)品體驗工程師的方案公司,一只手就能數(shù)得出來?!?/span>
在音頻行業(yè)摸爬滾打 14 年的宋少鵬看來,2017 年國內(nèi)智能音箱行業(yè)的百箱大戰(zhàn),幾乎和功能機過渡到智能機時如出一轍。這場硝煙中,他和他的團隊為廠商提供的解決方案,就是那「一只手就能數(shù)出來」的一員,這讓他在這一年有了更多實現(xiàn)想法的機會。
「我們提供的是智能語音交互產(chǎn)品全棧式的解決方案,包括 Wi-Fi 模塊,底層技術(shù),操作系統(tǒng),還有語音 Skill,是軟硬結(jié)合的全棧式解決方案,這樣的能力國內(nèi)并不多。」盡管宋少鵬已經(jīng)在這一領(lǐng)域深耕多年,但隨著智能音箱行業(yè) 2017 年的爆發(fā),他做的這些才開始真正從冷變熱再到發(fā)燙,因為這些正是構(gòu)建語音交互生態(tài)所必須的。
智能音箱是開啟未來的第一步
12 月9 日的騰訊開放日上,第一次面向公眾展示的眾多騰訊「黑科技」中,最受用戶歡迎的 Top3 就有宋少鵬帶領(lǐng)深圳米唐科技和騰訊云小微一起打造的「情緒森林」。當(dāng)我對著屋子里的語音控制臺唱出「天青色等煙雨」的歌詞時,伴隨一圈 LED 燈閃過,屋內(nèi)的燈光瞬時變成了冷艷的藍色。宋少鵬為這愁動提供的,就是讓設(shè)備能「聽見」和「理解」人說話的能力,從專業(yè)角度講,就是音頻交互解決方案。盡管只是一次活動展示,但米唐科技和騰訊的聯(lián)手,會在接下來的一年帶來更多落地的產(chǎn)品。
「國內(nèi)這么多廠家在做,大家開始都在學(xué)習(xí) Amazon,不知道該怎么做都得從 Echo 那找答案。比如你呼叫音箱,喊完它名字要在幾秒內(nèi)回應(yīng)?指示燈要怎么亮?亮多長時間?音箱上面的按鍵怎么設(shè)計?這些我們很早就開始研究?!顾紊蠃i和米唐科技的確很早就看到了 Amazon Echo 帶來的影響,從 2013 年離開微軟創(chuàng)業(yè)開始,他和他的米唐科技,就把智能語音交互定為了主攻方向。
業(yè)界很少有做音頻解決方案的公司關(guān)注這些交互細節(jié),但是米唐科技從一開始就把解決方案和產(chǎn)品體驗合在一起,他們甚至編輯了一本厚厚的交互手冊,把Echo 的種種細節(jié)收錄進去,「因為從體驗上來說,Amazon Echo 值得學(xué)習(xí)」,宋少鵬說。這種對體驗的把握也換來了好結(jié)果,就在十一月亞馬遜全球開發(fā)者大會上,首次公開了Amazon Alexa 的 SI 計劃,米唐科技作為 Amazon 認證并推薦的首批 Amazon Alexa 智能語音系統(tǒng)全球合作伙伴,被介紹給了全球的廠商和合作伙伴,他們被賦予了能夠幫助國內(nèi)廠商出海的能力。

這是行業(yè)在 2017 年的小小縮影,經(jīng)歷了過去十年 iPhone帶動的移動互聯(lián)網(wǎng)普及,互聯(lián)網(wǎng)巨頭們已經(jīng)部署起來圍繞吃穿住行的生態(tài)系統(tǒng),但想要更進一步融入人們生活還需要更多手段,大洋彼岸大紅大紫的 Amazon Echo 無疑是很好的示范。如 Amazon 的腳步一樣,語音交互起始于智能音箱,接下來還會有電視盒子(Fire TV),鬧鐘(Echo Spot)等各種可能。
無疑,2017 年真正打響的不是智能音箱,而是語音交互領(lǐng)域的發(fā)令槍。
音箱的背后是語音交互的藍海
起風(fēng)的時候,所有廠商都以為會有能力飛的更高,但不是所有廠商都能飛的很遠。在宋少鵬看來,米唐科技要做的,是幫助不論大小品牌,都擁有面向未來的解決方案和生產(chǎn)模式,這是即將迎來新交互時代的必要準(zhǔn)備。
他舉了過去幾年正在發(fā)生的工廠質(zhì)檢員的例子:
「客戶工廠有個小妹妹,她以前是做擰螺絲的測試,因為我們的產(chǎn)品進到工廠,她要做語音交互的測試,剛開始因為英語不行,呼叫 Alexa 呼叫不了,我們的人也會教他怎么測,我們有完整的測試指南,一個一個項目告訴她,這對于一個沒有英語基礎(chǔ)的人來說這是很難的,但她必須要做。時間長了她開始知道這些英語分別是什么意思。那些工廠里測試的質(zhì)檢員,他們其實不僅要會擰螺絲,還需要學(xué)習(xí)英語基礎(chǔ),這是產(chǎn)業(yè)升級、產(chǎn)品出海的一部分?!?/span>
產(chǎn)業(yè)鏈加速升級,沒有及時轉(zhuǎn)型的中小品牌被淘汰,但留下的發(fā)展就會越來越好。這也是智能音箱作為一個全新階段的標(biāo)志,如同智能手機行業(yè)優(yōu)勝劣汰一樣。
在宋少鵬看來,智能音箱或者語音落地產(chǎn)品并非是由入場時間決定輸贏,服務(wù)完成度、交互體驗會成為留住用戶最重要的砝碼,這是語音交互帶來變革時最重要的變量,也是一些廠商能夠抓住的新機會。在選擇和騰訊合作共同進行產(chǎn)品研發(fā)時,他看到了這一點:
「語音交互在中國市場是一個從無到有的過程,也是一個特別偏 C 端的產(chǎn)品。騰訊在用戶體驗運營上有很好的經(jīng)驗,盡管行業(yè)需要摸索,但和最關(guān)注用戶體驗的公司一起前行一定是對用戶最有益的。」這是中小品牌急需的能力,米唐科技多年的努力正好可以幫助中小企業(yè)在這方面補上短板。同時,他還認為,豐富的內(nèi)容是完善用戶體驗不可缺少的部分。
「像騰訊這樣,有閱文的文學(xué)內(nèi)容,有 QQ 音樂的音樂類內(nèi)容,有騰訊視頻的視頻類內(nèi)容,還和京東電商,滴滴出行,美團點評這些服務(wù)部分連接,這些服務(wù)矩陣綁在語音技術(shù)之后,才更能體現(xiàn)出語音交互的價值,智能硬件不止要做語音交互,還要做好內(nèi)容服務(wù)?!?/span>

數(shù)據(jù)更能說明語音交互的產(chǎn)業(yè)重點。截至 2017 年底,Amazon Echo 系列在美國銷量超過 3300 萬臺,成功占領(lǐng)很多人家庭時,它憑借的不僅是優(yōu)質(zhì)的硬件和語音識別,還有自身 Skill 商店的上萬種獨特「技能」,正是這些技能讓很多人愛上了 Echo。而后起追趕的 Google、微軟等公司,自身技能數(shù)量只有幾百種,遠遠少于 Echo,因此人們選擇時優(yōu)先考慮的方向更加明確。語音交互時代,品牌與品牌競爭是全方位連接萬物的能力,從生活服務(wù)到日常工具。當(dāng)人們開始嘗試在家里用語音控制開燈關(guān)燈時,如果另外一家產(chǎn)品沒有這種能力,競爭力就大大減弱。
如果沒有智能音箱,用戶無法感知到語音交互連接萬物的能力,而智能音箱出現(xiàn)之后,更多產(chǎn)品都將具備「聽說」能力,行業(yè)在慢慢變化。
「今年 Black Friday 銷量最好的一款產(chǎn)品,是一臺支持 Alexa 的智能電飯煲。所以人可以用語音控制溫度,加熱時間等功能,這時語音交互就像 Wi-Fi 一樣無處不在,無所不能?!乖谒紊蠃i看來,目前國際包括國內(nèi)語音交互急需的就是這種連接一切的能力,這在淘汰掉一些與時代脫節(jié)的企業(yè)的同時,也會為產(chǎn)業(yè)創(chuàng)造了更大機會。
對這一點,博聯(lián)(BroadLink)深有體會,這家公司因為智能音箱的銷量增長而收到了不錯的市場反潰「和智能音箱配對的智能插座、智能遙控等產(chǎn)品銷量提升了百分之五十。」博聯(lián)科技副總裁趙哲海告訴我們,因為智能音箱而帶動的用戶需求非常明顯。在不改變傳統(tǒng)家庭電器使用習(xí)慣的基礎(chǔ)上,通過更換智能插座、智能遙控等設(shè)備,普通用戶就可以用語音控制包括臺燈、空調(diào)、電視機等設(shè)備。博聯(lián)為阿里巴巴、京東的產(chǎn)品都提供了配套的智能產(chǎn)品,這些產(chǎn)品又加強了人們對語音控制萬物這件事的真切體驗。
這種語音控制萬物的能力不僅被賦予到音箱身上,同時也被添加到越來越多智能產(chǎn)品上,騰訊在長安汽車中接入的云小微的服務(wù),小米在電視中接入的語音助手服務(wù),這一系列通過語音交互將萬物連接在一起的產(chǎn)業(yè)變革中,語音交互解決方案公司,都低調(diào)的站在背后,提供完整的解決方案,幫助他們將產(chǎn)品落地。
未來十年的交互革命
讓語音交互成為無時不有,無處不在的可能,是宋少鵬創(chuàng)業(yè)時曾有過的樸素愿望,因為連接互聯(lián)網(wǎng),擁有了無盡的娛樂和社交,智能手機在過去十年枝繁葉茂。這種方式同樣為電視機引導(dǎo)了一條路,于是有了智能電視的一波產(chǎn)業(yè)熱潮。
音頻是不是一樣也可以做這樣的事情?當(dāng) 2012 年還未出現(xiàn)智能音箱時,他曾有過這種猜想,當(dāng) Amazon Echo 出現(xiàn)并改變美國用戶的家庭生活時,他的設(shè)想成為可能。「從移動互聯(lián)網(wǎng)時代進入未來十年的物聯(lián)網(wǎng)時代,產(chǎn)業(yè)鏈在重構(gòu)邊界的過程,Echo 是引發(fā)這種改變的第一步?!顾栽谒磥?,盡管智能音箱目前剛剛開始落地中國用戶的家庭,但新的交互方式在未來十年誕生更多行業(yè)。

「智能音箱是語音交互的第一步,是很重要的中心,這個中心建立起來,可以進一步擴展到電視上,還可以放在別的地方,因為語音交互出現(xiàn),也許可以讓去中心化的任務(wù)達成。語音交互要被賦予更多設(shè)備,電視,冰箱,洗衣機,汽車,這些設(shè)備都不能全都由互聯(lián)網(wǎng)公司完成,用戶體驗和交互設(shè)計全部被下放到這些周邊廠商,這也許是去中心化的未來?!?/span>
對從事語音交互解決方案的米唐科技而言,能夠提供給行業(yè)最大的價值就是更豐富的產(chǎn)品形態(tài)以及更完善的產(chǎn)品體驗。在摸索過程當(dāng)中,他和團隊的確找到了不同的解決方案來應(yīng)對不同場景。除 Amazon Echo 傳統(tǒng)的 6+1 環(huán)形麥克風(fēng)陣列之外,線性麥克風(fēng)陣列可以為電視機提供服務(wù),單麥克風(fēng)可以為小型產(chǎn)品提供服務(wù)。
「在單麥克風(fēng)上的技術(shù),我們的 Sugr Sense 有目前全球唯一一套可以通過 Amazon 嚴(yán)格測試并認證的單麥克風(fēng)解決方案,這能降低行業(yè)門檻,還可以提升整個行業(yè)的效率?!顾紊蠃i介紹說,「這項單麥克風(fēng)解決方案在 Amazon 的測試環(huán)境下有很不錯的成績,在 9 英尺的環(huán)境下(2.74 米),普通辦公或者是家居環(huán)境下,喚醒響應(yīng)率能達到 100%,在 9 英尺的距離,在設(shè)備自身播放音樂,AEC(自適應(yīng)回聲消除)場景下,正確響應(yīng)率達到了 98%?!巩?dāng)然,他和他的團隊并不僅僅局限在室內(nèi),語音交互會是未來無處不在的交互方式,如同現(xiàn)在人們出門看見屏幕就想要伸手觸摸那樣,語音交互應(yīng)該能夠出現(xiàn)在各種地方。所以團隊也在進行戶外場景的解決方案。
這是另外一種挑戰(zhàn),「技術(shù)上戶外和房間內(nèi)的產(chǎn)品差異是非常大的,房間是封閉的,那么聲音通過墻壁天花板反射到音箱,收到的是各種聲音的混疊,壞處是它混疊了,好處是它加強了,音量被加大了。但如果是曠野,你沒有任何一個反射,它聽到的就是線性的聲音,技術(shù)處理會不一樣。方案成熟的話,未來會有很多場景?!拱殡S 5G時代的到來,語音交互會和 AR,VR 這些技術(shù)共同帶來新的變革,而這一切,現(xiàn)在都在悄悄發(fā)生。
當(dāng)不少從來沒有接觸過智能音箱的家庭第一次感受智能音箱,體會到在各種擴展技能的加持下,用語音控制臺燈,冬天不用起床關(guān)燈關(guān)空調(diào),叫外賣,買東西甚至叫車,看醫(yī)生......這些基于語音控制中心的「萬事萬物互聯(lián)」功能時,新的交互會再一次改變所有人的生活,宋少鵬對此深信不疑。



















