顧莫傑本該下班了,但是嚴(yán)磊的報(bào)告,成功引起了顧莫傑的注意,他決定加夜班。
讓葉敏茹去樓下雲(yún)咖啡拿了兩個(gè)套餐,然後他在辦公室裡請(qǐng)嚴(yán)磊邊吃邊談他的想法。
“說(shuō)說(shuō)吧,你對(duì)‘谷歌中國(guó)五年來(lái)在華蒐集的搜索數(shù)據(jù)’的用法細(xì)節(jié),是怎麼看的。”
嚴(yán)磊依然保持著四年前認(rèn)識(shí)顧莫傑時(shí)的學(xué)者氣,不怎麼講究禮貌,就大咧咧坐在顧莫傑對(duì)面,一邊用便當(dāng),一邊閒聊。
“你不都已經(jīng)把‘初秘’那個(gè)項(xiàng)目交給我做了麼,寒假就要和iphone4的siri掰腕子了,難道就不想讓‘初秘’的水平在這個(gè)節(jié)骨眼上,再上升一個(gè)臺(tái)階?”
嚴(yán)磊口中提到的這個(gè)‘初秘’項(xiàng)目,是顧莫傑從去年初心1代手機(jī)上線後,就丟給初音的人工智能研究團(tuán)隊(duì)研發(fā)的項(xiàng)目。
他對(duì)後世智能手機(jī)行業(yè)發(fā)展那一點(diǎn)僅存的記憶,到2012年底爲(wèi)止。那段歷史上,蘋(píng)果公司的手機(jī)在iphone5這個(gè)型號(hào)上戛然而止。
蘋(píng)果公司會(huì)做出siri這個(gè)人工智能語(yǔ)音助手,顧莫傑是知道的。
那些買了iphone4s以上蘋(píng)果手機(jī)或者ipad3以上平板的用戶,可以通過(guò)siri,對(duì)機(jī)器發(fā)送語(yǔ)音聊天。機(jī)器會(huì)試圖模擬真人對(duì)話,並且給出使用者想搜索的內(nèi)容、答案、軟件app應(yīng)用,或者幫助用戶撥打電話、尋找聯(lián)繫人等等。
顧莫傑要弄的‘初秘’,就是一個(gè)狙擊siri的存在。
iphone4明年二季度就要上市了,初心2代手機(jī)會(huì)比iphone4更早一兩個(gè)月。
‘初秘’的開(kāi)發(fā),本來(lái)已經(jīng)到了箭在弦上的衝刺階段。
初音集團(tuán)在人工智能方面的步伐,並不比蘋(píng)果公司慢。哪怕沒(méi)有別的新招,顧莫傑手下的人也能按期完成初秘。
但是此刻,嚴(yán)磊讓顧莫傑看到了一股更高的期待。
他眉毛一挑,身子微微前傾。
“你是說(shuō),給你弄到谷歌中國(guó)過(guò)去五年在華蒐集的搜索數(shù)據(jù),就可以幫助你提升初秘的人工智能程度?”
嚴(yán)磊細(xì)嚼慢嚥地吞下一片肥牛,喝了口飲料:
“當(dāng)然。問(wèn)題問(wèn)答型的人工智能,本來(lái)就是要靠不斷訓(xùn)練、不斷積累雲(yún)端大數(shù)據(jù),纔會(huì)回答地得越來(lái)越準(zhǔn)、越來(lái)越接近真人思維模式。搜索、點(diǎn)擊,本身不就是深度學(xué)習(xí)算法架構(gòu)下,問(wèn)答智能的最初淵藪麼?”
深度學(xué)習(xí)算法,本該是傑夫辛頓教授提出的學(xué)說(shuō)。
本時(shí)空,這個(gè)機(jī)會(huì)被顧莫傑分潤(rùn)了。
要說(shuō)所有互聯(lián)網(wǎng)大佬當(dāng)中,對(duì)深度學(xué)習(xí)算法和雲(yún)端架構(gòu)的人工智能認(rèn)識(shí)程度,恐怕顧莫傑能排世界第一。
只是在所有當(dāng)老闆的人裡面,見(jiàn)識(shí)排世界第一。不包括和磚家們比。
也就是說(shuō),在對(duì)人工智能的遠(yuǎn)見(jiàn)卓識(shí)上。哪怕拉里佩奇、扎克伯格、喬布斯,這3個(gè)大佬的見(jiàn)識(shí),也比不上顧莫傑。
嚴(yán)磊的話,點(diǎn)撥到這種程度,已經(jīng)足夠顧莫傑秒懂。
這個(gè)思路很不錯(cuò)!
用百度,或者谷歌,搜索網(wǎng)頁(yè)。
這個(gè)搜索動(dòng)作的本質(zhì),是什麼?
其實(shí)就是一次問(wèn)答。
比如一個(gè)網(wǎng)民,在百度上搜“權(quán)寶兒”三個(gè)字,然後彈出幾百萬(wàn)個(gè)搜索結(jié)果。
第一個(gè)搜的人,得到結(jié)果列表後,點(diǎn)擊了“權(quán)寶兒”的百度百科詞條。
第二個(gè)搜的人,點(diǎn)擊了一條她參加的綜藝節(jié)目視頻。
第三個(gè)搜的人,點(diǎn)擊了一條關(guān)於她的娛樂(lè)新聞。
第四個(gè)、第五個(gè)、第六個(gè),又點(diǎn)了百度百科詞條。
假設(shè),因爲(wèi)百度的用戶容量夠大,有10萬(wàn)人次搜了“權(quán)寶兒”這三個(gè)字,然後百度根據(jù)反饋統(tǒng)計(jì):其中43%的人搜索後,點(diǎn)擊了百科詞條,22%的人,點(diǎn)了某娛樂(lè)新聞,17%的人……
這時(shí)候,如果把百度搜索的雲(yún)端大數(shù)據(jù),接爲(wèi)‘初秘’或者siri的服務(wù)器端,初秘就會(huì)知道:當(dāng)下一次她的手機(jī)主人說(shuō)出“權(quán)寶兒”這三個(gè)字的時(shí)候,優(yōu)先把這個(gè)詞的百度百科詞條內(nèi)容推送給主人——當(dāng)然,是用語(yǔ)音閱讀的方式。
這是最簡(jiǎn)單的問(wèn)答型人工智能,靠統(tǒng)計(jì)數(shù)據(jù),來(lái)讓機(jī)器的回答,更貼近代表所有網(wǎng)民中最大衆(zhòng)的那一羣人的意見(jiàn)。
這個(gè)過(guò)程中,機(jī)器並不理解“權(quán)寶兒”這三字代表了什麼,它只是在算法上統(tǒng)計(jì)了“所有曾經(jīng)搜過(guò)這個(gè)詞的人,在搜索後點(diǎn)擊查看了哪條答案”,然後把看過(guò)人最多的那條答案,推送給最新問(wèn)這個(gè)問(wèn)題的人。
這樣的大數(shù)據(jù),只有搜索引擎服務(wù)的提供商,才擁有。或者說(shuō),只有那類公司的數(shù)據(jù),樣本容量才足夠巨大,足夠客觀,足夠撇掉誤差。
在中國(guó),只有百度和谷歌有這個(gè)資本。
而且,百度和谷歌除了搜索大數(shù)據(jù)的歷史記錄足夠龐大、完爆其他搜索服務(wù)提供商之外,他們還有一個(gè)獨(dú)門之秘,在2009年只有他們兩家形成了規(guī)模。
那就是“百度知道”,以及比百度知道遜色一些的“谷歌問(wèn)答”。
“知道”,是一個(gè)比搜索更加貼近人類語(yǔ)言習(xí)慣的問(wèn)答產(chǎn)品。在搜索的時(shí)候,人只會(huì)打幾個(gè)關(guān)鍵詞,很少會(huì)直接長(zhǎng)篇大論寫(xiě)一句話,寫(xiě)一個(gè)用人類正常語(yǔ)法表述的問(wèn)題。
而用百度知道的時(shí)候,因爲(wèi)背後是人類在回答,所以大家都遵循了人類語(yǔ)言的語(yǔ)法。
一個(gè)新買手機(jī)的用戶,和初秘或者siri聊天的時(shí)候,問(wèn)到的問(wèn)題,真的是絕無(wú)僅有、從來(lái)沒(méi)有前人問(wèn)過(guò)的麼?
恐怕不盡然。
十幾億人心中的困惑,有相當(dāng)大一部分是重合的。同一個(gè)問(wèn)題,可能全國(guó)有幾百萬(wàn)人想問(wèn)。
有了百度知道的雲(yún)端大數(shù)據(jù)之後,初秘或者siri再聽(tīng)到手機(jī)主人的語(yǔ)音發(fā)問(wèn)時(shí),就可以先搜一搜這個(gè)雲(yún)端數(shù)據(jù),看看有沒(méi)有近似的或者重複的前人提問(wèn)。
如果有,直接把前人提問(wèn)中的“被採(cǎi)納答案”推送過(guò)來(lái)、語(yǔ)音閱讀一遍就行了。
在“知道”這個(gè)產(chǎn)品上,谷歌其實(shí)走得比百度慢。谷歌的強(qiáng)項(xiàng),是“谷歌學(xué)術(shù)”那種專業(yè)標(biāo)準(zhǔn)化的問(wèn)答,而缺少家長(zhǎng)裡短的日常人工智能鍛鍊。
在人工智能領(lǐng)域,如果非要對(duì)比谷歌和百度的優(yōu)劣勢(shì),只能說(shuō):谷歌可以訓(xùn)練出更精密的機(jī)器,但是不如百度那樣容易給機(jī)器學(xué)會(huì)‘七情六慾’。
因爲(wèi)早年的谷歌,壓根就沒(méi)想到去鍛鍊其人工智能的這個(gè)方面。
當(dāng)然,說(shuō)句良心話,百度也沒(méi)想到。
“百度知道”日後教會(huì)了“度秘”比siri更能插科打諢,也只是百度發(fā)展時(shí)一招無(wú)心插柳的歪打正著。
……
正因爲(wèi)顧莫傑懂行,因爲(wèi)他自己就懂深度學(xué)習(xí)算法,所以,他比別人更能領(lǐng)會(huì)嚴(yán)磊開(kāi)出的條件誘惑力。
初音集團(tuán),在搜索上是弱項(xiàng)。
但是初音集團(tuán),在人工智能的算法領(lǐng)域,是強(qiáng)項(xiàng)。
一個(gè)企業(yè)人工智能產(chǎn)品的強(qiáng)弱,受制於兩個(gè)因素。
一個(gè)是算法的好壞,一個(gè)是大數(shù)據(jù)的規(guī)模。
比如,谷歌的算法效率假設(shè)是10%,而谷歌的日搜索處理量是10億條,所以谷歌的人工智能每天理論消化的問(wèn)答是1億條。
如果初音的算法效率更好,有20%,但初音每天的搜索處理量只有1億條,那麼初音人工智能每天理論消化的問(wèn)答只有2000萬(wàn),比谷歌弱了五倍。
有好算法,有好的“數(shù)據(jù)消化效率”,卻沒(méi)有足夠的“數(shù)據(jù)飼料”去餵養(yǎng)這副“消化功能”極強(qiáng)的“胃口”。
這一直是初音人工智能研究院的缺憾,短板。
但是,如果按照嚴(yán)磊的說(shuō)法,把谷歌中國(guó)過(guò)去五年,在中國(guó)市場(chǎng)上搜集到的服務(wù)器端歷史記錄數(shù)據(jù)統(tǒng)統(tǒng)copy過(guò)來(lái),“填鴨式”地塞給“初秘”去學(xué)習(xí),那麼初秘在“真正聽(tīng)懂中國(guó)人講話”這個(gè)問(wèn)題上,起碼可以贏得相當(dāng)於額外獲得兩三年時(shí)間鍛鍊的效果。
歷史上siri公司成立於2007年,10年被蘋(píng)果收購(gòu)後,在4s上放出了這個(gè)人工智能產(chǎn)品。
但是用過(guò)iphone4s的用戶,恐怕都有一種記憶:
剛開(kāi)始,4s上的siri智能程度真的很低,幾乎聽(tīng)不懂什麼話。還是隻能和舊時(shí)代的“語(yǔ)音撥號(hào)助手”那樣,幫主人翻翻通訊錄、撥打一下電話爲(wèi)主。
至於讓siri真的近似於人一樣和主人聊天,似乎是2012~2013年的事情了,那時(shí)候的siri才漸漸說(shuō)話像人話。
那就是因爲(wèi),siri花了兩三年時(shí)間來(lái)“學(xué)習(xí)”、來(lái)積累和消化雲(yún)端大數(shù)據(jù),漸漸統(tǒng)計(jì)出人類語(yǔ)言習(xí)慣。
如果谷歌中國(guó)不倒下,谷歌在華的那多年數(shù)據(jù)記錄,肯定是作爲(wèi)商業(yè)秘密不會(huì)公開(kāi)的。因爲(wèi)那涉及到其對(duì)中國(guó)人上網(wǎng)習(xí)慣的統(tǒng)計(jì)。如果公開(kāi)了,很有可能被對(duì)手拿去,作爲(wèi)優(yōu)化對(duì)手引擎算法的參照物。
但是,如果谷歌中國(guó)倒下了,這些數(shù)據(jù)再遮遮掩掩藏著,似乎就沒(méi)什麼意義了。
只要顧莫傑出一筆看上去挺誠(chéng)意的價(jià)碼,谷歌總部相信就會(huì)把這筆數(shù)據(jù)財(cái)富賣給初音。
顧莫傑意淫著美好前景,簡(jiǎn)直要獸血沸騰。
恨不得現(xiàn)在就在老朋友拉利佩奇脊樑骨上捅一刀,然後把谷歌中國(guó)的數(shù)據(jù)資源巧取豪奪走。
“磊哥,來(lái),好好說(shuō)說(shuō)你數(shù)據(jù)到手之後的詳細(xì)使用計(jì)劃。我都有點(diǎn)迫不及待了……”
“當(dāng)然沒(méi)問(wèn)題,就是如此如此,這般這般……”
嚴(yán)磊一副指點(diǎn)江山狀,對(duì)顧莫傑講解了一個(gè)鐘頭的技術(shù)路線梗概。
“只要做到了這些,然後,我們的初秘肯定可以在‘人話識(shí)別率’上領(lǐng)先siri至少兩年。”