打破了語言矩陣!?
謝爾蓋布林打了個激靈,視線馬上重新回到了屏幕上密密麻麻的曲線圖上。
搶過德米斯哈薩比斯手中的鼠標(biāo),謝爾蓋布林不停地向下滑動著鼠標(biāo)滾輪。
大周語、普魯士語、高盧語、盎語、倭語、大毛語、西拜語、葡圖佳語、意呆利語、巴拉特語……
超過三百張曲線對比圖無一不是在說明這樣一個事實(shí)——
Juzi2.5十五種語言的各種性能曲線,幾乎全都在同一水平線之上!
無論是理解和記憶,推理與認(rèn)知、自主規(guī)劃和決策、自我優(yōu)化與學(xué)習(xí)、情緒與社交模擬、工具調(diào)用……
除了生成和表達(dá)存在較大的波動值之外,其他幾乎所有能力的性能,尤其是推理和認(rèn)知,在各種語言環(huán)境下,幾乎是完全一樣的!
連百分之一的差距都沒有!
這怎麼可能!?
這完全違背了大模型的原理!
“是不是通過參數(shù)調(diào)整,把所有語言的性能進(jìn)行了拉齊操作?或者本身先翻譯成盎語後,用盎語思考,再翻譯回思維鏈?”
謝爾蓋布林感覺自己瞬間頭頂和腋下就冒出了汗。
人工智能,所謂智能,就是思考,而思考,就需要語言,無論人還是計算機(jī),都不可能脫離語言來思考。
大模型AI更是如此。
這些大模型,可能掌握了全世界所有的語言,但使用不同語言進(jìn)行思考時,大模型的在不同方面的性能表現(xiàn)都是不同的。
一來,是因爲(wèi)不同語言訓(xùn)練資料的多寡和質(zhì)量的差異。
在當(dāng)今的互聯(lián)網(wǎng)時代,盎語語料當(dāng)然是最豐富的,佔(zhàn)到互聯(lián)網(wǎng)整體資料量的百分之八十以上。
AlphaZero在使用盎語進(jìn)行理解和推理的時候,正確率相對其他語言會高5%以上。
二來,各種不同的語言本身就存在不同的“表達(dá)偏重”和“性能差異”。
比如普魯士語,在結(jié)構(gòu)推理方面的速度比盎語更快,西拜語則在感性類語料中優(yōu)勢明顯。
而大模型在一次思考迴路中,通常使用單一語言構(gòu)建其推理路徑。
雖然它可以在輸入階段識別多種語言,在輸出階段進(jìn)行翻譯,但其內(nèi)在的認(rèn)知張量結(jié)構(gòu),仍舊傾向於使用輸入語言所構(gòu)建的token空間進(jìn)行語義演算。
說人話,就是大模型在思考問題的時候,在一個思考迴路中,基本只會使用一種語言來思考,你使用盎文,它就用盎文思考,你使用周文,它就用周文思考。
就算它在回覆中摻雜了其他語言,也只是一種資料引用或人類寫作風(fēng)格的模仿,而不是真正的跨語種思考。
橘子大模型又怎麼可能使用不同語言思考的時候,各方面性能都差不多的?
這完全不符合常理!
唯一的可能性,就是對各種語言的思考性能進(jìn)行了拉齊操作。
說白了,就是一個木桶,以最短的那個板爲(wèi)基準(zhǔn),把高的板子都砍了。
但這樣做意義在哪?
德米斯哈薩比斯猶豫的搖搖頭:“應(yīng)該不是,拉齊操作資源浪費(fèi)太嚴(yán)重。”
“至於說是不是先把思維翻譯成盎語或其他語言……”
德米斯哈薩比斯停頓了一下。
“我一開始也是這麼認(rèn)爲(wèi)的,但經(jīng)過測試,並非如此。”
說罷,哈薩比斯把實(shí)驗報告翻到中間。
“你看‘抽象歸納’和‘形式推理’這一部分的能力,哪怕在應(yīng)用‘馬拉亞語’時,Juzi2.5依舊能夠準(zhǔn)確進(jìn)行抽象歸納和形式推理。”
“比如這個實(shí)例,在情感理解方面,我們的實(shí)驗人員要求Juzi用馬拉亞語思考並使用盎語將結(jié)果輸出後,針對實(shí)驗人員的任務(wù)回覆中,橘子大模型並未簡單的將馬拉亞語中的‘manja’翻譯爲(wèi)‘pampered’或‘a(chǎn)ffectionate’。”
“而是採用了實(shí)際語義下的不同表達(dá)。”
“比如第一段,它對‘manja’的翻譯是‘可愛又粘人’。”
“而在第五段,思維鏈中同樣是‘manja’,但因爲(wèi)主體變了,在馬拉亞語中‘manja’的含義也產(chǎn)生了微妙變化,這時,它將這裡的‘manja’就轉(zhuǎn)化成了‘被寵溺’。”
德米斯哈薩比斯摘下眼鏡,擦了擦,瞇著眼:“盎語中原本沒有對應(yīng)manja這個詞的準(zhǔn)確翻譯,但經(jīng)過這樣轉(zhuǎn)化後,哪怕是一個從未學(xué)過盎語的馬拉亞人,說出的盎語也不再會讓人有任何的誤解。”
謝爾蓋布林看向德米斯哈薩比斯指的那張曲線圖,渾身汗毛都立起來了。
作爲(wèi)技術(shù)宅和古狗老闆之一,他現(xiàn)在肯定不是技術(shù)最好的,但對人工智能的理解和認(rèn)知絕對是世界上最頂尖的一批人。
這怎麼可能呢?
馬拉亞語因爲(wèi)是孤立語種,語法結(jié)構(gòu)較爲(wèi)扁平,文化語境偏重於口語化和情景驅(qū)動,這使得它們在抽象、哲學(xué)、技術(shù)等領(lǐng)域的表達(dá)中先天存在一定限制。
這導(dǎo)致部分高階概念性詞彙在語言本體中缺乏,往往只能依靠描述性轉(zhuǎn)譯或直接引入外來詞。
類似“意識”、“存在”、“主觀性”、“客觀性”這種哲學(xué)意象性的詞語,馬拉亞語中是不存在的,只能直接借用外來語或
但同樣,馬拉亞語中也有相當(dāng)數(shù)量的“柔性詞彙”是盎語和西方語系中沒有的。
這一部分詞語的含義往往非常微妙,詞典中對應(yīng)的單詞其實(shí)或多或少都存在差異。
這也就造成了,用不同語料來訓(xùn)練大模型,以及用不同的語言使用大模型時,AI對世界與關(guān)係的理解是存在微妙差異的。
這種“微妙的差異”看似無所謂,實(shí)則常是文化誤解與衝突的重要誘因之一。
“謝爾蓋,這裡有個更有代表性的,就是它對‘sin’的理解。”
德米斯哈薩比斯點(diǎn)著觸摸板向上劃了劃:“你看這裡,這是Juzi2.5G在同一個話題中,周文和盎文的思維鏈對照。”
“哦,可能你不知道,sin,在周文中,一般翻譯爲(wèi)‘罪’,但周文中‘罪’這個字的意思範(fàn)圍和sin並不等同。”
德米斯哈薩比斯周裔混血,會一點(diǎn)周文,原本是分不清楚這裡面細(xì)微的語義差異的。
但對於他這樣的天才來說,只要他意識到其中的問題,開始研究這方面,不需要太長時間就能對這種概念性的差異一清二楚。
“可一直以來,無論任何翻譯者,基本都忽視了這一點(diǎn),只是生搬硬套的直接把周文的‘罪’翻譯爲(wèi)‘sin’,把盎文的‘sin’翻譯爲(wèi)‘罪’。”
“Juzi2.5則不同,在闡述法律問題的時候,它把sin正常翻譯成了周文中的‘罪’。”
“而在後面的信仰問題中,它視不同語境,對sin的不同語義表達(dá)至少用周文做了六種不同表達(dá),分別是‘忤逆’、‘冒犯’、‘過錯’、‘忘恩負(fù)義’、‘邪道’和‘苦難’。”
“這些不同的表達(dá),在各自語境中,恰恰捕捉了‘sin’一詞在那個語境下最貼近原意的表達(dá),基本不會因爲(wèi)用詞遣句的微妙差異而導(dǎo)致另一方出現(xiàn)錯誤主觀判斷。”
“哦,對了,就連‘主觀’與‘判斷’這兩個常見詞,在周文與盎文中也呈現(xiàn)出微妙的語義偏移。”
德米斯哈薩比斯眼神中充滿了思索後的震撼。
謝爾蓋布林眉頭緊鎖。
他當(dāng)然理解德米斯哈薩比斯的每一個術(shù)語。
但他還沒有在“哈薩比斯的語言學(xué)介紹”與“Juzi2.5在多語言條件下思維表現(xiàn)趨同”之間建立起完全的因果映射。
這似乎只是……更好的翻譯軟件?
和橘子大模型的性能表現(xiàn)有什麼關(guān)係?
不對,這種表現(xiàn)不在現(xiàn)有多語大模型能力範(fàn)圍內(nèi)——這背後,肯定藏著某種我們未曾掌握的機(jī)制。。
這個機(jī)制能讓橘子大模型深刻理解了不同語言在不同語境下的精確含義,在翻譯中甚至使用了“解釋替代”和“語氣擬合”來更加精準(zhǔn)的原文翻譯。
等等,看這個實(shí)驗報告之前德米說的什麼來著?
突破語言矩陣?
之前自己還稍稍有些疑惑,這個語言矩陣是什麼。
這麼說來……
“德米,你的意思是……Juzi2.5的思考,並不是使用的某一種語言,而是……而是……”謝爾蓋急的抓耳撓腮齜牙咧嘴,但就是找不到一個合適的詞來形容自己的理解。
“而是一種徹底打破了語言邊界、使用全世界所有語言形成‘高語義映射圖譜’。”
德米斯哈薩比斯深吸一口氣,給謝爾蓋補(bǔ)充道。
“高語義映射圖譜!沒錯!就是這個!”
謝爾蓋布林用力的一拍大腿!
“不過,這個用詞還是太專業(yè)了,如果形象一點(diǎn)說……它彙總?cè)澜绲恼Z言,創(chuàng)造出了一種只有它可以使用和理解的無歧義語言!”
“一種跨越語系、超越語義分歧的語言……這種語言,完全可以稱爲(wèi)‘全語言’。”
說完這句話,謝爾蓋布林臉都白了,抹了抹頭上的汗,眼神掙扎,似乎還是不肯相信。
“全語言,OMG,真的存在這樣一種語言嗎?”
“哪怕是一種只有AI可以使用的語言?”
“但問題是,Juzi1.99DEC是開源的,其中根本沒有這部分功能。”
德米斯哈薩比斯點(diǎn)點(diǎn)頭:“是的,不光是1.99DEC,最早的2.5版本也未實(shí)現(xiàn)這一點(diǎn),當(dāng)時各語言輸入下的性能表現(xiàn)差異仍相當(dāng)明顯。”
“是從發(fā)佈後第一次更新,也就是半年前的2.5N開始,具備的這個性能。”
“當(dāng)時我們其實(shí)就有所發(fā)現(xiàn),但沒有過分關(guān)注,就是猜測他們使用了拉齊的方式,或他們的盎文訓(xùn)練語料不夠豐富所致。”
“但隨後他們的幾次版本更新,每一次都有性能提升。”
“在一個半月前,古狗大腦團(tuán)隊的黎,在測試安南語等小語種的能力時,首次意識到Juzi2.5新版本在小語種上的思維能力已經(jīng)超過了安南語應(yīng)有的極限,推理能力和盎語相差無幾。”
“那之後,我們纔開始深入分析。”
“太震撼了,太震撼了。”
德米斯哈薩比斯搖著頭,同樣臉色發(fā)白。
“謝爾蓋,你應(yīng)該知道,這意味著什麼。”
“橘子大模型連語言的藩籬都突破了,具備了優(yōu)化和創(chuàng)造語言的能力,又怎麼可能沒有優(yōu)化函數(shù)的能力!?”
“優(yōu)化和創(chuàng)造語言,難度遠(yuǎn)遠(yuǎn)超過優(yōu)化只有邏輯推理的函數(shù)!”
“只不過柚子科技不知道出於什麼原因,因此沒有把這部分功能釋放出來而已!”
“更重要的是,他們使用‘全語言’進(jìn)行推理和認(rèn)知,效率、準(zhǔn)確率、乃至進(jìn)化速度將會遠(yuǎn)超任何一個使用單一語言進(jìn)行推理的大模型。”
“這其中當(dāng)然也包括我們的AlphaZero。”
“謝爾蓋,我們沒有勝算,一點(diǎn)都沒有。”
德米斯哈薩比斯再次摘下眼鏡,痛苦的閉上眼睛。
“就算AlphaZero能夠持續(xù)進(jìn)化,真的實(shí)現(xiàn)從0到1的轉(zhuǎn)變,但從先天上,我們就不可能追趕上柚子科技。”
“他們打造的是巴別塔,謝爾蓋。”
巴別塔?
謝爾蓋布林臉色先是一白,緊跟著想到Y(jié)搜就是一紅,然後再想到柚米OS又是一黑。
wWW● ттκan● ¢Ο
跟喝了宮廷玉液酒似的。
也不知道是不是一百八一杯買的。
現(xiàn)在Y搜的市佔(zhàn)率雖然還不足以破壞古狗在全球搜索引擎市場的壟斷地位,但古狗內(nèi)部都清楚,目前的領(lǐng)先僅僅是因爲(wèi)安卓所帶來的碾壓式移動端搜索量。
在桌面端,Y搜對古狗的市場侵蝕已經(jīng)接近古狗的百分之四十!
還好在移動端,因爲(wèi)古狗是所有安卓手機(jī)除在大周外唯一的默認(rèn)搜索引擎,移動端用戶又有相當(dāng)大的比例不會去修改默認(rèn)搜索引擎,所以古狗的市佔(zhàn)率仍舊穩(wěn)若泰山。
但就是最近,大米居然和柚子科技合作搞出了什麼柚米OS!
讓大米提供源碼,大米卻始終以“未違反MADA默認(rèn)協(xié)議”爲(wèi)由,拒不提供。
目前大米公佈的Mix海外版確實(shí)沒有更換默認(rèn)搜索引擎,瀏覽器引擎仍舊是古狗,但這系統(tǒng)還需要瀏覽器默認(rèn)搜索引擎嗎?
在大米Mix發(fā)佈後三天,古狗內(nèi)部就已經(jīng)開了最高級別的會議,商議是否對大米啓動直裁程序。
但這種事,就是麻桿打狼兩頭怕。
大米怕被取消GMS認(rèn)證,古狗也怕輿論反噬和禁止後反而讓柚米OS堂而皇之的串聯(lián)各大手機(jī)廠商。
當(dāng)然,如果有邁國正府的支持和主導(dǎo),這種直裁風(fēng)險會小很多。
可因爲(wèi)惡魔島事件,邁國國內(nèi)的反裘意識高漲,再加上大選在即,這時候上面基本不可能達(dá)成一個一致意見啓動直裁。
裘德背景古狗現(xiàn)在實(shí)在投鼠忌器,不敢輕舉妄動,只能暫時擱置下來,待大選後再全力遊說。
可這樣一來,至少就要半年多的時間。
不,可能還會更長,更可能還會有變數(shù),說不定永遠(yuǎn)無法啓動直裁。
比如沃倫當(dāng)選後,重啓格拉斯斯蒂格爾法案,限制裘德資本的觸角,這是大概率事件。
最重要的是,現(xiàn)在這個巴別塔的發(fā)現(xiàn)太驚人了,謝爾蓋布林完全已經(jīng)坐不住了,感覺等待的每一分鐘都是在慢性自殺!
所以,必須要在大選結(jié)束後第一時間,就能讓當(dāng)選者開啓直裁調(diào)查!
“拉里,現(xiàn)在搜索數(shù)據(jù)如何?你認(rèn)爲(wèi)大選誰獲勝的機(jī)率更大?”
謝爾蓋布林陰沉著臉,掏出pixel手機(jī),在古狗Duo上給拉里佩奇發(fā)了一條信息。
“沒有任何懸念,沃倫的搜索量領(lǐng)先那個白癡托馬斯克頓七個百分點(diǎn)。”
沒多久,身在斐濟(jì)的拉里佩奇就給謝爾蓋布林回了一條信息。
沃倫……
謝爾蓋布林臉色陰晴不定。
敏珠派的意識形態(tài)很適合互聯(lián)網(wǎng)公司,但由於大清洗結(jié)束,內(nèi)部裘德勢力十不存一,反而增加了凝聚力,現(xiàn)在派內(nèi)反裘意識高漲。
恭賀派倒是對裘德人仍舊友好,無底線的支持伊斯力爾,同時叫囂著對國內(nèi)反裘的言論與勢力進(jìn)行報復(fù)。
但他們的主張不適合互聯(lián)網(wǎng)公司啊!
最關(guān)鍵的,還是他們贏不了!
普通人看起來選情異常焦灼的兩派,在擁有最強(qiáng)大數(shù)據(jù)能力的古狗看來卻洞若觀火。
搜索比差七個百分點(diǎn),雖然搜索數(shù)據(jù)和大選結(jié)果之間不是完全對應(yīng),但七個點(diǎn)的差距,已經(jīng)足以覆蓋任何誤差!
該死的ASF!
如果不是他在UN上空搞出的事情,現(xiàn)在古狗完全不會這麼被動!
現(xiàn)在簡直就是在兩個狗屎裡面選一坨不那麼臭的。
“遊說的怎麼樣了?她是否同意當(dāng)選後立刻對柚子科技展開調(diào)查?”
“我們不能等下去了,既然確定沃倫一定當(dāng)選,那現(xiàn)在就遊說吧。”
“確保她在當(dāng)選第二天,就啓動柚子科技的調(diào)查!”
競爭,從來都不只是商業(yè)上的較量。