第260章 怎麼總感覺是在給自己挖坑呢(第二更!)
“我認爲我們還有機會?!辈悸蹇寺戳丝磁赃叺乃_姆奧特曼,這纔對馬斯克道:“就算這家大周的柚子科技目前處於領先,但他們此前在GitHub上上傳過很多實例,現在看起來,都和橘子大模型相關,說明他們極有可能在不久後將橘子大模型開源?!?
“就算不開源,很快他們也會公佈模型原理?!?
“埃隆,openAI有這個世界上水平最高的研究團隊,只要我們找對了方向,不管別人現在走的有多遠,我們都能夠趕上並且超過?!?
“你也知道,大周在深度學習領域無論是環境還是技術,和我們差距都很大。因此,這一次領先,大概率是他們偶然之間找到一條我們不知道,但卻極爲正確的道路?!?
“我不認爲我們這時候應該放棄,埃隆?!?
布洛克曼儘管憂心忡忡,但仍舊不緊不慢的反駁著埃隆馬斯克。
馬斯克深吸一口氣:“那好吧,我可以再給你們半年的時間,如果半年後,大家仍舊無法拿出有效的應對策略,我認爲,openAI併入特斯拉,是更有效的方案。”
“他們回覆了!橘子大模型採用了序列到序列機制,以及前饋神經網絡和循環神經網絡的一部分重組出的架構。他們會在5月23日吉隆坡的IEEE國際通訊會議上發佈橘子大模型的架構報告!”
伊利亞大聲的喊了一句。
“YES!”布洛克曼在心裡揮了下拳頭。
哪怕他們不開源,但只要發佈了報告,有了方向,那就輪到了拼底蘊的時候了!
openAI不可能輸!
加州時間05:30,海西時間20:30
三藩的天邊剛剛泛起魚肚白,海西的路上卻已經開始二次堵車高峰,都是吃完飯或加完班回家的。
GL8上,華澤成手裡拿著pad不停的看著橘子大模型的後臺面板。
他們辛辛苦苦搞了三個月,才終於算是初步完善了橘子大模型的功能,雖然影像功能尚未完全開發完成,但已經具備足夠的實用性,可以進行發佈了。
這次的300個內測名額,只是一個試水。
內測結束後再有一週的bug修復和參數調整,就會進入爲期半個月的公測。
而公測的名額,將足足擴大100倍,達到三萬名!
到時候,柚子科技目前的服務器,將面臨第一次實際的壓力測試。
“老闆,算力中心什麼時候建好???你看完黃曆說5月9號適合開放註冊,現在可都3月18號了,你至少得給我們留出來半個月時間遷移數據整合系統,否則到時候沒法開發註冊,你可別怪我?!?
華澤成坐在方豫旁邊,看著平板憂心忡忡。
三百個測試資格的確沒有給柚子科技的算力帶來多少負擔,但下下週可是要有三萬名啊。
目前算力條件下,華澤成計算過,大約最高只能應對三萬五千多的併發請求,還要給開發團隊留下足夠的算力,這樣算下來,整體算力冗餘非常低,如果在公測期間出現設備故障,算力還會進一步下降。
實在不行,就上阿貍雲唄,算起來比自己建數據中心便宜多了。
華澤成並不負責數據中心的整體規劃和優化,對Y系列的數據中心有多強大一無所知。
聽到啊華澤成的抱怨,方豫也很無奈。
前幾天他讓柚子去英偉達的服務器上看一下,P100到底什麼時候才能發貨。
結果柚子去轉了一圈之後回來告訴他,至少還得六個月,這還是它樂觀估計。
按照目前它觀測到的英偉達的工作效率,估計得一年了。
這個號稱採用了HBM2顯存NVlink新型服務總線的計算卡目前根本沒正式流片,還在測試、完善、部署階段呢。
等到這些都搞完了,至少也得明年這時候。
這不是耽誤事嗎?
老黃果然是個大忽悠!
明年才能發貨的計算卡,你現在發佈個什麼勁兒。
還發布之前一個月就搞預熱。
麻痹的,浪費老子的時間。
於是,方豫就只能先定了兩千五百萬邁元的M60,以應付未來的用戶請求。
先應付一年再說,等到P100發售了,再擴建數據中心。
“快了,7000塊M60下週開始就分批到貨了,再等一等吧?!狈皆ギ嬃藗€餅,隨後催動了一下埃瑟朗之核,問柚子根據M60重新修改的方案做好沒有。
他也很著急,畢竟5月23號柚子科技就要在IEEE上亮相了,柚子科技的報告做完之後,必然進入一個短時間內的羣雄並起時代,大部分公司的確有可能會套用橘子大模型的框架,但很多大公司肯定還是會堅持同方向自研。
真讓他們把路走通了,自己還怎麼通過傳播橘子大模型底層法則來獲得全球人工智能的掌控權?
雖然這種可能性很小,但不是沒有。
所以必須加快領先速度,逼著他們投入橘子大模型的懷抱裡來。
“當然做好了主人,我已經把修改好的方案重新發給了紅灣智能?!辫肿訉Ψ皆λ芰Φ牟恍湃畏浅2粷M。
方豫資本家本性暴露無疑:“發那麼早幹什麼?你爲什麼不再優化一下?系統效率提升百分之一,就是八百萬的成本節約。把方案撤回來,重新出方案,至少要再提高5%?!?
柚子噎了一下,大意了啊。
忘了這主人有多狗。
自己給自己找活嗎不是? 有這時間我多看幾集山海經赤影傳說多好。
娜紮好美啊,和熱葩一樣美。
愛了愛了。
就是那個心月狐太能裝逼了,比狗主人都能裝。
“主人,臣妾做不到啊,真的做不到啊?!辫肿涌尢鞊尩亍?
“現在的柚子架構下,M60只能有11%左右的算力是能夠應用在橘子大模型上的,這還是我修改了核心指令的情況下才發揮出來的性能,否則利用率連8%都沒有啊。”
只能應用11%的算力?怎麼會這麼低?看負載挺高的啊。
“不信你看看,主人,這是我之前做的分析?!辫肿铀⒌耐ㄟ^埃瑟朗之核扔過來一頁報告。
“負載高不代表有效利用率高,M60中大量的計算單元柚子架構都不需要,也用不到,此前我通過改寫核心指令,已經將M60對柚子架構的適用提升到了最高,再高一點也沒法做到了。”
方豫仔細一看,還真是。
英偉達畢竟是一家顯卡公司,做出的計算卡仍舊集成了大量的圖形處理功能。
紋理單元、光柵化單元、幾何處理單元、渲染輸出單元、混合抗鋸齒單元……這些單元一個不差的都被保留了下來。
但這些單元大部分的功能柚子框架都不需要。
英偉達也真踏馬奇葩,我要你這M60就是用來做簡單計算的,你給我這麼多顯卡功能幹什麼?
誰用M60打遊戲啊。
“也不能這麼說,這些單元雖然柚子框架不需要,但很多其他的計算模型都需要,比如GaNs對抗網絡,在對抗中生成圖片時,如果有紋理單元,那麼生成的速度就會更快?!?
“我能夠把利用率提高到11%已經是極限了,哪怕英偉達的工程師親自調試,也不過高於9.1%。”
“沒辦法,畢竟英偉達的芯片不是爲柚子框架特意準備的,必須適用所有的模型纔可以。”
柚子抓緊一切時機表功。
方豫點了點頭,剛要說什麼,但聽到柚子這最後一句話,突然好像錯過了什麼。
“你剛纔說什麼?”方豫急切地問柚子。
柚子語氣懵懵的:“我說英偉達的芯片必須適用所有模型啊。”
“不是這句,上一句!”
“英偉達的芯片不是爲柚子框架特意準備的?”柚子小心翼翼的試探問道。
莫名其妙的,它感覺有點心慌。
怎麼總感覺是在給自己挖坑呢?
“對!就是這句!”方豫猛地拍了下手,把旁邊還在看pad的華澤成嚇了一跳。
“沒事沒事,想起來件重要的事?!狈皆バχ牧伺娜A澤成的大腿,在意識中繼續和柚子溝通。
“柚子,你現在蒐集英偉達、AMD、英特爾、AMSL、瀛積電、ARM、高通的芯片技術資料,把它們都吃掉!”
方豫毫不猶豫的通過埃瑟朗之核給柚子下了個指令。
“???”柚子一下子就傻眼了,這得吃到什麼時候去?
就算現在我分身能夠入侵到這些公司的內部服務器,想要把這些絕密資料不露痕跡的複製一份也得螞蟻搬家式的一點一點倒騰啊。
“這只是第一步?!狈皆]理在埃瑟朗之核中拼命發哭臉表情的柚子,繼續下指令。
“吃掉他們的資料後,把它們的技術彙總一下,重修優化後,設計出一款只適用於柚子框架和橘子大模型的計算芯片出來!”
漢寧公館客廳裡,柚子看著電視中的張悍瞬間覺得面目更可憎了。
“主人,那這樣的話,M60撤單不撤單?”柚子現在早學會了迂迴溝通,“撤單的話,定金可就損失了。”
方豫微微一笑:“不撤單,撤什麼單,我又沒說現在就要做芯片,你先把這款芯片設計搞出來再說?!?
軟件+硬件,雙管齊下,看來柚子架構註定是要一統江湖嘍!
近十年人工智能的發展,最重要的兩個節點其實都是古狗引導的。
第一個節點毫無疑問是deepmind的阿法狗,而第二個節點則是古狗大腦在2017年6月發的那篇驚世駭俗的論文《注意力是你需要的一切》(attention is all your need)。
在這篇論文中,古狗大腦的八位研究員,首次提出多頭注意力機制在NPL上面的潛力。當時最原始的transformer模型僅僅只有100M,而這個模型,完全拋棄了循環神經網絡(RNN)和卷積神經網絡(CNN),取而代之的是完全不同的注意力機制以及編碼器-解碼器架構。
值得注意的是,openAI中的伊利亞並不是這篇文章的作者之一的伊利亞波洛蘇金。
這篇文章在17年6月12日發佈後,並沒有第一時間造成很大影響,並且由於其難以收斂,並不比相對成熟的LSTM效率更高,因此在這個階段,大部分研究者的視線並未投向注意力機制的transformer架構,這裡也包括openAI。
openAI在2018年年初,還在用LSTM進行訓練,並且在Dota2裡擊敗了人類。而僅僅幾個月之後,openAI就發佈了GPT-1。
這說明,幾個月的時間,足夠製作一個大模型。
(本章完)