天天看小說

第53章 大功告成

不過,在跑代碼之前,還要對數據進行預處理。

江寒先從報名信息表中,將性別信息仍然“健在”的行挑出來,只保留序號、姓名和性別,另存爲label.xls。

這些記錄一共9527條,大約佔三萬多條數據總數的30%。

它們對應著9527張真彩色照片。

24位真彩色的圖片,每個像素點在內存裡,要佔用3個字節的存儲單元。

每張照片有210×120個像素,這樣讀入一張照片,需要的內存空間就是210×120×3=75600個Byte。

9527條數據,共需要9527×75600=720241200B≈686.88M≈0.7G!

這個內存開銷,還是比較容易接受的。

但是,“感知機”的算法,需要進行大量浮點乘法運算。

對每個像素的每個RGB分量都算一遍?

沒那個必要,也太浪費時間。

所以,聰明的做法,是先把照片數據“壓縮”一下。

江寒給“感知機”的代碼,添加了一個LoadData函數,用來讀取和處理照片數據。

在這個函數裡,先定義一個二維的整形數組Feature。

然後從label.xls中讀出序號、姓名信息,按照剛纔建立的索引表,找到對應的照片文件。

下一步,將照片讀取到內存中,讀取的同時,將每個像素二值化。

具體做法是:色彩濃度在閾值以上的像素,取值爲1,低於閾值就讓它爲0。

這樣一來,原本的真彩色照片,就被轉換成了黑白輪廓圖。

然後,再將輪廓圖中的0或者1的取值,按照從左到右、從上到下的順序,重新編排成一行數據,存放到數組Feature中。

Feature中的每一行,都存儲了一張照片的二值化信息。

一共9527張照片,就需要9527行。

全部照片處理完畢後,就得到了一個巨大的二維數組Feature。

它有25200列、9527行。

接下來,定義一個擁有9527個整形元素的一維數組Label。

從label.xls中讀入性別信息,男生設爲1,女生設爲0,存放在數組Label中。

Feature加上對應的Label,就構成了訓練數據集。

訓練“感知機”時,將一行行Feature代入公式中,進行加權和運算,其結果再通過sign函數,轉換爲0或1,然後和對應的Label值對照。

如果不相符,就調整權重和偏置,然後重新計算。

當每一個Feature代入公式後,都能計算出正確的Label時,就得到了一組權重和偏置。

也就是說,構建出了一個可用的數學模型。

依據這個模型,計算機就可以讀入任何一張同尺寸、類型的照片,對其二值化的數據代入模型中運算,並根據運算結果判斷分類歸屬。

這就是典型的機器學習過程,計算機從數據中自己“學”到了某種規律。

即使這種規律,人類並不一定完全理解,也不見得能用數學語言解釋清楚……

剩下的就比較簡單了。

接下來,江寒又添加了幾個函數,用來輸出運算結果、觀察運行情況等。

最後,從頭調試了一遍,確認沒啥bug後,將代碼重新編譯,然後運行了起來。

屏幕上有一些數字,表示當前正在處理的數據,和訓練進度的百分比。

十分鐘後,後一個數字纔剛剛達到1.3%。

這表示,完整訓練一遍,大約需要13個小時……

之所以這麼慢,主要是江寒的程序,比較追求穩定性,以及調試的方便、快捷,並沒特別講究執行效率。

當然,即使他用心優化,估計也需要8個小時以上,才能完成訓練。

雖然有點慢,但其實沒什麼關係,訓練過程並不需要人工干預,掛機等著就行。

第二天早晨,江寒起牀後,先看了下訓練進度,還差了大約13%才能完成,就先去班級上課。

中午吃完飯回來,訓練終於結束了。

而存放權重和偏置參數的Weight數組,也以內存映像的方式,保存在了一個二進制文件中。

接下來就簡單了。

重建一個一模一樣的感知機模型,加載上這個權重文件,就可以用它來判斷剩餘照片的性別了。

江寒重新改寫代碼,然後運行。

這次十分迅速,只用了不到20分鐘,就將兩萬一千來張照片,全部處理完畢。

這就是“感知機”,或者說“人工神經網絡”的特點。

訓練起來特別耗時,一旦訓練完成,工作起來非常快捷。

至於正確率,江寒初步估計,大大超過99%,21000條未經訓練的數據裡,判斷出錯的,絕不超過10人。

比人類肉眼的識別率低不到哪裡去。

事實上,“感知機”或者說“人工神經網絡”的錯誤率,跟訓練數據、測試數據的質量有很大關係。

如果比較規範,達到100%的識別率都不算稀奇。

可惜實際運用中,總有個別實例,奇葩得超乎想象。

有的時候,人類都幾乎無法識別!

根據老高的說法,這區區幾個錯誤的,可以在把名單下達到各校後,根據反饋修改一下就行。

如果沒有這個託底,就沒法使用“感知機”,因爲沒辦法判斷,哪些人被誤分類了……

得到了全部照片的性別數據後,江寒將其粘貼到了《報名信息表》中。

大功告成後,江寒沒急著找高老師覆命。

這麼快就搞定,老高肯定會十分震驚,然後追問前因後果。

“感知機”解釋起來太費勁,而且也沒那麼高大上,還用不著見人就推銷。

關鍵老高一個人貢獻的那點震驚值,江寒現在已經有點看不上眼了。

休息了一會兒後,江寒就拿著《noip通關寶典》,回班級繼續刷題。

※※※※※

“槓上開”是一個營銷號主。

什麼是營銷號?

百科上說,一般是指組織機構或者個人對外宣傳散發信息所用的賬號,具有目的性,一般是用來宣傳產品或服務的。

狹義上說,就是純粹以賺錢爲目的,專門在各大視頻站上傳垃圾內容的人。

內容粗製濫造?那是基本操作;

虛假宣傳和科普?那是日常作業;

動不動危言聳聽、各種震驚?這根本就不算事兒。

沒事兒噹噹水軍,引導引導輿論,纔是他們的主要業務。

反正很多事情,很多人既不瞭解,也不具備判別能力,還不是哪邊人多信哪邊……

你說網友們義憤填膺?

上面都不管,網友算老幾,錢到手纔是真的。

爲什麼網站不整治?

一個是很難區分,容易誤傷正常的up主;

再一個,網站跟流量什麼仇、什麼怨……

“槓上開”就是這樣一個營銷號,每天出沒於各個視頻站,P站算是他最重要的基本盤。

他最常做的,就是接受客戶的委託,然後不擇手段地完成任務。

視頻網站給的那點補貼,他根本沒放在眼裡,客戶的賞金纔是大頭。

今天,他做完“作業”,上傳完幾個視頻,然後隨便在P站逛了一會兒。

忽然,一個點擊、投幣超高的視頻,躍入了眼簾。

本月熱門?

“槓上開”來了點興趣。

仔細一看標題,頓時有點無語。

《舊光驅改造寫字機器人》……真夠誇張的,你怎麼不改造成航母呢?

不過,好奇之下,他還是點開了視頻,看了一眼。

結果,一看之下,他瞬間就驚呆了。

臥槽,還真是個高手,這動手能力有點逆天了。

本著一個營銷號的職業精神,“槓上開”感到了一種久違的使命感。

必須做點什麼。

沒錯,這麼有創意的視頻,不盜上一把,他簡直渾身藍瘦!

不過,簡單的重發是不行的,網站的審覈員職位,也不是白設置的。

所以,還需要用點技巧,稍微加工、處理一下……

第299章 膽大妄爲,實力恐怖第408章 初入燕園第52章 “感知機”的初次實戰第315章 故伎重施第55章 委託第419章 媽可能是親媽,爹……第211章 就當幫他們改進一下服務質量了第388章 組隊刷分,在線賣軟第370章 四軸飛行器第2章 基本操作第400章 不可逾越的高山第20章 寫論文第61章 記憶和遺忘的生物學原理第341章 決戰楓林火山第411章 不可不防,防不勝防第225章 papa別鬧!第29章 王璐有點自閉第231章 水漫金山第70章 水上公園第195章 二八佳人體如酥第339章 翻雲覆雨,點石成金第239章 沒有對比就沒有傷害第13章 “感知機”和“M-P模型”第250章 幸虧有雙保險第117章 沒聽說過?第401章 有種奇遇叫頓悟第284章 江寒的操作第271章 破壞永遠比建設更容易第170章 只是一場遊戲嗎?第351章 送她點什麼?第45章 火了第187章 牀下的小畫冊第43章 寫字機器人第171章 蘇婉瑩的秘密第349章 說錯了什麼?第62章 校長的鼓勵第192章 許文強和馮程程第60章 費曼學習法第234章 恐高癥第192章 許文強和馮程程第411章 不可不防,防不勝防第97章 媽媽問我爲何跪著看手機?第1章 一夜回到十年前第252章 生吃海蔘,不蘸醬油第370章 四軸飛行器第327章 雨雪交加、霏雯相對第127章 只怪準備得太充分了第318章 飛機點餐攻略第183章 成功的路上沒有僥倖第424章 又一個冠軍到手第207章 複賽環境和Arbiter評測系統第3章 一個大膽的想法第255章 調整超參數,以及防止過擬合第128章 被傳染了怎麼辦?第19章 一切爲了押韻第338章 脫胎換骨,戰神軍團第135章 巧合?考驗?第336章 女孩的心思你別猜第350章 男生不準進去的地方第266章 篩選模型,以及最後的優勝者第57章 非常巨大第151章 那就別走了第175章 一億一個第386章 測量“虛擬空間”的曲率第34章 遊戲發佈第257章 NOIP中最難的題型第188章 金風玉露一相逢第183章 成功的路上沒有僥倖第398章 商用級手寫識別算法第126章 八樓的直升飛機第39章 這可能是個誤會第376章 很像一臺成熟的計算機了第160章 只能看到文章本身第83章 髮卡第419章 媽可能是親媽,爹……第115章 無線電發射器第175章 一億一個第384章 把知識“安裝”到大腦裡第174章 良心工作室第183章 成功的路上沒有僥倖第221章 超級大腦,人傑地靈第260章 這可是B5啊!第390章 兩份DNA檢測報告單第170章 只是一場遊戲嗎?第241章 學習改變命運第145章 陳萱的邀請第12章 重生的使命第58章 作報告?第266章 篩選模型,以及最後的優勝者第317章 爲什麼偏偏是那串數字?第317章 爲什麼偏偏是那串數字?第203章 誰支持、誰反對?第116章 要節制一點了第310章 唯一的破綻第276章 丟1分和拿滿分,哪個更難?第386章 測量“虛擬空間”的曲率第408章 初入燕園第26章 週一凡的震驚第250章 幸虧有雙保險
第299章 膽大妄爲,實力恐怖第408章 初入燕園第52章 “感知機”的初次實戰第315章 故伎重施第55章 委託第419章 媽可能是親媽,爹……第211章 就當幫他們改進一下服務質量了第388章 組隊刷分,在線賣軟第370章 四軸飛行器第2章 基本操作第400章 不可逾越的高山第20章 寫論文第61章 記憶和遺忘的生物學原理第341章 決戰楓林火山第411章 不可不防,防不勝防第225章 papa別鬧!第29章 王璐有點自閉第231章 水漫金山第70章 水上公園第195章 二八佳人體如酥第339章 翻雲覆雨,點石成金第239章 沒有對比就沒有傷害第13章 “感知機”和“M-P模型”第250章 幸虧有雙保險第117章 沒聽說過?第401章 有種奇遇叫頓悟第284章 江寒的操作第271章 破壞永遠比建設更容易第170章 只是一場遊戲嗎?第351章 送她點什麼?第45章 火了第187章 牀下的小畫冊第43章 寫字機器人第171章 蘇婉瑩的秘密第349章 說錯了什麼?第62章 校長的鼓勵第192章 許文強和馮程程第60章 費曼學習法第234章 恐高癥第192章 許文強和馮程程第411章 不可不防,防不勝防第97章 媽媽問我爲何跪著看手機?第1章 一夜回到十年前第252章 生吃海蔘,不蘸醬油第370章 四軸飛行器第327章 雨雪交加、霏雯相對第127章 只怪準備得太充分了第318章 飛機點餐攻略第183章 成功的路上沒有僥倖第424章 又一個冠軍到手第207章 複賽環境和Arbiter評測系統第3章 一個大膽的想法第255章 調整超參數,以及防止過擬合第128章 被傳染了怎麼辦?第19章 一切爲了押韻第338章 脫胎換骨,戰神軍團第135章 巧合?考驗?第336章 女孩的心思你別猜第350章 男生不準進去的地方第266章 篩選模型,以及最後的優勝者第57章 非常巨大第151章 那就別走了第175章 一億一個第386章 測量“虛擬空間”的曲率第34章 遊戲發佈第257章 NOIP中最難的題型第188章 金風玉露一相逢第183章 成功的路上沒有僥倖第398章 商用級手寫識別算法第126章 八樓的直升飛機第39章 這可能是個誤會第376章 很像一臺成熟的計算機了第160章 只能看到文章本身第83章 髮卡第419章 媽可能是親媽,爹……第115章 無線電發射器第175章 一億一個第384章 把知識“安裝”到大腦裡第174章 良心工作室第183章 成功的路上沒有僥倖第221章 超級大腦,人傑地靈第260章 這可是B5啊!第390章 兩份DNA檢測報告單第170章 只是一場遊戲嗎?第241章 學習改變命運第145章 陳萱的邀請第12章 重生的使命第58章 作報告?第266章 篩選模型,以及最後的優勝者第317章 爲什麼偏偏是那串數字?第317章 爲什麼偏偏是那串數字?第203章 誰支持、誰反對?第116章 要節制一點了第310章 唯一的破綻第276章 丟1分和拿滿分,哪個更難?第386章 測量“虛擬空間”的曲率第408章 初入燕園第26章 週一凡的震驚第250章 幸虧有雙保險
主站蜘蛛池模板: 富锦市| 红安县| 垦利县| 曲水县| 衡阳县| 鹤山市| 始兴县| 兴化市| 惠水县| 顺平县| 松潘县| 曲水县| 九江市| 县级市| 平山县| 宁津县| 大渡口区| 泰顺县| 右玉县| 邻水| 诸城市| 墨玉县| 治县。| 太仆寺旗| 宜兰县| 南京市| 天台县| 濮阳市| 武义县| 永靖县| 宜宾市| 河西区| 雷山县| 怀柔区| 罗甸县| 石屏县| 平谷区| 三门县| 吉林市| 长治县| 巴东县|