主要講述了1978到1992年間改革開放的大背景下。
以宋運輝、雷東寶、楊巡為代表的先行者們在變革浪潮中不斷探索和突圍的浮沉故事。
總的來說是一部很不錯的電視劇。
恰巧那時在B站看完了吳曉波2018年的跨年演講。
里面提到了,如果你是一個1978年的中國青年,有可能需要按下一個血手印。
故事來源于18個安徽鳳陽小崗村農(nóng)民的分田計劃。
我覺得「大江大河」就很好的展現(xiàn)出了那個時代的現(xiàn)狀。
農(nóng)村改革的先行者東寶書記,知識改變命運的宋運輝,個體經(jīng)營打拼的小楊巡。
都有著自己的人生,去闡述那個時代的點滴。
這也是吸引我繼續(xù)觀看這部電視劇的原因。
去了解那個時代的青年,他們對體制的突破以及改變自己過去的勇氣。
然后結(jié)合最近「流浪地球」豆瓣電影短評的差評的現(xiàn)象。
我也爬取了「大江大河」的豆瓣短評。
來看看有什么貓膩沒有。
在此需要感謝一下2808PROXY提供的代理服務(wù)。
如果沒有他們的支持,我是肯定獲取不到用戶注冊信息的。
因為豆瓣的反爬實在是厲害。
即使我用了穩(wěn)定的代理,豆瓣還是針對我的Cookie進行了封鎖。
假想我沒有用代理的話,估摸著也就只有涼涼二字。
/ 01 / 網(wǎng)頁分析
雖然評論有兩萬多條,但是豆瓣在登陸的情況下,也只是放出500條數(shù)據(jù)。
本次只獲取全部評論以及差評評論標(biāo)簽頁下的數(shù)據(jù),合計約為900多條。
然后便是獲取用戶的注冊時間。
900多個用戶,900多個請求。
我相信不用代理,絕對Game Over。
/ 02 / 數(shù)據(jù)獲取
評論及用戶信息獲取的代碼如下。
獲取全部評論標(biāo)簽頁下的數(shù)據(jù)(500條)。
紅框部分為用戶的注冊時間。
假設(shè)我能爬取所有評論,那么水軍估計要被我逮到了。
個人理解,水軍就是過多的新注冊用戶...
然而豆瓣并沒有給我們這個機會。
獲取差評標(biāo)簽頁的數(shù)據(jù)(482條)。
看看給差評的用戶注冊時間。
相較好評的用戶注冊時間,有那么點意思了。
注冊時間相對都比較晚。
難不成豆瓣真有水軍...
差評水軍,我勸你善良。
/ 03 / 情感分析
評論的情感分析使用百度的自然語言處理。
下面利用網(wǎng)站做個示例。
具體的可以去官網(wǎng)看文檔,這里只是簡述一番。
通過你的百度賬號登陸百度的AI開發(fā)平臺,新建自然語言處理項目。
獲取「API Key」及「Secret Key」后。
調(diào)用情感傾向分析接口,得到情感結(jié)果。
情感分析結(jié)果如下。
總的來說5星評分的結(jié)果多為正向(2)的。
當(dāng)然也出現(xiàn)了一些負(fù)向(0)的結(jié)果。
不過還是在可接受范圍內(nèi)。
沒什么大影響。
1星評分的評論情感傾向多為負(fù)向。
這里把正向的用紅框圈出來了,大家可以自行體會。
畢竟機器的識別水平有限,想達(dá)到100%識別,可能性幾乎為0。
這就好比語文試卷拿滿分,聞所未聞。
總而言之,百度這個情感傾向分析,很不錯。
/ 04 / 數(shù)據(jù)可視化
01 評論日期分布情況
熱評隨著電視劇的開播,便慢慢沒有什么變化。
而差評卻在后頭有一些波動。
假設(shè)我們能夠獲取到差評有異常時所有的用戶注冊時間。
那么便能看是否真的有水軍存在。
當(dāng)然此處僅僅是一個假想而已,豆瓣早已把你我拒之門外。
02 評論時間分布情況
大部分評論都是在晚上評論的,符合常態(tài)。
估摸著晚上都是大家的娛樂時間,便有了閑情逸致去寫評論。
03 評論評分情況
全部短評的5星評分占大頭。
全部差評的1星和2星占大頭。
這對得起豆瓣的8.9分了。
04 評論情感分析情況
其中「2」代表積極的,「1」代表中性的,「-2」代表消極的。
全部短評的正向結(jié)果占大頭。
全部短評的排序是基于點贊數(shù)而來的。
所以對于整部劇,大家還是比較認(rèn)可的。
全部差評的負(fù)向結(jié)果占大頭。
給了差評,情感傾向果斷差了。
05 評論用戶注冊時間
由于數(shù)據(jù)比較少,所以大家看著樂呵就好。
要想判斷出有水軍還是有難度的。
06 評論詞云
好評詞云。
充滿了滿滿的正能量。