電影業(yè)是一個(gè)龐大的投資領(lǐng)域,但較大的商業(yè)領(lǐng)域更加復(fù)雜,而且很難選擇如何投資。此外,重大投資伴隨著更大的風(fēng)險(xiǎn)。隨著電影行業(yè)日益增長(zhǎng),現(xiàn)在互聯(lián)網(wǎng)上有大量的數(shù)據(jù)可供使用,這使其成為一個(gè)令人興奮的數(shù)據(jù)分析領(lǐng)域。預(yù)測(cè)電影的票房成功是一項(xiàng)非常復(fù)雜的任務(wù)。
只有預(yù)先發(fā)布的特征才被認(rèn)為是預(yù)測(cè)一部即將上映的電影的成功。這里預(yù)先發(fā)布的特征包括電影預(yù)算、電影上映的屏幕數(shù)量、美國(guó)電影協(xié)會(huì)(MPAA)的評(píng)級(jí)、演員/女演員的明星影響力、導(dǎo)演的啟動(dòng)力和上映月份。在發(fā)布電影一到幾周后,發(fā)布后的特征將有助于提高預(yù)測(cè)的準(zhǔn)確性,因?yàn)檫@些特征是可用的。為了更好的分類(lèi),我使用了5個(gè)類(lèi)別而不是2個(gè)(慘淡/大賣(mài))類(lèi)別。預(yù)先發(fā)布的特征將作為輸入,它將被分為這5類(lèi)。
將有兩種類(lèi)型的預(yù)測(cè),一種是精確匹配,它指的是正確的分類(lèi),另一種是遠(yuǎn)離預(yù)測(cè),這意味著從特定類(lèi)型向上或向下考慮一個(gè)類(lèi)以及完全匹配。
現(xiàn)在,下一部分將是數(shù)據(jù)準(zhǔn)備。它可以分5個(gè)階段完成,
1.數(shù)據(jù)采集? - 可以通過(guò)抓取IMDb,爛番茄,Metacritic和Box Office Mojo等網(wǎng)站來(lái)提取一些預(yù)測(cè)特征,同時(shí)可以使用python API提取某些特征。
2.數(shù)據(jù)清理 - 數(shù)據(jù)集中有很多電影的預(yù)算是不可用的。在這些電影中,沒(méi)有幾部不具備大部分特征。這些電影中有許多是中國(guó)、俄羅斯或印度電影,因此無(wú)法正確地翻譯標(biāo)題,以鏈接和提取相應(yīng)的用戶(hù)評(píng)論和評(píng)級(jí)。這些影片必須從數(shù)據(jù)集中刪除。
3.特征提取 - 許多預(yù)測(cè)成功的特征必須使用數(shù)據(jù)集中提供的原始數(shù)據(jù)進(jìn)行計(jì)算。例如,評(píng)分的倍增值和評(píng)分的用戶(hù)數(shù)量被用作單個(gè)特征。一個(gè)演員的明星影響力是由他/她主演的所有電影的收入總和來(lái)計(jì)算的。
預(yù)算是另一個(gè)預(yù)發(fā)布的特征。如果一部電影的制作預(yù)算較高,它就有更大的機(jī)會(huì)通過(guò)宣傳獲得更多的人氣。所以預(yù)算高的電影有更高的機(jī)會(huì)獲得更多的收入。計(jì)算所有在兩周內(nèi)上映的電影的數(shù)量,包括之前和之后,并將其稱(chēng)為“Competition Score(CS)”。然后根據(jù)CS的倒數(shù)計(jì)算'Competition Factor(CF)',這意味著競(jìng)爭(zhēng)越激烈,得分越低。 同樣,也提取其他特征。
4.數(shù)據(jù)整合和轉(zhuǎn)換 - 為此,目標(biāo)分為5類(lèi),從慘淡到大賣(mài)。每個(gè)特征都分為這5個(gè)類(lèi)。例如,放映數(shù)量的分類(lèi)如下:
同樣,其他特征也分為5類(lèi)。為了根據(jù)評(píng)論對(duì)電影進(jìn)行分類(lèi),將進(jìn)行情緒分析,并預(yù)測(cè)電影的情緒(范圍在5以?xún)?nèi))。
5.數(shù)據(jù)歸一化? - 首先將演員、導(dǎo)演和發(fā)布日期等非數(shù)值變量轉(zhuǎn)換為數(shù)值。然后對(duì)數(shù)值進(jìn)行標(biāo)準(zhǔn)化,使數(shù)值位于0和1之間,以避免數(shù)值的較大變化。在數(shù)據(jù)準(zhǔn)備完成之后,使用分類(lèi)算法對(duì)電影進(jìn)行5類(lèi)分類(lèi)。利潤(rùn)預(yù)測(cè)將按如下方式計(jì)算:
利潤(rùn)=總計(jì)- 預(yù)算
根據(jù)預(yù)測(cè)的類(lèi)別對(duì)電影進(jìn)行分組。計(jì)算組的最大利潤(rùn)和最小利潤(rùn)的平均值。該范圍將是電影的預(yù)測(cè)利潤(rùn)范圍。
例如:
類(lèi) - - - - 利潤(rùn)范圍;
[2]用于對(duì)5類(lèi)中的電影進(jìn)行分類(lèi)的分類(lèi)算法:
壹.隨機(jī)森林
它本質(zhì)上適用于多類(lèi)問(wèn)題。它適用于處理數(shù)值和分類(lèi)特征的混合,在這個(gè)問(wèn)題中是一個(gè)主要因素。當(dāng)特征在各種尺度上,它也很好。粗略地說(shuō),使用隨機(jī)森林,您可以按原樣使用數(shù)據(jù)。隨機(jī)森林算法比支持向量機(jī)(SVM)更容易調(diào)整。
優(yōu)點(diǎn):
缺點(diǎn):
貳.支持向量機(jī)(SVM)
對(duì)于預(yù)測(cè),可以使用幾種機(jī)器學(xué)習(xí)算法,例如Naive Bayes,Random Forest和Logistic回歸等。這些分類(lèi)器足以用于二進(jìn)制分類(lèi),其中一些可用于多類(lèi)分類(lèi)。但是,當(dāng)數(shù)據(jù)模式非常復(fù)雜時(shí),SVM始終產(chǎn)生更好的結(jié)果。對(duì)于電影利潤(rùn)預(yù)測(cè),需要健全的特征。對(duì)于這種復(fù)雜的數(shù)據(jù)模式,SVM在機(jī)器學(xué)習(xí)算法中發(fā)揮最佳作用。
優(yōu)點(diǎn):
缺點(diǎn):
叁.神經(jīng)網(wǎng)絡(luò)
使用深度神經(jīng)網(wǎng)絡(luò)可以在所有方面最好地解決這個(gè)問(wèn)題。它由一組隱藏層組成,借助反向傳播技術(shù)學(xué)習(xí)復(fù)雜的數(shù)據(jù)模式。深度神經(jīng)網(wǎng)絡(luò)是迄今為止用于分類(lèi)的最佳方法。
我們向網(wǎng)絡(luò)提供的數(shù)據(jù)越多,它給出的結(jié)果就越準(zhǔn)確。我們知道電影行業(yè)是一個(gè)快速發(fā)展的行業(yè),隨著時(shí)間的推移,我們可以獲得更多的數(shù)據(jù)集。
優(yōu)點(diǎn):
缺點(diǎn):
結(jié)論
在使用神經(jīng)網(wǎng)絡(luò)的這三種算法中,這是解決此問(wèn)題的最佳方法。這是因?yàn)閷?duì)神經(jīng)網(wǎng)絡(luò)中的預(yù)測(cè)的準(zhǔn)確性沒(méi)有限制。隨著數(shù)據(jù)集的增加,其準(zhǔn)確性也會(huì)提高。此外,對(duì)于復(fù)雜的數(shù)據(jù)模式,如電影預(yù)發(fā)布特征,深度神經(jīng)網(wǎng)絡(luò)可能比其他機(jī)器學(xué)習(xí)算法非常有用。
聯(lián)系客服