开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

    1. 
      
        <b id="zqfy3"><legend id="zqfy3"><fieldset id="zqfy3"></fieldset></legend></b>
          <ul id="zqfy3"></ul>
          <blockquote id="zqfy3"><strong id="zqfy3"><dfn id="zqfy3"></dfn></strong></blockquote>
          <blockquote id="zqfy3"><legend id="zqfy3"></legend></blockquote>
          打開(kāi)APP
          userphoto
          未登錄

          開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

          開(kāi)通VIP
          使用機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)電影利潤(rùn)

          使用機(jī)器學(xué)習(xí)預(yù)測(cè)電影的利潤(rùn)

          電影業(yè)是一個(gè)龐大的投資領(lǐng)域,但較大的商業(yè)領(lǐng)域更加復(fù)雜,而且很難選擇如何投資。此外,重大投資伴隨著更大的風(fēng)險(xiǎn)。隨著電影行業(yè)日益增長(zhǎng),現(xiàn)在互聯(lián)網(wǎng)上有大量的數(shù)據(jù)可供使用,這使其成為一個(gè)令人興奮的數(shù)據(jù)分析領(lǐng)域。預(yù)測(cè)電影的票房成功是一項(xiàng)非常復(fù)雜的任務(wù)。

          只有預(yù)先發(fā)布的特征才被認(rèn)為是預(yù)測(cè)一部即將上映的電影的成功。這里預(yù)先發(fā)布的特征包括電影預(yù)算、電影上映的屏幕數(shù)量、美國(guó)電影協(xié)會(huì)(MPAA)的評(píng)級(jí)、演員/女演員的明星影響力、導(dǎo)演的啟動(dòng)力和上映月份。在發(fā)布電影一到幾周后,發(fā)布后的特征將有助于提高預(yù)測(cè)的準(zhǔn)確性,因?yàn)檫@些特征是可用的。為了更好的分類(lèi),我使用了5個(gè)類(lèi)別而不是2個(gè)(慘淡/大賣(mài))類(lèi)別。預(yù)先發(fā)布的特征將作為輸入,它將被分為這5類(lèi)。

          將有兩種類(lèi)型的預(yù)測(cè),一種是精確匹配,它指的是正確的分類(lèi),另一種是遠(yuǎn)離預(yù)測(cè),這意味著從特定類(lèi)型向上或向下考慮一個(gè)類(lèi)以及完全匹配。

          現(xiàn)在,下一部分將是數(shù)據(jù)準(zhǔn)備。它可以分5個(gè)階段完成,

          1.數(shù)據(jù)采集? - 可以通過(guò)抓取IMDb,爛番茄,Metacritic和Box Office Mojo等網(wǎng)站來(lái)提取一些預(yù)測(cè)特征,同時(shí)可以使用python API提取某些特征。

          2.數(shù)據(jù)清理 - 數(shù)據(jù)集中有很多電影的預(yù)算是不可用的。在這些電影中,沒(méi)有幾部不具備大部分特征。這些電影中有許多是中國(guó)、俄羅斯或印度電影,因此無(wú)法正確地翻譯標(biāo)題,以鏈接和提取相應(yīng)的用戶(hù)評(píng)論和評(píng)級(jí)。這些影片必須從數(shù)據(jù)集中刪除。

          3.特征提取 - 許多預(yù)測(cè)成功的特征必須使用數(shù)據(jù)集中提供的原始數(shù)據(jù)進(jìn)行計(jì)算。例如,評(píng)分的倍增值和評(píng)分的用戶(hù)數(shù)量被用作單個(gè)特征。一個(gè)演員的明星影響力是由他/她主演的所有電影的收入總和來(lái)計(jì)算的。

          預(yù)算是另一個(gè)預(yù)發(fā)布的特征。如果一部電影的制作預(yù)算較高,它就有更大的機(jī)會(huì)通過(guò)宣傳獲得更多的人氣。所以預(yù)算高的電影有更高的機(jī)會(huì)獲得更多的收入。計(jì)算所有在兩周內(nèi)上映的電影的數(shù)量,包括之前和之后,并將其稱(chēng)為“Competition Score(CS)”。然后根據(jù)CS的倒數(shù)計(jì)算'Competition Factor(CF)',這意味著競(jìng)爭(zhēng)越激烈,得分越低。 同樣,也提取其他特征。

          4.數(shù)據(jù)整合和轉(zhuǎn)換 - 為此,目標(biāo)分為5類(lèi),從慘淡到大賣(mài)。每個(gè)特征都分為這5個(gè)類(lèi)。例如,放映數(shù)量的分類(lèi)如下:

          1. - - - 放映數(shù)量<= 100;
          2. - - - 100 <放映數(shù)量<= 500;
          3. - - - 500 <放映數(shù)量<= 2000;
          4. - - - 2000 <放映數(shù)量<= 3000;
          5. - - - 放映數(shù)量> 3000 。

          同樣,其他特征也分為5類(lèi)。為了根據(jù)評(píng)論對(duì)電影進(jìn)行分類(lèi),將進(jìn)行情緒分析,并預(yù)測(cè)電影的情緒(范圍在5以?xún)?nèi))。

          5.數(shù)據(jù)歸一化? - 首先將演員、導(dǎo)演和發(fā)布日期等非數(shù)值變量轉(zhuǎn)換為數(shù)值。然后對(duì)數(shù)值進(jìn)行標(biāo)準(zhǔn)化,使數(shù)值位于0和1之間,以避免數(shù)值的較大變化。在數(shù)據(jù)準(zhǔn)備完成之后,使用分類(lèi)算法對(duì)電影進(jìn)行5類(lèi)分類(lèi)。利潤(rùn)預(yù)測(cè)將按如下方式計(jì)算:

          利潤(rùn)=總計(jì)- 預(yù)算

          根據(jù)預(yù)測(cè)的類(lèi)別對(duì)電影進(jìn)行分組。計(jì)算組的最大利潤(rùn)和最小利潤(rùn)的平均值。該范圍將是電影的預(yù)測(cè)利潤(rùn)范圍。

          例如:

          類(lèi) - - - - 利潤(rùn)范圍;

          1. - - - - - 利潤(rùn)<= 五百萬(wàn)(慘淡);
          2. - - - - - 五百萬(wàn)<利潤(rùn)<= 1千萬(wàn);
          3. - - - - - 1千萬(wàn)<利潤(rùn)<= 4千萬(wàn);
          4. - - - - - 4千萬(wàn)<利潤(rùn)<= 1.5億;
          5. - - - - -利潤(rùn)> 1.5億(大賣(mài))。

          [2]用于對(duì)5類(lèi)中的電影進(jìn)行分類(lèi)的分類(lèi)算法:

          壹.隨機(jī)森林

          它本質(zhì)上適用于多類(lèi)問(wèn)題。它適用于處理數(shù)值和分類(lèi)特征的混合,在這個(gè)問(wèn)題中是一個(gè)主要因素。當(dāng)特征在各種尺度上,它也很好。粗略地說(shuō),使用隨機(jī)森林,您可以按原樣使用數(shù)據(jù)。隨機(jī)森林算法比支持向量機(jī)(SVM)更容易調(diào)整。

          優(yōu)點(diǎn):

          1. 它通過(guò)平均幾棵樹(shù)來(lái)減少過(guò)度擬合的可能性。
          2. 它們不需要準(zhǔn)備輸入數(shù)據(jù)。您不必縮放數(shù)據(jù)。

          缺點(diǎn):

          1. 與其他算法相比,隨機(jī)森林算法的預(yù)測(cè)過(guò)程比較耗時(shí)。
          2. 它們需要更多的計(jì)算資源,也不太直觀。當(dāng)您擁有大量決策樹(shù)時(shí),很難直觀地掌握輸入數(shù)據(jù)中存在的關(guān)系。

          貳.支持向量機(jī)(SVM)

          對(duì)于預(yù)測(cè),可以使用幾種機(jī)器學(xué)習(xí)算法,例如Naive Bayes,Random Forest和Logistic回歸等。這些分類(lèi)器足以用于二進(jìn)制分類(lèi),其中一些可用于多類(lèi)分類(lèi)。但是,當(dāng)數(shù)據(jù)模式非常復(fù)雜時(shí),SVM始終產(chǎn)生更好的結(jié)果。對(duì)于電影利潤(rùn)預(yù)測(cè),需要健全的特征。對(duì)于這種復(fù)雜的數(shù)據(jù)模式,SVM在機(jī)器學(xué)習(xí)算法中發(fā)揮最佳作用。

          優(yōu)點(diǎn):

          1. 作為一種代價(jià)敏感的分類(lèi)器,它可以解決數(shù)據(jù)不平衡的問(wèn)題。在現(xiàn)實(shí)生活中的問(wèn)題中,可能存在正數(shù)據(jù)的數(shù)量大于負(fù)數(shù)據(jù)的數(shù)量的情況。
          2. 與其他非線性分類(lèi)器相比,該算法降低了計(jì)算復(fù)雜度并且提高了分類(lèi)效率 。

          缺點(diǎn):

          1. 在SVM中很難選擇最優(yōu)的內(nèi)核函數(shù)。
          2. 速度,大小和學(xué)習(xí)速率都有限制。

          叁.神經(jīng)網(wǎng)絡(luò)

          使用深度神經(jīng)網(wǎng)絡(luò)可以在所有方面最好地解決這個(gè)問(wèn)題。它由一組隱藏層組成,借助反向傳播技術(shù)學(xué)習(xí)復(fù)雜的數(shù)據(jù)模式。深度神經(jīng)網(wǎng)絡(luò)是迄今為止用于分類(lèi)的最佳方法。

          我們向網(wǎng)絡(luò)提供的數(shù)據(jù)越多,它給出的結(jié)果就越準(zhǔn)確。我們知道電影行業(yè)是一個(gè)快速發(fā)展的行業(yè),隨著時(shí)間的推移,我們可以獲得更多的數(shù)據(jù)集。

          優(yōu)點(diǎn):

          1. 神經(jīng)網(wǎng)絡(luò)是一種非參數(shù)模型,即消除了參數(shù)估計(jì)中的誤差 ,而大多數(shù)統(tǒng)計(jì)方法(MLR等)是需要較高統(tǒng)計(jì)背景的參數(shù)模型。
          2. 它具有處理不完整知識(shí)的能力。

          缺點(diǎn):

          1. 它需要大量的計(jì)算時(shí)間。
          2. 與其他模型(如決策樹(shù))相比,由于學(xué)習(xí)權(quán)重背后的未知符號(hào)邏輯意義,模型的可解釋性較差 。

          結(jié)論

          在使用神經(jīng)網(wǎng)絡(luò)的這三種算法中,這是解決此問(wèn)題的最佳方法。這是因?yàn)閷?duì)神經(jīng)網(wǎng)絡(luò)中的預(yù)測(cè)的準(zhǔn)確性沒(méi)有限制。隨著數(shù)據(jù)集的增加,其準(zhǔn)確性也會(huì)提高。此外,對(duì)于復(fù)雜的數(shù)據(jù)模式,如電影預(yù)發(fā)布特征,深度神經(jīng)網(wǎng)絡(luò)可能比其他機(jī)器學(xué)習(xí)算法非常有用。

          本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶(hù)發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
          打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
          猜你喜歡
          類(lèi)似文章
          人工智能及其在心血管精準(zhǔn)醫(yī)療中的應(yīng)用
          支持向量機(jī)及其應(yīng)用
          選擇最佳機(jī)器學(xué)習(xí)模型的10步指南
          深度了解卷積神經(jīng)網(wǎng)絡(luò)
          貝葉斯機(jī)器學(xué)習(xí)到底是什么?看完這篇你就懂啦
          深度學(xué)習(xí)六十問(wèn)!一位算法工程師經(jīng)歷30+場(chǎng)CV面試后總結(jié)的常見(jiàn)問(wèn)題合集下篇(含答案)
          更多類(lèi)似文章 >>
          生活服務(wù)
          分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
          綁定賬號(hào)成功
          后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
          如果VIP功能使用有故障,
          可點(diǎn)擊這里聯(lián)系客服!

          聯(lián)系客服