开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

    1. 
      
        <b id="zqfy3"><legend id="zqfy3"><fieldset id="zqfy3"></fieldset></legend></b>
          <ul id="zqfy3"></ul>
          <blockquote id="zqfy3"><strong id="zqfy3"><dfn id="zqfy3"></dfn></strong></blockquote>
          <blockquote id="zqfy3"><legend id="zqfy3"></legend></blockquote>
          打開APP
          userphoto
          未登錄

          開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

          開通VIP
          從威爾?史密斯鬼畜吃面到「Her」,這些幕后技術(shù)正在推動(dòng)AI視頻時(shí)代的到來
          機(jī)器之心原創(chuàng)

          作者:張倩


          還記得「威爾?史密斯吃意大利面」的 AI 鬼畜視頻嗎?在這些視頻里,威爾?史密斯的面部表情、動(dòng)作都非常夸張,還充滿了扭曲、變形。


          一年多以前,大部分 AI 視頻生成模型確實(shí)只能達(dá)到這樣的水平。但如今,情況完全不同了:AI 不僅能讓表情、動(dòng)作和光影都非常自然,還能運(yùn)用豐富的鏡頭語言,生成的視頻具有電影級別的質(zhì)感。



          這種讓國外網(wǎng)友都大呼「有用」的生成效果來自字節(jié)跳動(dòng)前段時(shí)間發(fā)布的豆包?視頻生成模型。在開啟內(nèi)測后,機(jī)器之心也進(jìn)行過測試,效果非常驚艷(參見《終于拿到內(nèi)測!豆包 - PixelDance 真是字節(jié)視頻生成大殺器》)。

          回想今年年初 Sora 問世之際,國內(nèi) AI 社區(qū)還彌漫著一種悲觀的情緒,覺得 AI 視頻生成門檻頗高,國內(nèi)企業(yè)想彎道超車難度不小。然而令人意外的是,Sora 高開低走,遲遲未向公眾開放。反倒是國產(chǎn)模型不斷帶來驚喜,甚至有演變成生產(chǎn)力工具的趨勢。


          那么,面對重重困難,國內(nèi)的視頻生成模型為什么會(huì)發(fā)展得如此之快?豆包?視頻生成模型的背后有哪些技術(shù)底座在提供支撐?生成式 AI 浪潮帶來的視頻數(shù)據(jù)激增、編解碼技術(shù)挑戰(zhàn)如何解決?在剛剛召開的 2024 火山引擎視頻云技術(shù)大會(huì)上,我們找到了一些答案。

          算力、編解碼、框架:AI 視頻時(shí)代的三大挑戰(zhàn)

          如果你在小紅書上圍觀過「即夢 AI 短片挑戰(zhàn)賽」,那你一定會(huì)被網(wǎng)友們的創(chuàng)意所打動(dòng)。此前,這些創(chuàng)意因視頻制作門檻過高而處于休眠狀態(tài)。如今,隨著生成式 AI 的發(fā)展,創(chuàng)建高質(zhì)量的視頻變得更加簡單,生成的視頻數(shù)量隨之大幅增加。這帶來了新的商業(yè)機(jī)會(huì)和應(yīng)用場景。


          但這種數(shù)據(jù)量的增長也伴隨著一些問題,其中最突出的是對計(jì)算資源的巨大需求。視頻數(shù)據(jù)量增加,意味著需要更多的算力來處理這些數(shù)據(jù)。與此同時(shí),訓(xùn)練、推理的計(jì)算成本也急劇上升。例如,Sora 訓(xùn)練和推理所需的算力比 GPT-4 還要高很多,訓(xùn)練算力需求是 GPT-4 的 4.5 倍,推理需求則接近 400 倍。這表明,隨著視頻生成技術(shù)的發(fā)展,算力層需要經(jīng)歷一場變革。

          此外,視頻處理的核心技術(shù) —— 編解碼也面臨著挑戰(zhàn)。視頻編碼的目的是將視頻數(shù)據(jù)壓縮成更小的文件,便于存儲(chǔ)和傳輸;而解碼則是將壓縮的視頻還原成可以播放的格式。這兩者的效率直接影響視頻的質(zhì)量、存儲(chǔ)空間的需求、網(wǎng)絡(luò)傳輸?shù)乃俣纫约霸O(shè)備播放視頻的流暢度。因此,編解碼技術(shù)對于視頻處理來說至關(guān)重要。 

          傳統(tǒng)的編解碼技術(shù)是基于固定的算法和規(guī)則進(jìn)行的,比如通過一些特定的壓縮算法來減小視頻文件的大小。然而,隨著 AI 技術(shù)的進(jìn)步,編解碼技術(shù)也逐漸向智能化方向發(fā)展。不過,如何將 AI 與編解碼技術(shù)深度融合仍然是一個(gè)具有挑戰(zhàn)性的問題。

          再說回視頻生成本身。其實(shí),視頻的生成和處理涉及大量復(fù)雜的步驟,包括預(yù)處理、數(shù)據(jù)分析、壓縮、生成等等。在這些過程中,框架層起到了組織和協(xié)調(diào)各種處理任務(wù)的作用。隨著生成式 AI 和大模型的興起,傳統(tǒng)的框架已經(jīng)難以應(yīng)對龐大而復(fù)雜的處理需求。其中,視頻數(shù)據(jù)的預(yù)處理尤其棘手,面臨成本、質(zhì)量、協(xié)同、性能等多方面挑戰(zhàn)。因此,必須構(gòu)建更強(qiáng)大的框架,以支持大規(guī)模的數(shù)據(jù)處理和復(fù)雜的視頻任務(wù)。 

          面對這些難題,火山引擎已經(jīng)研發(fā)出了一系列解決方案。

          比如在算力層,他們?nèi)ツ昃屯瞥隽俗匝械?/span>視頻轉(zhuǎn)碼專用芯片。經(jīng)過一年的精心打磨和廣泛應(yīng)用,該芯片已經(jīng)取得了顯著的成效,在抖音的實(shí)踐中實(shí)現(xiàn)了效率的顯著提升和成本的大幅下降。具體來說,一臺(tái)芯片服務(wù)器轉(zhuǎn)碼能力算力相當(dāng)于百臺(tái) CPU 服務(wù)器。在同等視頻壓縮效率下,它的成本可以節(jié)省 95% 以上。在本次大會(huì)上,他們還宣布首次正式對外開放測試,招募首批種子用戶,共同探索該芯片商業(yè)價(jià)值的可復(fù)制性。


          在編解碼算法層,他們結(jié)合傳統(tǒng)壓縮技術(shù)與深度學(xué)習(xí)技術(shù),推出了 BVC2 智能混合編解碼方案,大幅提升了效率和編碼性能。在第六屆深度學(xué)習(xí)圖像壓縮挑戰(zhàn)賽上,該方案在高碼率和低碼率視頻壓縮中獲得了冠軍。


          不過,更令人矚目的創(chuàng)新在框架層。他們用一個(gè)圍繞 BMF 框架構(gòu)建的方案有效助力了豆包?視頻生成模型的訓(xùn)練,還在本次大會(huì)上開源了移動(dòng)端后處理解決方案 ——BMF-lite。

          算法之外,豆包?視頻生成模型還有個(gè)「重要武器」——BMF  

          在 OpenAI 的 Sora 走紅之后,AI 社區(qū)的大部分討論都圍繞它背后的算法展開。但其實(shí)除了算法,研究人員還面臨著很多困難。這種情況下,一個(gè)有效的視頻處理框架可以讓大模型團(tuán)隊(duì)事半功倍。因此,ByteDance Research 負(fù)責(zé)人李航將「BMF」稱為他們訓(xùn)練模型的「重要武器」。


          熟悉視頻處理的開發(fā)者可能都知道,BMF 并不是一個(gè)新框架,在去年 8 月份的火山引擎視頻云技術(shù)大會(huì)上就已經(jīng)亮相。

          在豆包?視頻生成模型的開發(fā)過程中,火山引擎基于 BMF 構(gòu)建了能夠預(yù)處理海量視頻數(shù)據(jù)的方案來支持模型訓(xùn)練。這個(gè)方案幫助大模型團(tuán)隊(duì)克服了前面提到的成本、質(zhì)量、協(xié)同、性能等多方面挑戰(zhàn)。

          首先是成本挑戰(zhàn)。我們知道,超大規(guī)模視頻訓(xùn)練數(shù)據(jù)集會(huì)導(dǎo)致計(jì)算和處理成本激增。針對這一問題,他們通過使用云計(jì)算中的彈性資源調(diào)度模式,根據(jù)實(shí)際需求的波動(dòng)情況來分配計(jì)算資源。此外, 他們還使用精細(xì)化的調(diào)度算法,靈活地在不同的任務(wù)和場景中分配 CPU、GPU 等異構(gòu)計(jì)算資源。這種「海量潮汐資源精細(xì)化混部調(diào)度」方法確保了在處理大量視頻數(shù)據(jù)時(shí)既能滿足計(jì)算需求,又能降低運(yùn)營成本。

          其次是質(zhì)量挑戰(zhàn)。在收集、生成大量視頻數(shù)據(jù)時(shí),這些視頻的質(zhì)量可能有很大差異,數(shù)據(jù)樣本有待分類、分段和清洗。此外,這些視頻的種類也可能不均衡。這種不均衡會(huì)影響后續(xù)模型的訓(xùn)練或視頻處理效果,因?yàn)椴煌悇e的數(shù)據(jù)樣本可能需要不同的處理方式。 

          為了解決這些問題,火山引擎采用了多種算法,對視頻數(shù)據(jù)進(jìn)行多維度分析和篩選,包括分辨率、幀率、噪聲、色彩等等。通過實(shí)踐積累,火山引擎開發(fā)了 50 多個(gè)「算子」(算法模塊),這些算子可以靈活組合,對視頻數(shù)據(jù)進(jìn)行精細(xì)化處理,確保保留下來的都是高質(zhì)量且類別均衡的視頻。這一過程保障了模型在訓(xùn)練時(shí)只使用符合標(biāo)準(zhǔn)的視頻,從而避免因數(shù)據(jù)質(zhì)量差或不均衡而影響整體表現(xiàn)。

          接下來是協(xié)同挑戰(zhàn)。視頻預(yù)處理涉及多個(gè)復(fù)雜的環(huán)節(jié),每個(gè)都需要不同的技術(shù)和處理方法,通常需要多個(gè)團(tuán)隊(duì)協(xié)作完成。團(tuán)隊(duì)之間的溝通和協(xié)作可能會(huì)變得復(fù)雜,特別是當(dāng)各個(gè)環(huán)節(jié)緊密依賴時(shí)。

          但好在,BMF 具有動(dòng)態(tài)模塊化的設(shè)計(jì),這意味著每個(gè)處理任務(wù)可以通過不同的模塊靈活組合、替換或擴(kuò)展。團(tuán)隊(duì)可以在短時(shí)間內(nèi)將幾十個(gè)「算子」集成到一起,快速開發(fā)出完整的處理鏈路。這種動(dòng)態(tài)、模塊化的架構(gòu)使得系統(tǒng)的迭代開發(fā)效率顯著提升,速度比使用傳統(tǒng)框架快了數(shù)倍。

          最后是性能挑戰(zhàn)。在視頻處理過程中,不同的任務(wù)對計(jì)算資源的需求不同。常見的計(jì)算資源包括 CPU、GPU、ARM 等。這些資源各自具有不同的性能特點(diǎn)和優(yōu)勢,稱為異構(gòu)計(jì)算資源。要充分利用這些不同的計(jì)算資源,需要靈活的調(diào)度和分配,否則會(huì)導(dǎo)致某些資源過載,或者一些資源閑置,無法發(fā)揮出最大效能。 

          BMF 框架的靈活調(diào)度能力有利于解決這一問題。具體來說,BMF 能夠根據(jù)每個(gè)算子的計(jì)算需求,智能選擇最適合的硬件資源,將算子處理流程動(dòng)態(tài)部署在 CPU 等不同的計(jì)算單元上。這種靈活的資源分配機(jī)制使得系統(tǒng)在運(yùn)行過程中可以快速進(jìn)行性能調(diào)優(yōu),適應(yīng)不同的負(fù)載和任務(wù)變化,確保在高效處理任務(wù)的同時(shí)提升任務(wù)吞吐量。通過這種方式,他們有效緩解了由于資源瓶頸帶來的計(jì)算壓力,提升了整體系統(tǒng)的運(yùn)行效率和穩(wěn)定性。

          在這些創(chuàng)新的支持下,團(tuán)隊(duì)短時(shí)間內(nèi)生產(chǎn)了足夠多高質(zhì)量的視頻素材,用于模型的訓(xùn)練,有力地支撐了視頻生成模型的上線與調(diào)優(yōu)。此外,火山引擎視頻云還為該模型生產(chǎn)的視頻提供了從編輯、上傳、轉(zhuǎn)碼、分發(fā)、播放的全生命周期一站式解決方案。

          在今年的大會(huì)上,火山引擎還開源了移動(dòng)端后處理解決方案 ——BMF-lite。BMF-lite 具備輕量、通用、高效和前沿的顯著特點(diǎn),極大地提升了多媒體處理框架的靈活性和適應(yīng)性。


          首先,在輕量化方面,BMF-lite 采用了不依賴任何第三方組件的設(shè)計(jì),推出了輕量化的開源版本,并采用了簡潔高效的結(jié)構(gòu),便于開發(fā)者快速集成和部署,適合各種不同的應(yīng)用場景。

          其次,在高效性上,BMF-lite 通過引入算子加速功能,結(jié)合 kernel 融合等創(chuàng)新技術(shù),顯著提高了視頻處理的速度和性能,極大優(yōu)化了資源利用效率。

          此外,BMF-lite 提供了多平臺(tái)統(tǒng)一接口,無論開發(fā)者使用何種平臺(tái),都能輕松接入 BMF 框架,實(shí)現(xiàn)視頻處理的無縫對接。

          更重要的是,BMF-lite 還支持端側(cè)大模型的接入,在被稱為端側(cè) AI「元年」的 2024 年,這一功能可以說恰逢其時(shí)。

          在 AI 視頻時(shí)代,像 BMF-lite 這樣的開源框架能夠降低企業(yè)的研發(fā)成本,對于整個(gè)行業(yè)的發(fā)展都是非常有益的。但這樣的框架也需要大量的時(shí)間和資源來開發(fā)和維護(hù),所以 BMF-lite 的開源顯得非常難能可貴。


          視頻正成為人類的第二語言

          其實(shí),除了前面提到的視頻生成、編解碼,還有很多視頻技術(shù)正在塑造我們所在的這個(gè) AI 視頻時(shí)代。這個(gè)時(shí)代不再是傳統(tǒng)意義上的用戶被動(dòng)接受視頻內(nèi)容,而是通過智能化和個(gè)性化的手段,讓用戶能夠更主動(dòng)地參與、創(chuàng)造和定制實(shí)時(shí)、沉浸的視頻體驗(yàn)。

          比如, 在這次大會(huì)上,火山引擎整合豆包大模型與實(shí)時(shí)音視頻技術(shù),推出了類似「Her」的對話式 AI 實(shí)時(shí)交互解決方案,讓 AI 和用戶進(jìn)行實(shí)時(shí)對話,其端到端延時(shí)低至 1 秒以內(nèi)。這一方案可廣泛應(yīng)用于智能助手、AI 社交陪伴、兒童學(xué)習(xí)陪伴、AI 教育、智能客服等眾多場景。


          正如火山引擎總裁譚待所說,「視頻正迅速崛起為人類的第二語言,其豐富的表達(dá)手段和效果遠(yuǎn)超傳統(tǒng)文字,為我們提供了更多元、更生動(dòng)的交流方式。

          在大會(huì)上,做演講的并非譚待本人,而是他的數(shù)字分身。由于效果極為逼真,有人誤以為是視頻摳像。這一效果主要由豆包語音合成模型和形象驅(qū)動(dòng)算法提供支持。目前,火山引擎推出的定制數(shù)字人服務(wù)可1:1高度還原定制者的形象及聲音,而且步驟簡單,僅需提供一段本人錄制的視頻及音頻,即可交由人工智能進(jìn)行學(xué)習(xí)訓(xùn)練并生成出專屬數(shù)字人,一次錄制即可長期反復(fù)多次使用。
          本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
          打開APP,閱讀全文并永久保存 查看更多類似文章
          猜你喜歡
          類似文章
          幾個(gè)刺激的網(wǎng)站,絕對勁爆
          不甘只做AI 應(yīng)用工廠,字節(jié)跳動(dòng)補(bǔ)課大模型
          一日連發(fā)兩款視頻大模型,火山引擎要讓每個(gè)人都能用上AI
          Sora概念盤中拉升,字節(jié)跳動(dòng)或?qū)⑴cOpenAI短兵相接
          AI視頻新戰(zhàn)場:字節(jié)對決快手、反擊Sora
          字節(jié)終于跳動(dòng),即夢將成最強(qiáng)視頻生成平臺(tái),再見sora
          更多類似文章 >>
          生活服務(wù)
          分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
          綁定賬號成功
          后續(xù)可登錄賬號暢享VIP特權(quán)!
          如果VIP功能使用有故障,
          可點(diǎn)擊這里聯(lián)系客服!

          聯(lián)系客服