從威爾?史密斯鬼畜吃面到「Her」，這些幕后技術(shù)正在推動(dòng)AI視頻時(shí)代的到來

機(jī)器之心原創(chuàng)

作者：張倩

還記得「威爾?史密斯吃意大利面」的 AI 鬼畜視頻嗎？在這些視頻里，威爾?史密斯的面部表情、動(dòng)作都非常夸張，還充滿了扭曲、變形。

一年多以前，大部分 AI 視頻生成模型確實(shí)只能達(dá)到這樣的水平。但如今，情況完全不同了：AI 不僅能讓表情、動(dòng)作和光影都非常自然，還能運(yùn)用豐富的鏡頭語言，生成的視頻具有電影級別的質(zhì)感。

這種讓國外網(wǎng)友都大呼「有用」的生成效果來自字節(jié)跳動(dòng)前段時(shí)間發(fā)布的豆包?視頻生成模型。在開啟內(nèi)測后，機(jī)器之心也進(jìn)行過測試，效果非常驚艷（參見《終于拿到內(nèi)測！豆包 - PixelDance 真是字節(jié)視頻生成大殺器》）。

回想今年年初 Sora 問世之際，國內(nèi) AI 社區(qū)還彌漫著一種悲觀的情緒，覺得 AI 視頻生成門檻頗高，國內(nèi)企業(yè)想彎道超車難度不小。然而令人意外的是，Sora 高開低走，遲遲未向公眾開放。反倒是國產(chǎn)模型不斷帶來驚喜，甚至有演變成生產(chǎn)力工具的趨勢。

那么，面對重重困難，國內(nèi)的視頻生成模型為什么會(huì)發(fā)展得如此之快？豆包?視頻生成模型的背后有哪些技術(shù)底座在提供支撐？生成式 AI 浪潮帶來的視頻數(shù)據(jù)激增、編解碼技術(shù)挑戰(zhàn)如何解決？在剛剛召開的 2024 火山引擎視頻云技術(shù)大會(huì)上，我們找到了一些答案。

算力、編解碼、框架：AI 視頻時(shí)代的三大挑戰(zhàn)

如果你在小紅書上圍觀過「即夢 AI 短片挑戰(zhàn)賽」，那你一定會(huì)被網(wǎng)友們的創(chuàng)意所打動(dòng)。此前，這些創(chuàng)意因視頻制作門檻過高而處于休眠狀態(tài)。如今，隨著生成式 AI 的發(fā)展，創(chuàng)建高質(zhì)量的視頻變得更加簡單，生成的視頻數(shù)量隨之大幅增加。這帶來了新的商業(yè)機(jī)會(huì)和應(yīng)用場景。

但這種數(shù)據(jù)量的增長也伴隨著一些問題，其中最突出的是對計(jì)算資源的巨大需求。視頻數(shù)據(jù)量增加，意味著需要更多的算力來處理這些數(shù)據(jù)。與此同時(shí)，訓(xùn)練、推理的計(jì)算成本也急劇上升。例如，Sora 訓(xùn)練和推理所需的算力比 GPT-4 還要高很多，訓(xùn)練算力需求是 GPT-4 的 4.5 倍，推理需求則接近 400 倍。這表明，隨著視頻生成技術(shù)的發(fā)展，算力層需要經(jīng)歷一場變革。

此外，視頻處理的核心技術(shù) —— 編解碼也面臨著挑戰(zhàn)。視頻編碼的目的是將視頻數(shù)據(jù)壓縮成更小的文件，便于存儲(chǔ)和傳輸；而解碼則是將壓縮的視頻還原成可以播放的格式。這兩者的效率直接影響視頻的質(zhì)量、存儲(chǔ)空間的需求、網(wǎng)絡(luò)傳輸?shù)乃俣纫约霸O(shè)備播放視頻的流暢度。因此，編解碼技術(shù)對于視頻處理來說至關(guān)重要。

傳統(tǒng)的編解碼技術(shù)是基于固定的算法和規(guī)則進(jìn)行的，比如通過一些特定的壓縮算法來減小視頻文件的大小。然而，隨著 AI 技術(shù)的進(jìn)步，編解碼技術(shù)也逐漸向智能化方向發(fā)展。不過，如何將 AI 與編解碼技術(shù)深度融合仍然是一個(gè)具有挑戰(zhàn)性的問題。

再說回視頻生成本身。其實(shí)，視頻的生成和處理涉及大量復(fù)雜的步驟，包括預(yù)處理、數(shù)據(jù)分析、壓縮、生成等等。在這些過程中，框架層起到了組織和協(xié)調(diào)各種處理任務(wù)的作用。隨著生成式 AI 和大模型的興起，傳統(tǒng)的框架已經(jīng)難以應(yīng)對龐大而復(fù)雜的處理需求。其中，視頻數(shù)據(jù)的預(yù)處理尤其棘手，面臨成本、質(zhì)量、協(xié)同、性能等多方面挑戰(zhàn)。因此，必須構(gòu)建更強(qiáng)大的框架，以支持大規(guī)模的數(shù)據(jù)處理和復(fù)雜的視頻任務(wù)。

面對這些難題，火山引擎已經(jīng)研發(fā)出了一系列解決方案。

比如在算力層，他們?nèi)ツ昃屯瞥隽俗匝械?/span>視頻轉(zhuǎn)碼專用芯片。經(jīng)過一年的精心打磨和廣泛應(yīng)用，該芯片已經(jīng)取得了顯著的成效，在抖音的實(shí)踐中實(shí)現(xiàn)了效率的顯著提升和成本的大幅下降。具體來說，一臺(tái)芯片服務(wù)器轉(zhuǎn)碼能力算力相當(dāng)于百臺(tái) CPU 服務(wù)器。在同等視頻壓縮效率下，它的成本可以節(jié)省 95% 以上。在本次大會(huì)上，他們還宣布首次正式對外開放測試，招募首批種子用戶，共同探索該芯片商業(yè)價(jià)值的可復(fù)制性。

在編解碼算法層，他們結(jié)合傳統(tǒng)壓縮技術(shù)與深度學(xué)習(xí)技術(shù)，推出了 BVC2 智能混合編解碼方案，大幅提升了效率和編碼性能。在第六屆深度學(xué)習(xí)圖像壓縮挑戰(zhàn)賽上，該方案在高碼率和低碼率視頻壓縮中獲得了冠軍。

不過，更令人矚目的創(chuàng)新在框架層。他們用一個(gè)圍繞 BMF 框架構(gòu)建的方案有效助力了豆包?視頻生成模型的訓(xùn)練，還在本次大會(huì)上開源了移動(dòng)端后處理解決方案 ——BMF-lite。

算法之外，豆包?視頻生成模型還有個(gè)「重要武器」——BMF

在 OpenAI 的 Sora 走紅之后，AI 社區(qū)的大部分討論都圍繞它背后的算法展開。但其實(shí)除了算法，研究人員還面臨著很多困難。這種情況下，一個(gè)有效的視頻處理框架可以讓大模型團(tuán)隊(duì)事半功倍。因此，ByteDance Research 負(fù)責(zé)人李航將「BMF」稱為他們訓(xùn)練模型的「重要武器」。

熟悉視頻處理的開發(fā)者可能都知道，BMF 并不是一個(gè)新框架，在去年 8 月份的火山引擎視頻云技術(shù)大會(huì)上就已經(jīng)亮相。

在豆包?視頻生成模型的開發(fā)過程中，火山引擎基于 BMF 構(gòu)建了能夠預(yù)處理海量視頻數(shù)據(jù)的方案來支持模型訓(xùn)練。這個(gè)方案幫助大模型團(tuán)隊(duì)克服了前面提到的成本、質(zhì)量、協(xié)同、性能等多方面挑戰(zhàn)。

首先是成本挑戰(zhàn)。我們知道，超大規(guī)模視頻訓(xùn)練數(shù)據(jù)集會(huì)導(dǎo)致計(jì)算和處理成本激增。針對這一問題，他們通過使用云計(jì)算中的彈性資源調(diào)度模式，根據(jù)實(shí)際需求的波動(dòng)情況來分配計(jì)算資源。此外，他們還使用精細(xì)化的調(diào)度算法，靈活地在不同的任務(wù)和場景中分配 CPU、GPU 等異構(gòu)計(jì)算資源。這種「海量潮汐資源精細(xì)化混部調(diào)度」方法確保了在處理大量視頻數(shù)據(jù)時(shí)既能滿足計(jì)算需求，又能降低運(yùn)營成本。

其次是質(zhì)量挑戰(zhàn)。在收集、生成大量視頻數(shù)據(jù)時(shí)，這些視頻的質(zhì)量可能有很大差異，數(shù)據(jù)樣本有待分類、分段和清洗。此外，這些視頻的種類也可能不均衡。這種不均衡會(huì)影響后續(xù)模型的訓(xùn)練或視頻處理效果，因?yàn)椴煌悇e的數(shù)據(jù)樣本可能需要不同的處理方式。

為了解決這些問題，火山引擎采用了多種算法，對視頻數(shù)據(jù)進(jìn)行多維度分析和篩選，包括分辨率、幀率、噪聲、色彩等等。通過實(shí)踐積累，火山引擎開發(fā)了 50 多個(gè)「算子」（算法模塊），這些算子可以靈活組合，對視頻數(shù)據(jù)進(jìn)行精細(xì)化處理，確保保留下來的都是高質(zhì)量且類別均衡的視頻。這一過程保障了模型在訓(xùn)練時(shí)只使用符合標(biāo)準(zhǔn)的視頻，從而避免因數(shù)據(jù)質(zhì)量差或不均衡而影響整體表現(xiàn)。

接下來是協(xié)同挑戰(zhàn)。視頻預(yù)處理涉及多個(gè)復(fù)雜的環(huán)節(jié)，每個(gè)都需要不同的技術(shù)和處理方法，通常需要多個(gè)團(tuán)隊(duì)協(xié)作完成。團(tuán)隊(duì)之間的溝通和協(xié)作可能會(huì)變得復(fù)雜，特別是當(dāng)各個(gè)環(huán)節(jié)緊密依賴時(shí)。

但好在，BMF 具有動(dòng)態(tài)模塊化的設(shè)計(jì)，這意味著每個(gè)處理任務(wù)可以通過不同的模塊靈活組合、替換或擴(kuò)展。團(tuán)隊(duì)可以在短時(shí)間內(nèi)將幾十個(gè)「算子」集成到一起，快速開發(fā)出完整的處理鏈路。這種動(dòng)態(tài)、模塊化的架構(gòu)使得系統(tǒng)的迭代開發(fā)效率顯著提升，速度比使用傳統(tǒng)框架快了數(shù)倍。

最后是性能挑戰(zhàn)。在視頻處理過程中，不同的任務(wù)對計(jì)算資源的需求不同。常見的計(jì)算資源包括 CPU、GPU、ARM 等。這些資源各自具有不同的性能特點(diǎn)和優(yōu)勢，稱為異構(gòu)計(jì)算資源。要充分利用這些不同的計(jì)算資源，需要靈活的調(diào)度和分配，否則會(huì)導(dǎo)致某些資源過載，或者一些資源閑置，無法發(fā)揮出最大效能。

BMF 框架的靈活調(diào)度能力有利于解決這一問題。具體來說，BMF 能夠根據(jù)每個(gè)算子的計(jì)算需求，智能選擇最適合的硬件資源，將算子處理流程動(dòng)態(tài)部署在 CPU 等不同的計(jì)算單元上。這種靈活的資源分配機(jī)制使得系統(tǒng)在運(yùn)行過程中可以快速進(jìn)行性能調(diào)優(yōu)，適應(yīng)不同的負(fù)載和任務(wù)變化，確保在高效處理任務(wù)的同時(shí)提升任務(wù)吞吐量。通過這種方式，他們有效緩解了由于資源瓶頸帶來的計(jì)算壓力，提升了整體系統(tǒng)的運(yùn)行效率和穩(wěn)定性。

在這些創(chuàng)新的支持下，團(tuán)隊(duì)短時(shí)間內(nèi)生產(chǎn)了足夠多高質(zhì)量的視頻素材，用于模型的訓(xùn)練，有力地支撐了視頻生成模型的上線與調(diào)優(yōu)。此外，火山引擎視頻云還為該模型生產(chǎn)的視頻提供了從編輯、上傳、轉(zhuǎn)碼、分發(fā)、播放的全生命周期一站式解決方案。

在今年的大會(huì)上，火山引擎還開源了移動(dòng)端后處理解決方案 ——BMF-lite。BMF-lite 具備輕量、通用、高效和前沿的顯著特點(diǎn)，極大地提升了多媒體處理框架的靈活性和適應(yīng)性。

首先，在輕量化方面，BMF-lite 采用了不依賴任何第三方組件的設(shè)計(jì)，推出了輕量化的開源版本，并采用了簡潔高效的結(jié)構(gòu)，便于開發(fā)者快速集成和部署，適合各種不同的應(yīng)用場景。

其次，在高效性上，BMF-lite 通過引入算子加速功能，結(jié)合 kernel 融合等創(chuàng)新技術(shù)，顯著提高了視頻處理的速度和性能，極大優(yōu)化了資源利用效率。

此外，BMF-lite 提供了多平臺(tái)統(tǒng)一接口，無論開發(fā)者使用何種平臺(tái)，都能輕松接入 BMF 框架，實(shí)現(xiàn)視頻處理的無縫對接。

更重要的是，BMF-lite 還支持端側(cè)大模型的接入，在被稱為端側(cè) AI「元年」的 2024 年，這一功能可以說恰逢其時(shí)。

在 AI 視頻時(shí)代，像 BMF-lite 這樣的開源框架能夠降低企業(yè)的研發(fā)成本，對于整個(gè)行業(yè)的發(fā)展都是非常有益的。但這樣的框架也需要大量的時(shí)間和資源來開發(fā)和維護(hù)，所以 BMF-lite 的開源顯得非常難能可貴。

視頻正成為人類的第二語言

其實(shí)，除了前面提到的視頻生成、編解碼，還有很多視頻技術(shù)正在塑造我們所在的這個(gè) AI 視頻時(shí)代。這個(gè)時(shí)代不再是傳統(tǒng)意義上的用戶被動(dòng)接受視頻內(nèi)容，而是通過智能化和個(gè)性化的手段，讓用戶能夠更主動(dòng)地參與、創(chuàng)造和定制實(shí)時(shí)、沉浸的視頻體驗(yàn)。

比如，在這次大會(huì)上，火山引擎整合豆包大模型與實(shí)時(shí)音視頻技術(shù)，推出了類似「Her」的對話式 AI 實(shí)時(shí)交互解決方案，讓 AI 和用戶進(jìn)行實(shí)時(shí)對話，其端到端延時(shí)低至 1 秒以內(nèi)。這一方案可廣泛應(yīng)用于智能助手、AI 社交陪伴、兒童學(xué)習(xí)陪伴、AI 教育、智能客服等眾多場景。

正如火山引擎總裁譚待所說，「視頻正迅速崛起為人類的第二語言，其豐富的表達(dá)手段和效果遠(yuǎn)超傳統(tǒng)文字，為我們提供了更多元、更生動(dòng)的交流方式。」

在大會(huì)上，做演講的并非譚待本人，而是他的數(shù)字分身。由于效果極為逼真，有人誤以為是視頻摳像。這一效果主要由豆包語音合成模型和形象驅(qū)動(dòng)算法提供支持。目前，火山引擎推出的定制數(shù)字人服務(wù)可1:1高度還原定制者的形象及聲音，而且步驟簡單，僅需提供一段本人錄制的視頻及音頻，即可交由人工智能進(jìn)行學(xué)習(xí)訓(xùn)練并生成出專屬數(shù)字人，一次錄制即可長期反復(fù)多次使用。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频