還記得「威爾?史密斯吃意大利面」的 AI 鬼畜視頻嗎?在這些視頻里,威爾?史密斯的面部表情、動(dòng)作都非常夸張,還充滿了扭曲、變形。
一年多以前,大部分 AI 視頻生成模型確實(shí)只能達(dá)到這樣的水平。但如今,情況完全不同了:AI 不僅能讓表情、動(dòng)作和光影都非常自然,還能運(yùn)用豐富的鏡頭語言,生成的視頻具有電影級別的質(zhì)感。回想今年年初 Sora 問世之際,國內(nèi) AI 社區(qū)還彌漫著一種悲觀的情緒,覺得 AI 視頻生成門檻頗高,國內(nèi)企業(yè)想彎道超車難度不小。然而令人意外的是,Sora 高開低走,遲遲未向公眾開放。反倒是國產(chǎn)模型不斷帶來驚喜,甚至有演變成生產(chǎn)力工具的趨勢。
那么,面對重重困難,國內(nèi)的視頻生成模型為什么會(huì)發(fā)展得如此之快?豆包?視頻生成模型的背后有哪些技術(shù)底座在提供支撐?生成式 AI 浪潮帶來的視頻數(shù)據(jù)激增、編解碼技術(shù)挑戰(zhàn)如何解決?在剛剛召開的 2024 火山引擎視頻云技術(shù)大會(huì)上,我們找到了一些答案。算力、編解碼、框架:AI 視頻時(shí)代的三大挑戰(zhàn)如果你在小紅書上圍觀過「即夢 AI 短片挑戰(zhàn)賽」,那你一定會(huì)被網(wǎng)友們的創(chuàng)意所打動(dòng)。此前,這些創(chuàng)意因視頻制作門檻過高而處于休眠狀態(tài)。如今,隨著生成式 AI 的發(fā)展,創(chuàng)建高質(zhì)量的視頻變得更加簡單,生成的視頻數(shù)量隨之大幅增加。這帶來了新的商業(yè)機(jī)會(huì)和應(yīng)用場景。但這種數(shù)據(jù)量的增長也伴隨著一些問題,其中最突出的是對計(jì)算資源的巨大需求。視頻數(shù)據(jù)量增加,意味著需要更多的算力來處理這些數(shù)據(jù)。與此同時(shí),訓(xùn)練、推理的計(jì)算成本也急劇上升。例如,Sora 訓(xùn)練和推理所需的算力比 GPT-4 還要高很多,訓(xùn)練算力需求是 GPT-4 的 4.5 倍,推理需求則接近 400 倍。這表明,隨著視頻生成技術(shù)的發(fā)展,算力層需要經(jīng)歷一場變革。此外,視頻處理的核心技術(shù) —— 編解碼也面臨著挑戰(zhàn)。視頻編碼的目的是將視頻數(shù)據(jù)壓縮成更小的文件,便于存儲(chǔ)和傳輸;而解碼則是將壓縮的視頻還原成可以播放的格式。這兩者的效率直接影響視頻的質(zhì)量、存儲(chǔ)空間的需求、網(wǎng)絡(luò)傳輸?shù)乃俣纫约霸O(shè)備播放視頻的流暢度。因此,編解碼技術(shù)對于視頻處理來說至關(guān)重要。 傳統(tǒng)的編解碼技術(shù)是基于固定的算法和規(guī)則進(jìn)行的,比如通過一些特定的壓縮算法來減小視頻文件的大小。然而,隨著 AI 技術(shù)的進(jìn)步,編解碼技術(shù)也逐漸向智能化方向發(fā)展。不過,如何將 AI 與編解碼技術(shù)深度融合仍然是一個(gè)具有挑戰(zhàn)性的問題。再說回視頻生成本身。其實(shí),視頻的生成和處理涉及大量復(fù)雜的步驟,包括預(yù)處理、數(shù)據(jù)分析、壓縮、生成等等。在這些過程中,框架層起到了組織和協(xié)調(diào)各種處理任務(wù)的作用。隨著生成式 AI 和大模型的興起,傳統(tǒng)的框架已經(jīng)難以應(yīng)對龐大而復(fù)雜的處理需求。其中,視頻數(shù)據(jù)的預(yù)處理尤其棘手,面臨成本、質(zhì)量、協(xié)同、性能等多方面挑戰(zhàn)。因此,必須構(gòu)建更強(qiáng)大的框架,以支持大規(guī)模的數(shù)據(jù)處理和復(fù)雜的視頻任務(wù)。 面對這些難題,火山引擎已經(jīng)研發(fā)出了一系列解決方案。比如在算力層,他們?nèi)ツ昃屯瞥隽俗匝械?/span>視頻轉(zhuǎn)碼專用芯片。經(jīng)過一年的精心打磨和廣泛應(yīng)用,該芯片已經(jīng)取得了顯著的成效,在抖音的實(shí)踐中實(shí)現(xiàn)了效率的顯著提升和成本的大幅下降。具體來說,一臺(tái)芯片服務(wù)器轉(zhuǎn)碼能力算力相當(dāng)于百臺(tái) CPU 服務(wù)器。在同等視頻壓縮效率下,它的成本可以節(jié)省 95% 以上。在本次大會(huì)上,他們還宣布首次正式對外開放測試,招募首批種子用戶,共同探索該芯片商業(yè)價(jià)值的可復(fù)制性。在編解碼算法層,他們結(jié)合傳統(tǒng)壓縮技術(shù)與深度學(xué)習(xí)技術(shù),推出了 BVC2 智能混合編解碼方案,大幅提升了效率和編碼性能。在第六屆深度學(xué)習(xí)圖像壓縮挑戰(zhàn)賽上,該方案在高碼率和低碼率視頻壓縮中獲得了冠軍。不過,更令人矚目的創(chuàng)新在框架層。他們用一個(gè)圍繞 BMF 框架構(gòu)建的方案有效助力了豆包?視頻生成模型的訓(xùn)練,還在本次大會(huì)上開源了移動(dòng)端后處理解決方案 ——BMF-lite。算法之外,豆包?視頻生成模型還有個(gè)「重要武器」——BMF 在 OpenAI 的 Sora 走紅之后,AI 社區(qū)的大部分討論都圍繞它背后的算法展開。但其實(shí)除了算法,研究人員還面臨著很多困難。這種情況下,一個(gè)有效的視頻處理框架可以讓大模型團(tuán)隊(duì)事半功倍。因此,ByteDance Research 負(fù)責(zé)人李航將「BMF」稱為他們訓(xùn)練模型的「重要武器」。熟悉視頻處理的開發(fā)者可能都知道,BMF 并不是一個(gè)新框架,在去年 8 月份的火山引擎視頻云技術(shù)大會(huì)上就已經(jīng)亮相。在豆包?視頻生成模型的開發(fā)過程中,火山引擎基于 BMF 構(gòu)建了能夠預(yù)處理海量視頻數(shù)據(jù)的方案來支持模型訓(xùn)練。這個(gè)方案幫助大模型團(tuán)隊(duì)克服了前面提到的成本、質(zhì)量、協(xié)同、性能等多方面挑戰(zhàn)。首先是成本挑戰(zhàn)。我們知道,超大規(guī)模視頻訓(xùn)練數(shù)據(jù)集會(huì)導(dǎo)致計(jì)算和處理成本激增。針對這一問題,他們通過使用云計(jì)算中的彈性資源調(diào)度模式,根據(jù)實(shí)際需求的波動(dòng)情況來分配計(jì)算資源。此外, 他們還使用精細(xì)化的調(diào)度算法,靈活地在不同的任務(wù)和場景中分配 CPU、GPU 等異構(gòu)計(jì)算資源。這種「海量潮汐資源精細(xì)化混部調(diào)度」方法確保了在處理大量視頻數(shù)據(jù)時(shí)既能滿足計(jì)算需求,又能降低運(yùn)營成本。其次是質(zhì)量挑戰(zhàn)。在收集、生成大量視頻數(shù)據(jù)時(shí),這些視頻的質(zhì)量可能有很大差異,數(shù)據(jù)樣本有待分類、分段和清洗。此外,這些視頻的種類也可能不均衡。這種不均衡會(huì)影響后續(xù)模型的訓(xùn)練或視頻處理效果,因?yàn)椴煌悇e的數(shù)據(jù)樣本可能需要不同的處理方式。 為了解決這些問題,火山引擎采用了多種算法,對視頻數(shù)據(jù)進(jìn)行多維度分析和篩選,包括分辨率、幀率、噪聲、色彩等等。通過實(shí)踐積累,火山引擎開發(fā)了 50 多個(gè)「算子」(算法模塊),這些算子可以靈活組合,對視頻數(shù)據(jù)進(jìn)行精細(xì)化處理,確保保留下來的都是高質(zhì)量且類別均衡的視頻。這一過程保障了模型在訓(xùn)練時(shí)只使用符合標(biāo)準(zhǔn)的視頻,從而避免因數(shù)據(jù)質(zhì)量差或不均衡而影響整體表現(xiàn)。接下來是協(xié)同挑戰(zhàn)。視頻預(yù)處理涉及多個(gè)復(fù)雜的環(huán)節(jié),每個(gè)都需要不同的技術(shù)和處理方法,通常需要多個(gè)團(tuán)隊(duì)協(xié)作完成。團(tuán)隊(duì)之間的溝通和協(xié)作可能會(huì)變得復(fù)雜,特別是當(dāng)各個(gè)環(huán)節(jié)緊密依賴時(shí)。但好在,BMF 具有動(dòng)態(tài)模塊化的設(shè)計(jì),這意味著每個(gè)處理任務(wù)可以通過不同的模塊靈活組合、替換或擴(kuò)展。團(tuán)隊(duì)可以在短時(shí)間內(nèi)將幾十個(gè)「算子」集成到一起,快速開發(fā)出完整的處理鏈路。這種動(dòng)態(tài)、模塊化的架構(gòu)使得系統(tǒng)的迭代開發(fā)效率顯著提升,速度比使用傳統(tǒng)框架快了數(shù)倍。最后是性能挑戰(zhàn)。在視頻處理過程中,不同的任務(wù)對計(jì)算資源的需求不同。常見的計(jì)算資源包括 CPU、GPU、ARM 等。這些資源各自具有不同的性能特點(diǎn)和優(yōu)勢,稱為異構(gòu)計(jì)算資源。要充分利用這些不同的計(jì)算資源,需要靈活的調(diào)度和分配,否則會(huì)導(dǎo)致某些資源過載,或者一些資源閑置,無法發(fā)揮出最大效能。 BMF 框架的靈活調(diào)度能力有利于解決這一問題。具體來說,BMF 能夠根據(jù)每個(gè)算子的計(jì)算需求,智能選擇最適合的硬件資源,將算子處理流程動(dòng)態(tài)部署在 CPU 等不同的計(jì)算單元上。這種靈活的資源分配機(jī)制使得系統(tǒng)在運(yùn)行過程中可以快速進(jìn)行性能調(diào)優(yōu),適應(yīng)不同的負(fù)載和任務(wù)變化,確保在高效處理任務(wù)的同時(shí)提升任務(wù)吞吐量。通過這種方式,他們有效緩解了由于資源瓶頸帶來的計(jì)算壓力,提升了整體系統(tǒng)的運(yùn)行效率和穩(wěn)定性。在這些創(chuàng)新的支持下,團(tuán)隊(duì)短時(shí)間內(nèi)生產(chǎn)了足夠多高質(zhì)量的視頻素材,用于模型的訓(xùn)練,有力地支撐了視頻生成模型的上線與調(diào)優(yōu)。此外,火山引擎視頻云還為該模型生產(chǎn)的視頻提供了從編輯、上傳、轉(zhuǎn)碼、分發(fā)、播放的全生命周期一站式解決方案。在今年的大會(huì)上,火山引擎還開源了移動(dòng)端后處理解決方案 ——BMF-lite。BMF-lite 具備輕量、通用、高效和前沿的顯著特點(diǎn),極大地提升了多媒體處理框架的靈活性和適應(yīng)性。首先,在輕量化方面,BMF-lite 采用了不依賴任何第三方組件的設(shè)計(jì),推出了輕量化的開源版本,并采用了簡潔高效的結(jié)構(gòu),便于開發(fā)者快速集成和部署,適合各種不同的應(yīng)用場景。其次,在高效性上,BMF-lite 通過引入算子加速功能,結(jié)合 kernel 融合等創(chuàng)新技術(shù),顯著提高了視頻處理的速度和性能,極大優(yōu)化了資源利用效率。此外,BMF-lite 提供了多平臺(tái)統(tǒng)一接口,無論開發(fā)者使用何種平臺(tái),都能輕松接入 BMF 框架,實(shí)現(xiàn)視頻處理的無縫對接。更重要的是,BMF-lite 還支持端側(cè)大模型的接入,在被稱為端側(cè) AI「元年」的 2024 年,這一功能可以說恰逢其時(shí)。在 AI 視頻時(shí)代,像 BMF-lite 這樣的開源框架能夠降低企業(yè)的研發(fā)成本,對于整個(gè)行業(yè)的發(fā)展都是非常有益的。但這樣的框架也需要大量的時(shí)間和資源來開發(fā)和維護(hù),所以 BMF-lite 的開源顯得非常難能可貴。其實(shí),除了前面提到的視頻生成、編解碼,還有很多視頻技術(shù)正在塑造我們所在的這個(gè) AI 視頻時(shí)代。這個(gè)時(shí)代不再是傳統(tǒng)意義上的用戶被動(dòng)接受視頻內(nèi)容,而是通過智能化和個(gè)性化的手段,讓用戶能夠更主動(dòng)地參與、創(chuàng)造和定制實(shí)時(shí)、沉浸的視頻體驗(yàn)。比如, 在這次大會(huì)上,火山引擎整合豆包大模型與實(shí)時(shí)音視頻技術(shù),推出了類似「Her」的對話式 AI 實(shí)時(shí)交互解決方案,讓 AI 和用戶進(jìn)行實(shí)時(shí)對話,其端到端延時(shí)低至 1 秒以內(nèi)。這一方案可廣泛應(yīng)用于智能助手、AI 社交陪伴、兒童學(xué)習(xí)陪伴、AI 教育、智能客服等眾多場景。正如火山引擎總裁譚待所說,「視頻正迅速崛起為人類的第二語言,其豐富的表達(dá)手段和效果遠(yuǎn)超傳統(tǒng)文字,為我們提供了更多元、更生動(dòng)的交流方式。」在大會(huì)上,做演講的并非譚待本人,而是他的數(shù)字分身。由于效果極為逼真,有人誤以為是視頻摳像。這一效果主要由豆包語音合成模型和形象驅(qū)動(dòng)算法提供支持。目前,火山引擎推出的定制數(shù)字人服務(wù)可1:1高度還原定制者的形象及聲音,而且步驟簡單,僅需提供一段本人錄制的視頻及音頻,即可交由人工智能進(jìn)行學(xué)習(xí)訓(xùn)練并生成出專屬數(shù)字人,一次錄制即可長期反復(fù)多次使用。
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點(diǎn)擊舉報(bào)。