字節(jié)等待一鳴驚人

出品｜虎嗅商業(yè)消費(fèi)組
作者｜黃青春

一場(chǎng)事先張揚(yáng)的發(fā)布會(huì)讓 Sora 成為 2024 開(kāi)年頂流，字節(jié)跳動(dòng)卻在悄咪咪推進(jìn) AI 產(chǎn)品迭代。

近日，字節(jié)正式發(fā)布文生圖模型 SDXL-Lightning。其官方信息稱該模型采用了新的漸進(jìn)式對(duì)抗蒸餾（Progressive Adversarial Distillation）技術(shù)，能將計(jì)算時(shí)間和成本降至此前的十分之一——通常情況下，文生圖模型使用擴(kuò)散式生成（diffusion）模型，單張圖像處理時(shí)間大約需要 5 秒，還需多次（20～40 次）調(diào)用龐大的神經(jīng)網(wǎng)絡(luò)；但 SDXL-Lightning 能提速 10 倍在 2~4 步內(nèi)生成高質(zhì)量及分辨率的圖像。

事實(shí)上，早于 2023 年 11 月，字節(jié)跳動(dòng)已發(fā)表視頻生成研究成果 PixelDance，提出基于文本指導(dǎo) + 首尾幀圖片指導(dǎo)的技術(shù)方法，能生成具有高度一致性和豐富動(dòng)態(tài)性的視頻；今年1月，字節(jié)又發(fā)布了視頻生成模型 MagicVideo-V2，通過(guò)集成文本到圖像模型、視頻運(yùn)動(dòng)生成器、參考圖像嵌入模塊和插值模塊，打造了一條視頻生成流水線，效果超越 SVD-XT、Pika1.0、Runway的Gen-2 等同類模型。

盡管，字節(jié)在研發(fā)多模態(tài)模型方面已處于國(guó)內(nèi)領(lǐng)先狀態(tài)，但其與 OpenAI 仍有較大差距，好在字節(jié)愿意接入 OpenAI 的模型（字節(jié)海外有兩款 AI 產(chǎn)品，Cici 和 Coze 都接入了 GPT 3.5/GPT 4 模型，兩者 DAU 迅速攀升至百萬(wàn)級(jí)別），在一定程度上克服了模型能力的短板。

然而，橫空出世的 Sora 加速了字節(jié)的焦慮：

一方面，Sora 已經(jīng)能生成 60 秒視頻，這將直接改變抖音與 TikTok 的內(nèi)容供給邏輯——巨量數(shù)據(jù)顯示，以 60 秒視頻為臨界點(diǎn)，文生視頻已經(jīng)在顛覆短視頻行業(yè)；
另一方面，Sora 可以用于視頻編輯、視頻風(fēng)格混合等多個(gè)領(lǐng)域，是一個(gè)集視頻生成、圖片生成、視頻編輯等功能于一體的強(qiáng)大模型。

有鑒于此，Sora 這樣的“新物種”從創(chuàng)作門(mén)檻、內(nèi)容質(zhì)感、創(chuàng)作持續(xù)性等方面都會(huì)降維打擊大部分創(chuàng)作者，或?qū)⒏淖儍?nèi)容生產(chǎn)和編輯方式，從業(yè)者可能面臨技能需求和工作流程的變化——此前 Runway 在《瞬息全宇宙》里已有所應(yīng)用，但 4 秒到 15 秒發(fā)展了半年，15 秒到 1 分鐘三個(gè)月，技術(shù)的發(fā)展速度如此驚人，隨著文生視頻效果越發(fā)精進(jìn)，抖音及 TikTok 也將面臨新技術(shù)帶來(lái)的洗牌，這在一定程度上刺激字節(jié)更加積極推進(jìn) AI 技術(shù)投入。

深層次原因還在于：中國(guó)移動(dòng)互聯(lián)網(wǎng)業(yè)到了用戶、流量趨于見(jiàn)頂?shù)某墒炱?，監(jiān)管會(huì)更側(cè)重產(chǎn)業(yè)互聯(lián)網(wǎng)的推進(jìn)與建設(shè)，這意味著技術(shù)走到平臺(tái)重構(gòu)生態(tài)的關(guān)鍵時(shí)期。

尤其，在快速迭代的 AI 浪潮裹挾下，心有猛虎的公司都在尋找向上攀爬的入口——當(dāng)通用人工智能時(shí)代呼嘯而來(lái)，字節(jié)手握應(yīng)用層及數(shù)據(jù)層的獨(dú)特優(yōu)勢(shì)，抖音擁有豐富的數(shù)據(jù)素材和充足的算力資源，必須在快速發(fā)展時(shí)期進(jìn)行果斷投入（包括技術(shù)生態(tài)迭代、研發(fā)投入等），從而博一張未來(lái)的船票。

剪映成字節(jié)刺破AI的“針”

那些顛覆行業(yè)產(chǎn)品的誕生契機(jī)就是如此傳奇：Sora 創(chuàng)始團(tuán)隊(duì)成立不足 1 年，由兩名剛畢業(yè)的博士生帶隊(duì)，核心成員 15 人，其中甚至有 00 后（成員Will DePu 于 2003 年出生）；而抖音前身 A.me 于 2016 年秋上線時(shí)，創(chuàng)始團(tuán)隊(duì)也只有 7 個(gè)年輕人。

虎嗅了解到，字節(jié)跳動(dòng)的 AI 戰(zhàn)略是各個(gè)市場(chǎng)做各自的產(chǎn)品；其中，剪映或?qū)⒊蔀橹袊?guó) AI 應(yīng)用最先爆發(fā)的產(chǎn)品：截至 2021 年，剪映月活用戶數(shù)已經(jīng)突破 1 億，是國(guó)內(nèi)最大的移動(dòng)視頻編輯產(chǎn)品。

具體而言，字節(jié)跳動(dòng)通過(guò)拆解明確每個(gè)部門(mén)的 OKR（例如抖音主要負(fù)責(zé)拉新，而字節(jié)專門(mén)負(fù)責(zé) AI 產(chǎn)品的 Flow 部門(mén)負(fù)責(zé)開(kāi)發(fā)及產(chǎn)品增長(zhǎng)）實(shí)現(xiàn)了部門(mén)間互不干涉，解決了互聯(lián)網(wǎng)公司迅速擴(kuò)張所面臨的組織協(xié)同問(wèn)題，是國(guó)內(nèi)逐夢(mèng) AI 浪潮互聯(lián)網(wǎng)公司中戰(zhàn)略最清晰的一個(gè)。

張楠在 2020 年抖音創(chuàng)作者大會(huì)發(fā)言

要知道，抖音 CEO 張楠卸任前一年（2023 年）絕大多數(shù)精力都傾斜在剪映相關(guān)業(yè)務(wù)上。據(jù)張楠自述，刺激她義無(wú)反顧投身AI 的原因之一便是希望幫助創(chuàng)作者對(duì)更好表達(dá)自己的想法，因?yàn)檫^(guò)去“幾乎無(wú)法用一個(gè)產(chǎn)品完成所有的創(chuàng)作，要橫跨幾個(gè)產(chǎn)品之間，用復(fù)雜的編輯和交互流程，才能完成表達(dá)?！?/p>

但據(jù)字節(jié)內(nèi)部人士透露，張楠親自帶隊(duì)投身 AI 研究，很大程度上源于字節(jié)管理層預(yù)判文生圖、文生視頻將是下一個(gè)引領(lǐng)時(shí)代的賽點(diǎn)。

于張楠而言，就像她在朋友圈說(shuō)的那樣：“專注地從'心’出發(fā)，用始終創(chuàng)業(yè)的狀態(tài)，在未來(lái)的十年再折騰一些我熱愛(ài)的事情。字節(jié)跳動(dòng)是最好的平臺(tái)，既有夢(mèng)想，又務(wù)實(shí)的浪漫，我很期待和剪映的小伙伴們一起造夢(mèng)，與這個(gè) AI 的時(shí)代一起成長(zhǎng)，共同繪制出腦海中的奇幻世界?！?/p>

而且，張楠在內(nèi)部信中坦言，最近跟團(tuán)隊(duì)里的很多人聊天，有很多人還是滿腔熱血的，有很想做的事，這更讓她覺(jué)得機(jī)不可失、時(shí)不再來(lái)。“我知道這會(huì)是一條很長(zhǎng)的路，而且會(huì)有很多激烈的競(jìng)爭(zhēng)，也會(huì)碰到技術(shù)不確定性帶來(lái)的很多挑戰(zhàn)和試錯(cuò)。但夢(mèng)想還是應(yīng)該有的，如果不極致地試一次，未來(lái)該多遺憾?！?/p>

于公司而言，字節(jié)在模型技術(shù)和數(shù)據(jù)兩個(gè)方面同時(shí)具備優(yōu)勢(shì)，可以利用自身的數(shù)據(jù)資產(chǎn)為模型訓(xùn)練提供足夠的數(shù)據(jù)源，進(jìn)而在市場(chǎng)中獲得更大的競(jìng)爭(zhēng)力。

此前，《晚點(diǎn) LatePost》曾在報(bào)道中指出，字節(jié)廣告客戶投放總成本里有 10%~20% 為視頻制作成本；去年開(kāi)始，字節(jié)已在開(kāi)發(fā)一些相關(guān)產(chǎn)品幫廣告客戶壓縮這部分投入。

接近字節(jié)人士向虎嗅表示，字節(jié)的核心 AI 業(yè)務(wù)中，剪映占據(jù)重要位置，集團(tuán)希望它成為一個(gè)獨(dú)立的工具產(chǎn)品。“從戰(zhàn)略角度看，字節(jié)希望剪映變成一個(gè)類似于過(guò)去支付寶和淘寶關(guān)系的產(chǎn)品，它本身是一個(gè)工具，現(xiàn)在得慢慢地獨(dú)立出來(lái)?！?/strong>

不過(guò)，傳統(tǒng)視頻編輯工具，如剪映的技術(shù)路線是基于一些預(yù)測(cè)性和可復(fù)現(xiàn)的底層操作，包括傳統(tǒng)圖像學(xué)和視頻編輯算法，以非常精確的方式編輯視頻內(nèi)容——這樣的優(yōu)勢(shì)在于其操作粒度細(xì)且可控性強(qiáng)；缺點(diǎn)在于需要大量的人力投入，例如剪輯一段視頻考驗(yàn)制作者能力和人力成本。

順著這個(gè)邏輯所進(jìn)化的工具，只能通過(guò)建立一套標(biāo)準(zhǔn)操作流程（SOP），將一些工具進(jìn)行組合以形成多套模板，再通過(guò)這些模板來(lái)進(jìn)行視頻剪輯和生成；然而，這些模板基本上很同質(zhì)化，導(dǎo)致產(chǎn)生的變化很相似，形成了固定范式，導(dǎo)致這類工具適用場(chǎng)景有限，創(chuàng)新性較低——而 Sora 在圖像控制表達(dá)能力上結(jié)合了 DALL·E 和 GPT-4 的能力，其他廠商缺乏相應(yīng)的圖像和語(yǔ)言模型能力，人才、數(shù)據(jù)和算力才是技術(shù)復(fù)現(xiàn)的三大核心壁壘。

一位華人工程師向虎嗅表示，OpenAI 在技術(shù)層面領(lǐng)先的原因之一是選擇了 Transformer 架構(gòu)并創(chuàng)新推出 GPT 系列?！白钤绲?Transformer 論文是由谷歌的科學(xué)家編寫(xiě)，但在當(dāng)時(shí)并未被視為主流架構(gòu)；然而，OpenAI 首席科學(xué)家伊利將 Transformer 架構(gòu)應(yīng)用于 GPT-1 模型后，其展現(xiàn)出優(yōu)于以往模型的能力?！?/p>

他進(jìn)一步指出，相比谷歌這樣的科技巨頭，在新技術(shù)面前往往更重視社會(huì)影響及對(duì)現(xiàn)有業(yè)務(wù)的影響——字節(jié)何嘗不是如此；而 OpenAI 作為一家創(chuàng)業(yè)公司，反而可以放開(kāi)手腳，更注重創(chuàng)新與自我突破。

Sora只是亮個(gè)相，為何把你嚇壞了？

“Sora 能夠?qū)⒄鎸?shí)世界映射到虛擬世界，無(wú)論內(nèi)容真實(shí)性、視頻質(zhì)量（包括分辨率、碼率、像素等）還是輸出內(nèi)容與用戶需求的一致性都有顯著提升，夸張點(diǎn)說(shuō)是直接完成了 1 到 100 的躍遷。”一位 AI 創(chuàng)業(yè)者如此評(píng)價(jià)道。

上述論斷并非危言聳聽(tīng)——與其他文生視頻模型（Runway、 Pika 等）不同，當(dāng)攝像機(jī)移動(dòng)和旋轉(zhuǎn)時(shí) Sora 能輸出保持人物和場(chǎng)景 3D 空間一致性、基本符合物理世界規(guī)律（不能完全保持，也會(huì)出錯(cuò)）的視頻。

對(duì)此，OpenAI 透漏，Sora 的技術(shù)架構(gòu)與傳統(tǒng)視頻技術(shù)路徑有所不同：其先將不同視頻和圖片數(shù)據(jù)壓縮在一個(gè)低維空間中，再分解成統(tǒng)一 Patch 作為訓(xùn)練大模型的基本單位，這一改進(jìn)使得文生視頻更加逼真、高質(zhì)量。

Sora 輸出能力有多出色呢？即使在人物、動(dòng)物或物體被遮擋或離開(kāi)畫(huà)面時(shí)，仍然可以進(jìn)行追蹤，確保物體持續(xù)呈現(xiàn)；而且，相較于其他大模型在文本數(shù)據(jù)上理解和涌現(xiàn)，Sora 在 GPT（不少人猜測(cè)訓(xùn)練的或許是 GPT-4.5）的語(yǔ)義理解支撐下，能理解用戶需求以及在預(yù)訓(xùn)練學(xué)習(xí)過(guò)程中理解學(xué)習(xí)的視頻內(nèi)容。

疑似周亞輝在朋友圈透漏 GPT4.5 發(fā)布時(shí)間
雖說(shuō)，尚未對(duì)外開(kāi)放測(cè)試的 Sora 仍處于世界模型研究應(yīng)用的初期階段；可 Sora 一旦上線，用戶貢獻(xiàn)的素材內(nèi)容能豐富數(shù)據(jù)資源增加訓(xùn)練樣本。
一位 AI 創(chuàng)業(yè)者樂(lè)觀地表示，“相對(duì)現(xiàn)在某些類 GPT 產(chǎn)品插件，進(jìn)化的大模型可能支持各種插件應(yīng)用，解決生成內(nèi)容中的各種問(wèn)題，并對(duì)視頻、游戲等內(nèi)容產(chǎn)業(yè)產(chǎn)生商業(yè)層面的變革?！?/p>
所以，短期內(nèi) Sora 更多會(huì)應(yīng)用于物理世界內(nèi)容的延展，包括使用物理世界內(nèi)容拼接創(chuàng)建新的創(chuàng)新內(nèi)容，例如常規(guī)內(nèi)容短片、電影等；中期，Sora 可作為視頻編輯工具，應(yīng)用在特效添加、背景更改、人物替換方面；后期，Sora 應(yīng)用范圍會(huì)涉及虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、游戲開(kāi)發(fā)等，潛在應(yīng)用方向包括虛擬試衣、虛擬旅游等。

來(lái)源：Sora生成視頻截取

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频