开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

    1. 
      
        <b id="zqfy3"><legend id="zqfy3"><fieldset id="zqfy3"></fieldset></legend></b>
          <ul id="zqfy3"></ul>
          <blockquote id="zqfy3"><strong id="zqfy3"><dfn id="zqfy3"></dfn></strong></blockquote>
          <blockquote id="zqfy3"><legend id="zqfy3"></legend></blockquote>
          打開(kāi)APP
          userphoto
          未登錄

          開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

          開(kāi)通VIP
          字節(jié)等待一鳴驚人


          出品|虎嗅商業(yè)消費(fèi)組
          者|黃青春

          一場(chǎng)事先張揚(yáng)的發(fā)布會(huì)讓 Sora 成為 2024 開(kāi)年頂流,字節(jié)跳動(dòng)卻在悄咪咪推進(jìn) AI 產(chǎn)品迭代。

          近日,字節(jié)正式發(fā)布文生圖模型 SDXL-Lightning。其官方信息稱該模型采用了新的漸進(jìn)式對(duì)抗蒸餾(Progressive Adversarial Distillation)技術(shù),能將計(jì)算時(shí)間和成本降至此前的十分之一——通常情況下,文生圖模型使用擴(kuò)散式生成(diffusion)模型,單張圖像處理時(shí)間大約需要 5 秒,還需多次(20~40 次)調(diào)用龐大的神經(jīng)網(wǎng)絡(luò);但 SDXL-Lightning 能提速 10 倍在 2~4 步內(nèi)生成高質(zhì)量及分辨率的圖像。

          事實(shí)上,早于 2023 年 11 月,字節(jié)跳動(dòng)已發(fā)表視頻生成研究成果 PixelDance,提出基于文本指導(dǎo) + 首尾幀圖片指導(dǎo)的技術(shù)方法,能生成具有高度一致性和豐富動(dòng)態(tài)性的視頻;今年1月,字節(jié)又發(fā)布了視頻生成模型 MagicVideo-V2,通過(guò)集成文本到圖像模型、視頻運(yùn)動(dòng)生成器、參考圖像嵌入模塊和插值模塊,打造了一條視頻生成流水線,效果超越 SVD-XT、Pika1.0、Runway的Gen-2 等同類模型。

          盡管,字節(jié)在研發(fā)多模態(tài)模型方面已處于國(guó)內(nèi)領(lǐng)先狀態(tài),但其與 OpenAI 仍有較大差距,好在字節(jié)愿意接入 OpenAI 的模型(字節(jié)海外有兩款 AI 產(chǎn)品,Cici 和 Coze 都接入了 GPT 3.5/GPT 4 模型,兩者 DAU 迅速攀升至百萬(wàn)級(jí)別),在一定程度上克服了模型能力的短板。

          然而,橫空出世的 Sora 加速了字節(jié)的焦慮:

          • 一方面,Sora 已經(jīng)能生成 60 秒視頻,這將直接改變抖音與 TikTok 的內(nèi)容供給邏輯——巨量數(shù)據(jù)顯示,以 60 秒視頻為臨界點(diǎn),文生視頻已經(jīng)在顛覆短視頻行業(yè);

          • 另一方面,Sora 可以用于視頻編輯、視頻風(fēng)格混合等多個(gè)領(lǐng)域,是一個(gè)集視頻生成、圖片生成、視頻編輯等功能于一體的強(qiáng)大模型。


          有鑒于此,Sora 這樣的“新物種”從創(chuàng)作門(mén)檻、內(nèi)容質(zhì)感、創(chuàng)作持續(xù)性等方面都會(huì)降維打擊大部分創(chuàng)作者,或?qū)⒏淖儍?nèi)容生產(chǎn)和編輯方式,從業(yè)者可能面臨技能需求和工作流程的變化——此前 Runway 在《瞬息全宇宙》里已有所應(yīng)用,但 4 秒到 15 秒發(fā)展了半年,15 秒到 1 分鐘三個(gè)月,技術(shù)的發(fā)展速度如此驚人,隨著文生視頻效果越發(fā)精進(jìn),抖音及 TikTok 也將面臨新技術(shù)帶來(lái)的洗牌,這在一定程度上刺激字節(jié)更加積極推進(jìn) AI 技術(shù)投入。

          深層次原因還在于:中國(guó)移動(dòng)互聯(lián)網(wǎng)業(yè)到了用戶、流量趨于見(jiàn)頂?shù)某墒炱?,監(jiān)管會(huì)更側(cè)重產(chǎn)業(yè)互聯(lián)網(wǎng)的推進(jìn)與建設(shè),這意味著技術(shù)走到平臺(tái)重構(gòu)生態(tài)的關(guān)鍵時(shí)期。

          尤其,在快速迭代的 AI 浪潮裹挾下,心有猛虎的公司都在尋找向上攀爬的入口——當(dāng)通用人工智能時(shí)代呼嘯而來(lái),字節(jié)手握應(yīng)用層及數(shù)據(jù)層的獨(dú)特優(yōu)勢(shì),抖音擁有豐富的數(shù)據(jù)素材和充足的算力資源,必須在快速發(fā)展時(shí)期進(jìn)行果斷投入(包括技術(shù)生態(tài)迭代、研發(fā)投入等),從而博一張未來(lái)的船票。

          剪映成字節(jié)刺破AI的“針”

          那些顛覆行業(yè)產(chǎn)品的誕生契機(jī)就是如此傳奇:Sora 創(chuàng)始團(tuán)隊(duì)成立不足 1 年,由兩名剛畢業(yè)的博士生帶隊(duì),核心成員 15 人,其中甚至有 00 后(成員Will DePu 于 2003 年出生);而抖音前身 A.me 于 2016 年秋上線時(shí),創(chuàng)始團(tuán)隊(duì)也只有 7 個(gè)年輕人。

          虎嗅了解到,字節(jié)跳動(dòng)的 AI 戰(zhàn)略是各個(gè)市場(chǎng)做各自的產(chǎn)品;其中,剪映或?qū)⒊蔀橹袊?guó) AI 應(yīng)用最先爆發(fā)的產(chǎn)品:截至 2021 年,剪映月活用戶數(shù)已經(jīng)突破 1 億,是國(guó)內(nèi)最大的移動(dòng)視頻編輯產(chǎn)品。

          具體而言,字節(jié)跳動(dòng)通過(guò)拆解明確每個(gè)部門(mén)的 OKR(例如抖音主要負(fù)責(zé)拉新,而字節(jié)專門(mén)負(fù)責(zé) AI 產(chǎn)品的 Flow 部門(mén)負(fù)責(zé)開(kāi)發(fā)及產(chǎn)品增長(zhǎng))實(shí)現(xiàn)了部門(mén)間互不干涉,解決了互聯(lián)網(wǎng)公司迅速擴(kuò)張所面臨的組織協(xié)同問(wèn)題,是國(guó)內(nèi)逐夢(mèng) AI 浪潮互聯(lián)網(wǎng)公司中戰(zhàn)略最清晰的一個(gè)。


          張楠在 2020 年抖音創(chuàng)作者大會(huì)發(fā)言

          要知道,抖音 CEO 張楠卸任前一年(2023 年)絕大多數(shù)精力都傾斜在剪映相關(guān)業(yè)務(wù)上。據(jù)張楠自述,刺激她義無(wú)反顧投身AI 的原因之一便是希望幫助創(chuàng)作者對(duì)更好表達(dá)自己的想法,因?yàn)檫^(guò)去“幾乎無(wú)法用一個(gè)產(chǎn)品完成所有的創(chuàng)作,要橫跨幾個(gè)產(chǎn)品之間,用復(fù)雜的編輯和交互流程,才能完成表達(dá)?!?/p>

          但據(jù)字節(jié)內(nèi)部人士透露,張楠親自帶隊(duì)投身 AI 研究,很大程度上源于字節(jié)管理層預(yù)判文生圖、文生視頻將是下一個(gè)引領(lǐng)時(shí)代的賽點(diǎn)。

          于張楠而言,就像她在朋友圈說(shuō)的那樣:“專注地從'心’出發(fā),用始終創(chuàng)業(yè)的狀態(tài),在未來(lái)的十年再折騰一些我熱愛(ài)的事情。字節(jié)跳動(dòng)是最好的平臺(tái),既有夢(mèng)想,又務(wù)實(shí)的浪漫,我很期待和剪映的小伙伴們一起造夢(mèng),與這個(gè) AI 的時(shí)代一起成長(zhǎng),共同繪制出腦海中的奇幻世界?!?/p>

          而且,張楠在內(nèi)部信中坦言,最近跟團(tuán)隊(duì)里的很多人聊天,有很多人還是滿腔熱血的,有很想做的事,這更讓她覺(jué)得機(jī)不可失、時(shí)不再來(lái)。“我知道這會(huì)是一條很長(zhǎng)的路,而且會(huì)有很多激烈的競(jìng)爭(zhēng),也會(huì)碰到技術(shù)不確定性帶來(lái)的很多挑戰(zhàn)和試錯(cuò)。但夢(mèng)想還是應(yīng)該有的,如果不極致地試一次,未來(lái)該多遺憾?!?/p>

          于公司而言,字節(jié)在模型技術(shù)和數(shù)據(jù)兩個(gè)方面同時(shí)具備優(yōu)勢(shì),可以利用自身的數(shù)據(jù)資產(chǎn)為模型訓(xùn)練提供足夠的數(shù)據(jù)源,進(jìn)而在市場(chǎng)中獲得更大的競(jìng)爭(zhēng)力。

          此前,《晚點(diǎn) LatePost》曾在報(bào)道中指出,字節(jié)廣告客戶投放總成本里有 10%~20% 為視頻制作成本;去年開(kāi)始,字節(jié)已在開(kāi)發(fā)一些相關(guān)產(chǎn)品幫廣告客戶壓縮這部分投入。

          接近字節(jié)人士向虎嗅表示,字節(jié)的核心 AI 業(yè)務(wù)中,剪映占據(jù)重要位置,集團(tuán)希望它成為一個(gè)獨(dú)立的工具產(chǎn)品。“從戰(zhàn)略角度看,字節(jié)希望剪映變成一個(gè)類似于過(guò)去支付寶和淘寶關(guān)系的產(chǎn)品,它本身是一個(gè)工具,現(xiàn)在得慢慢地獨(dú)立出來(lái)?!?/strong>

          不過(guò),傳統(tǒng)視頻編輯工具,如剪映的技術(shù)路線是基于一些預(yù)測(cè)性和可復(fù)現(xiàn)的底層操作,包括傳統(tǒng)圖像學(xué)和視頻編輯算法,以非常精確的方式編輯視頻內(nèi)容——這樣的優(yōu)勢(shì)在于其操作粒度細(xì)且可控性強(qiáng);缺點(diǎn)在于需要大量的人力投入,例如剪輯一段視頻考驗(yàn)制作者能力和人力成本。

          順著這個(gè)邏輯所進(jìn)化的工具,只能通過(guò)建立一套標(biāo)準(zhǔn)操作流程(SOP),將一些工具進(jìn)行組合以形成多套模板,再通過(guò)這些模板來(lái)進(jìn)行視頻剪輯和生成;然而,這些模板基本上很同質(zhì)化,導(dǎo)致產(chǎn)生的變化很相似,形成了固定范式,導(dǎo)致這類工具適用場(chǎng)景有限,創(chuàng)新性較低——而 Sora 在圖像控制表達(dá)能力上結(jié)合了 DALL·E 和 GPT-4 的能力,其他廠商缺乏相應(yīng)的圖像和語(yǔ)言模型能力,人才、數(shù)據(jù)和算力才是技術(shù)復(fù)現(xiàn)的三大核心壁壘。

          一位華人工程師向虎嗅表示,OpenAI 在技術(shù)層面領(lǐng)先的原因之一是選擇了 Transformer 架構(gòu)并創(chuàng)新推出 GPT 系列?!白钤绲?Transformer 論文是由谷歌的科學(xué)家編寫(xiě),但在當(dāng)時(shí)并未被視為主流架構(gòu);然而,OpenAI 首席科學(xué)家伊利將 Transformer 架構(gòu)應(yīng)用于 GPT-1 模型后,其展現(xiàn)出優(yōu)于以往模型的能力?!?/p>

          他進(jìn)一步指出,相比谷歌這樣的科技巨頭,在新技術(shù)面前往往更重視社會(huì)影響及對(duì)現(xiàn)有業(yè)務(wù)的影響——字節(jié)何嘗不是如此;而 OpenAI 作為一家創(chuàng)業(yè)公司,反而可以放開(kāi)手腳,更注重創(chuàng)新與自我突破。

          Sora只是亮個(gè)相,為何把你嚇壞了?

          “Sora 能夠?qū)⒄鎸?shí)世界映射到虛擬世界,無(wú)論內(nèi)容真實(shí)性、視頻質(zhì)量(包括分辨率、碼率、像素等)還是輸出內(nèi)容與用戶需求的一致性都有顯著提升,夸張點(diǎn)說(shuō)是直接完成了 1 到 100 的躍遷。”一位 AI 創(chuàng)業(yè)者如此評(píng)價(jià)道。

          上述論斷并非危言聳聽(tīng)——與其他文生視頻模型 (Runway、 Pika 等) 不同,當(dāng)攝像機(jī)移動(dòng)和旋轉(zhuǎn)時(shí) Sora 能輸出保持人物和場(chǎng)景 3D 空間一致性、基本符合物理世界規(guī)律(不能完全保持,也會(huì)出錯(cuò))的視頻。

          對(duì)此,OpenAI 透漏,Sora 的技術(shù)架構(gòu)與傳統(tǒng)視頻技術(shù)路徑有所不同:其先將不同視頻和圖片數(shù)據(jù)壓縮在一個(gè)低維空間中,再分解成統(tǒng)一 Patch 作為訓(xùn)練大模型的基本單位,這一改進(jìn)使得文生視頻更加逼真、高質(zhì)量。

          Sora 輸出能力有多出色呢?即使在人物、動(dòng)物或物體被遮擋或離開(kāi)畫(huà)面時(shí),仍然可以進(jìn)行追蹤,確保物體持續(xù)呈現(xiàn);而且,相較于其他大模型在文本數(shù)據(jù)上理解和涌現(xiàn),Sora 在 GPT(不少人猜測(cè)訓(xùn)練的或許是 GPT-4.5)的語(yǔ)義理解支撐下,能理解用戶需求以及在預(yù)訓(xùn)練學(xué)習(xí)過(guò)程中理解學(xué)習(xí)的視頻內(nèi)容。


          疑似周亞輝在朋友圈透漏 GPT4.5 發(fā)布時(shí)間

          雖說(shuō),尚未對(duì)外開(kāi)放測(cè)試的 Sora 仍處于世界模型研究應(yīng)用的初期階段;可 Sora 一旦上線,用戶貢獻(xiàn)的素材內(nèi)容能豐富數(shù)據(jù)資源增加訓(xùn)練樣本。

          一位 AI 創(chuàng)業(yè)者樂(lè)觀地表示,“相對(duì)現(xiàn)在某些類 GPT 產(chǎn)品插件,進(jìn)化的大模型可能支持各種插件應(yīng)用,解決生成內(nèi)容中的各種問(wèn)題,并對(duì)視頻、游戲等內(nèi)容產(chǎn)業(yè)產(chǎn)生商業(yè)層面的變革?!?/p>

          所以,短期內(nèi) Sora 更多會(huì)應(yīng)用于物理世界內(nèi)容的延展,包括使用物理世界內(nèi)容拼接創(chuàng)建新的創(chuàng)新內(nèi)容,例如常規(guī)內(nèi)容短片、電影等;中期,Sora 可作為視頻編輯工具,應(yīng)用在特效添加、背景更改、人物替換方面;后期,Sora 應(yīng)用范圍會(huì)涉及虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、游戲開(kāi)發(fā)等,潛在應(yīng)用方向包括虛擬試衣、虛擬旅游等。



          來(lái)源:Sora生成視頻截取

          本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
          打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
          猜你喜歡
          類似文章
          生活服務(wù)
          分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
          綁定賬號(hào)成功
          后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
          如果VIP功能使用有故障,
          可點(diǎn)擊這里聯(lián)系客服!

          聯(lián)系客服