卷完產(chǎn)品,卷開源,快手最近推出的另一款視頻模型快被網(wǎng)友玩包漿了。
大叔變身美少女:
OBS實(shí)時(shí)套皮直播不露餡:
AI視頻中的人物對(duì)話口型也愈發(fā)自然。背后的工作流是:Midjourney+可靈+LivePortrait,其中LivePortrait負(fù)責(zé)口型同步。
來(lái)源:X博主“el.cine”
??注意,視頻有聲音建議佩戴耳機(jī)食用
融入3D工作流:Tripo3D+可靈+LivePortrait。3D可以讓創(chuàng)作者更自由地創(chuàng)建不同的場(chǎng)景、照明和視野。
LivePortrait是快手可靈大模型團(tuán)隊(duì)近期推出的一款開源可控人像視頻生成框架。自開源以來(lái),LivePortrait迅速在AI圈走紅。截至目前,它在GitHub上已經(jīng)獲得了9.1K星標(biāo),并在HuggingFace的應(yīng)用趨勢(shì)榜上位居第一。
以上幾段視頻中動(dòng)態(tài)的人物表情和說(shuō)話時(shí)自然的嘴部動(dòng)作,都是由LivePortrait驅(qū)動(dòng)生成的。
目前,LivePortrait的論文代碼已開源,可以在線體驗(yàn)或根據(jù)GitHub上的教程部署到本地使用。(相關(guān)鏈接已整理同步至文末)
在開源社區(qū)的支持下,LivePortrait形成了一套Comfyui工作流。不僅能夠?qū)χ辈ブ械娜宋锉砬檫M(jìn)行近乎實(shí)時(shí)的控制,還支持以V2V視頻編輯的方式,將參考視頻的人物表情移花接木到另一個(gè)視頻中,堪稱新型賽博“換頭術(shù)”。
通過(guò)攝像頭實(shí)時(shí)控制蒙娜麗莎:
AI爆改經(jīng)典電影《黑客帝國(guó)》,救世主尼克化身喜劇人,嚴(yán)肅科幻打斗秒變喜劇片:
Comfyui插件地址:
github.com/kijai/ComfyUI-LivePortraitKJ
除了無(wú)限逼近“實(shí)時(shí)”的快速生成能力,應(yīng)用在直播、視頻制作等場(chǎng)景中,LivePortrait最大的亮點(diǎn)是突破了以往AI視頻生成中常見的人物表情不自然、口型不匹配等問題。
HuggingFace首席戰(zhàn)略官Thomas Wolf親自下場(chǎng)體驗(yàn),一張自拍照+參考動(dòng)態(tài)視頻,口型表情神同步,帶給了他神奇的“WOW”時(shí)刻。
電影導(dǎo)演、X博主“EHuanglu”近日也發(fā)文盛贊LivePortrait是“市場(chǎng)上最好的口型同步軟件”。
LivePortrait真有那么神奇嗎?我們上手實(shí)測(cè)了一波。
讓AI特朗普模仿拜登“歪嘴笑”,
新一代鬼畜神器來(lái)了
在HuggingFace上,找到LivePortrait項(xiàng)目,點(diǎn)擊進(jìn)入在線體驗(yàn)網(wǎng)頁(yè),即可無(wú)限暢玩。
不過(guò),由于排隊(duì)體驗(yàn)的人不少,有時(shí)會(huì)因平臺(tái)算力資源緊張而無(wú)法成功生成視頻,需要多嘗試幾次,有硬件條件的玩家可部署到本地使用。
進(jìn)入LivePortrait項(xiàng)目主頁(yè),目前提供圖生視頻和圖生圖兩種玩法。
我們從圖生視頻測(cè)起。LivePortrait的圖生視頻操作步驟很簡(jiǎn)單:
首先,選擇一張高清的正面人像照片作為素材;
其次,準(zhǔn)備一段參考視頻,用于驅(qū)動(dòng)人像的表情和頭部動(dòng)作,要求視頻橫縱比為1:1(可用剪映裁剪處理),為了保證生成效果,視頻應(yīng)專注于頭部,盡量減少肩部運(yùn)動(dòng),第一幀為中性表情;
最后,點(diǎn)擊“Animate”按鈕生成視頻,生成完成后,點(diǎn)擊“Download”按鈕可下載視頻。
如果懶得找素材,也可以直接用官方提供的示例圖片或參考視頻,隨機(jī)組合看看效果。
最近自帶“網(wǎng)紅體質(zhì)”的川普再度翻紅,我們上傳了一張他的靜態(tài)照片給AI,并隨機(jī)選擇了一個(gè)官方參考視頻進(jìn)行測(cè)試。
最終生成的視頻幾乎沒有“破綻”,彷佛畫面中“偷感很重”的川普真是實(shí)拍的。
左邊為參考視頻、中間為上傳圖片、右邊為生成視頻
AI川普既沒有“歪臉”,眼睛與嘴巴的運(yùn)動(dòng)也符合參考視頻要求,甚至笑起來(lái)時(shí)人物的面部肌肉運(yùn)動(dòng)也相當(dāng)自然。
雖然細(xì)看之下可以發(fā)現(xiàn),AI川普的牙齒部分出現(xiàn)了細(xì)微的閃影現(xiàn)象,但整體的生成視頻效果足以以假亂真。
川普和拜登最近的首場(chǎng)總統(tǒng)競(jìng)選辯論,四年一度的“兩老二辯日”,我們也讓AI魔改了一下。
拜登的經(jīng)典表情——“人無(wú)語(yǔ)了真的會(huì)笑”,換到川普臉上會(huì)怎么樣?
別說(shuō),還真有“歪嘴戰(zhàn)神”邪魅狂狷那味兒。
與圖生視頻相比,LivePortrait的圖生圖操作就更簡(jiǎn)單了。只需上傳你想整活的圖片,調(diào)節(jié)眼睛、嘴巴等部位的張合比例值,可以讓圖中人物的眼睛或嘴巴相應(yīng)地張得更大。
比率值設(shè)置得越高,眼睛和嘴巴的張合程度也就越大。
AI時(shí)代,整蠱名人的創(chuàng)作成本可以說(shuō)是越來(lái)越低了。
目前,HuggingFace在線體驗(yàn)暫不支持V2V視頻編輯。對(duì)此有需求的玩家可以考慮本地部署LivePortrait模型,并結(jié)合開發(fā)者Kijai推出的Comfyui插件進(jìn)行使用。
開源免費(fèi),才是真·量大管飽。
逐夢(mèng)AI視頻賽道,“黑馬”快手的突圍
一鍵讓照片“動(dòng)”起來(lái)這種玩法并不算新鮮。
阿里早前推出了Animate Anyone和Emote Portrait Alive(簡(jiǎn)稱Emo)兩款人物動(dòng)作和表情生成框架,并將它們整合到“全民舞臺(tái)”APP中,形成了一鍵讓人物跳舞、唱歌的AI視頻熱門玩法。
與阿里EMO不同,快手推出的LivePortrait放棄了當(dāng)前主流基于擴(kuò)散模型的技術(shù)路線,而是采用了隱式關(guān)鍵點(diǎn)框架。
阿里EMO采用的穩(wěn)定擴(kuò)散方案,通過(guò)逐步引入和去除噪聲在潛在空間中生成一幀幀圖像。
LivePortrait的隱式關(guān)鍵點(diǎn)框架利用一組抽象特征來(lái)捕捉圖像的關(guān)鍵信息。關(guān)鍵點(diǎn)通常對(duì)應(yīng)面部特定部位,如眼角、嘴角、鼻子等,其位置和變化可以驅(qū)動(dòng)面部表情和頭部運(yùn)動(dòng)。
通過(guò)操作關(guān)鍵點(diǎn),模型可以精確地控制面部運(yùn)動(dòng)細(xì)節(jié),實(shí)現(xiàn)平滑和逼真的視頻生成效果,并在從未見過(guò)的圖像處理上表現(xiàn)優(yōu)異。
在“AI新榜”早前的測(cè)試中,EMO模型生成的視頻仍能看出明顯的AI痕跡。
同樣一張圖片,看看LivePortrait生成的效果。
可以明顯看到人物表情處理更自然,但比較可惜的是,現(xiàn)階段LivePortrait只針對(duì)頭部生成動(dòng)態(tài)視頻。不過(guò),對(duì)于鬼畜整活一類的視頻來(lái)說(shuō),AI生成的視頻效果質(zhì)量肉眼可見地變得越來(lái)越好了。
此外,擴(kuò)散模型方案由于需要逐步去噪的步驟較多,通常難以做到實(shí)時(shí)的高質(zhì)量視頻生成。
而LivePortrait模型可以做到近乎實(shí)時(shí)生成效果不錯(cuò)的人物面部視頻。官方稱在RTX 4090 GPU上使用PyTorch,模型生成速度顯著達(dá)到12.8毫秒,在生成速度和質(zhì)量上都極具競(jìng)爭(zhēng)力。
LivePortrait方法與其他現(xiàn)有方法進(jìn)行比較
這也是為什么網(wǎng)友整新活兒,可以用LivePortrait模型絲滑實(shí)現(xiàn)OBS套皮直播。
從技術(shù)路線的選擇,可以看出快手想要攻克的是AI視頻生成的關(guān)鍵難題——人物面部表情的生成。
有業(yè)內(nèi)人士推測(cè),這項(xiàng)技術(shù)可能早就接入可靈模型落地應(yīng)用了一段時(shí)間了。之前備受矚目的國(guó)內(nèi)首部AIGC奇幻短劇《山海奇鏡》制作人陳坤曾向我們表示,目前可靈的圖生視頻功能可能是現(xiàn)階段所有產(chǎn)品中效果最好的。
《山海奇鏡》的制作由可靈提供技術(shù)支持。雖然在大場(chǎng)面特效處理上為人所稱道,但也不乏一些批評(píng)的聲音,認(rèn)為該短劇中的人物面部表情僵硬、表演沒有感情。
陳坤也坦言,之后對(duì)AI影視的探索會(huì)更注重在人物表演上。
據(jù)快手官方稱,LivePortrait的相關(guān)技術(shù)點(diǎn),已在快手的諸多業(yè)務(wù)完成落地,包括快手魔表、快手私信、快影的AI表情玩法、快手直播、以及快手孵化的面向年輕人的噗嘰APP等。
接下來(lái)LivePortrait會(huì)基于可靈基礎(chǔ)模型,進(jìn)一步探索多模態(tài)驅(qū)動(dòng)的人像視頻生成。
今年6月初,快手可靈橫空出世,一路從國(guó)內(nèi)火到國(guó)外。在這種“鯰魚效應(yīng)”的推動(dòng)下,國(guó)外AI初創(chuàng)公司Luma推出了Dream Machine視頻模型,AI視頻賽道頭部玩家Runway也更新了其Gen-3模型。
從產(chǎn)品研發(fā)到可靈正式上線,快手只花了三個(gè)月。
目前,快手可靈已向全球用戶開放,并推出了訂閱付費(fèi)模式,正式開啟了產(chǎn)品的商業(yè)化進(jìn)程。
而快手對(duì)此的技術(shù)探索也不是一蹴而就的,最早可以追溯到2023年10月的內(nèi)部項(xiàng)目“噗嘰”:一款將靜態(tài)圖片通過(guò)AI生成2s Gif表情包的工具軟件。
未來(lái),LivePortrait所代表的人像生成技術(shù)會(huì)如何落地應(yīng)用在可靈基礎(chǔ)模型上,值得我們期待。
Github地址:
https://github.com/KwaiVGI/LivePortrait
論文鏈接:
https://arxiv.org/abs/2407.03168
項(xiàng)目主頁(yè):
https://liveportrait.github.io/
HuggingFace在線體驗(yàn):
https://huggingface.co/spaces/KwaiVGI/LivePortrait
聯(lián)系客服