草根影響力新視野 夜未央編譯
Google研究人員已經找到了一種方法,可以創建僅由單個靜止圖像生成的人類影片版本。這使它能夠執行一些操作,例如,從輸入文本生成某人說話的影片,或更改某人的嘴部動作以匹配與最初所說的語言不同的音軌。這也感覺像是滑向身份盜竊和錯誤資訊,但如果沒有一絲可怕的後果,人工智慧是什麼。
這項技術本身相當有趣:發表這篇論文的Google研究人員將其稱為Vlogger。在這篇文章中,作者(Enric Corona等人)在多個影片和一篇詳細介紹AI功能的論文中展示了AI模型的功能。該工具允許使用者輸入參考圖像,然後向AI提供各種命令,以幫助確定影片的外觀。與OpenAI的Sora相比,這是一種不同的影片生成方法,但它仍然有很多用途。
這只是該技術的幾個潛在用例之一。另一種是編輯影片,特別是影片主體的面部表情。在一個例子中,研究人員展示了同一片段的不同版本:一個影片是主持人對著鏡頭說話,另一個影片是主持人以怪異的方式閉上嘴巴,再另一個影片是閉著眼睛。還有一個展示影片是演示者的影片,他們的眼睛被人工智慧人為地睜開,一眨不眨。
圖片取自:(示意圖123rf)
而最有用的功能莫過於是能夠將音軌換成帶有外語配音版本的影片,並讓AI將人的面部動作口型同步到音軌上,即使它是另一種語言,所以從技術上講,你可以用不會說西班牙語的人來創建西班牙語內容。
它通過使用兩個階段來工作:1)隨機的人體到3D運動的擴散模型,以及2)一種新穎的基於擴散的架構,透過時間和空間控制增強文字到圖像模型。這種方法可以生成可變長度的高品質影片,這些影片可以通過人的臉部和身體的高級展示來輕鬆控制。
當然,這項技術還遠未完美,而且有跡象表明Vlogger正在使用人工智慧產生這些影片。在某些範例中,嘴巴的動作感覺非常不自然,這暴露了使用人工智慧來創建影片的可能性。但這就是人工智慧的問題所在,它不一定要完美才能有用。而且,這是Vlogger有史以來最糟糕的情況。隨著時間的推移,Google為模型提供了更多的材料,它只會變得越來越好。
同樣,如果它是一種更完美的技術,那麼考慮如何使用這項技術來製造深度偽造、傳播錯誤資訊或竊取身份,那就更令人擔憂了。至少就目前而言,Vlogger的AI影片生成器還不夠完美,無法證明對深度偽造或錯誤資訊活動太有用了。但是,如果我們不掌握未來如何處理人工智慧,一旦Google進一步改進它,它很可能在這些領域佔有一席之地。我們總有一天會到達那裡,我希望到那時我們能更多地處理這些東西。
資料來源:https://bgr.com https://www.pcgamer.com
Polygon recent comments