Google研究人員可以從一張照片中製作出影片

草根影響力新視野 夜未央編譯

Google研究人員已經找到了一種方法，可以創建僅由單個靜止圖像生成的人類影片版本。這使它能夠執行一些操作，例如，從輸入文本生成某人說話的影片，或更改某人的嘴部動作以匹配與最初所說的語言不同的音軌。這也感覺像是滑向身份盜竊和錯誤資訊，但如果沒有一絲可怕的後果，人工智慧是什麼。

這項技術本身相當有趣：發表這篇論文的Google研究人員將其稱為Vlogger。在這篇文章中，作者（Enric Corona等人）在多個影片和一篇詳細介紹AI功能的論文中展示了AI模型的功能。該工具允許使用者輸入參考圖像，然後向AI提供各種命令，以幫助確定影片的外觀。與OpenAI的Sora相比，這是一種不同的影片生成方法，但它仍然有很多用途。

這只是該技術的幾個潛在用例之一。另一種是編輯影片，特別是影片主體的面部表情。在一個例子中，研究人員展示了同一片段的不同版本：一個影片是主持人對著鏡頭說話，另一個影片是主持人以怪異的方式閉上嘴巴，再另一個影片是閉著眼睛。還有一個展示影片是演示者的影片，他們的眼睛被人工智慧人為地睜開，一眨不眨。

圖片取自:(示意圖123rf)

而最有用的功能莫過於是能夠將音軌換成帶有外語配音版本的影片，並讓AI將人的面部動作口型同步到音軌上，即使它是另一種語言，所以從技術上講，你可以用不會說西班牙語的人來創建西班牙語內容。

它通過使用兩個階段來工作：1）隨機的人體到3D運動的擴散模型，以及2）一種新穎的基於擴散的架構，透過時間和空間控制增強文字到圖像模型。這種方法可以生成可變長度的高品質影片，這些影片可以通過人的臉部和身體的高級展示來輕鬆控制。

當然，這項技術還遠未完美，而且有跡象表明Vlogger正在使用人工智慧產生這些影片。在某些範例中，嘴巴的動作感覺非常不自然，這暴露了使用人工智慧來創建影片的可能性。但這就是人工智慧的問題所在，它不一定要完美才能有用。而且，這是Vlogger有史以來最糟糕的情況。隨著時間的推移，Google為模型提供了更多的材料，它只會變得越來越好。

同樣，如果它是一種更完美的技術，那麼考慮如何使用這項技術來製造深度偽造、傳播錯誤資訊或竊取身份，那就更令人擔憂了。至少就目前而言，Vlogger的AI影片生成器還不夠完美，無法證明對深度偽造或錯誤資訊活動太有用了。但是，如果我們不掌握未來如何處理人工智慧，一旦Google進一步改進它，它很可能在這些領域佔有一席之地。我們總有一天會到達那裡，我希望到那時我們能更多地處理這些東西。

資料來源：https://bgr.com https://www.pcgamer.com

圖片取自:(示意圖123rf)

熱門關鍵字

Most Popular Tags