導(dǎo)讀:“魔高一尺,道高一丈”
出品:科普中國
制作:之遙科普
監(jiān)制:中國科學(xué)院計算機網(wǎng)絡(luò)信息中心
從在圍棋界戰(zhàn)無不勝的“阿爾法狗”,到鋪天蓋地的“人臉識別”,機器學(xué)習(xí)給人們的生活帶來了翻天覆地的改變。但隨著AI技術(shù)的不斷發(fā)展,以“智能換臉”為主要展現(xiàn)結(jié)果的Deepfake技術(shù),卻給大家的生活帶來了更多困擾。
2018年,加蓬總統(tǒng)Ali Bongo因中風(fēng)在公共視野中消失了數(shù)月。政府為了安撫民心,在新年時公開了一段總統(tǒng)錄制的新年致辭。這段新年致辭使用了Deepfake技術(shù)進行生成,但這個視頻非但沒有起到安撫民心的作用,反而讓軍方的資深大佬發(fā)現(xiàn)異常,最終導(dǎo)致了兵變。在這個事件中,“AI換臉”技術(shù)成為干擾政治選舉,降低政府公信力的一大推手。
在很多人的印象中,Deepfake技術(shù)除了能讓有需求的人看到AI換臉的色情小視頻外,似乎都走在社會的陰影里。
圖1 deepfake圖片(圖片來源:http://zkres1.myzaker.com/)
對普通人而言,Deepfake技術(shù)可謂是以假亂真,毫無破綻。那面對網(wǎng)上流傳的真假不一的視頻,我們真的無法分辨嗎?
不用擔(dān)心,正所謂“魔高一尺,道高一丈”。在專業(yè)人士手中,通過細致的計算機分析,可以辨別出照片、視頻的真假,讓Deepfake技術(shù)處理過的內(nèi)容“現(xiàn)出原形”。
Deepfake技術(shù)的原理就是學(xué)習(xí)學(xué)習(xí)再學(xué)習(xí)
要了解Deepfake技術(shù)如何被識破,首先就要了解什么是Deepfake技術(shù)。Deepfake是使用深度機器學(xué)習(xí)(deep machine learning)和假照片(fake photo)組合而成的一個詞,可以理解為機器進行深度學(xué)習(xí)而制造的假照片、假視頻等虛假產(chǎn)物。其中最常見的應(yīng)用就是“AI換臉”,也就是將一個人的臉部移植到另一個人臉上。
在進行換臉時,機器首先需要識別出人臉的位置。人臉的識別與校準(zhǔn)在自動駕駛等領(lǐng)域也有著廣泛的應(yīng)用,目前的發(fā)展已經(jīng)非常成熟,識別率在98%以上。
換臉用的素材,與待換臉的視頻中的人臉,他們的面部朝向、面部表情往往不同。因此,識別出人臉位置之后,機器要進一步對人臉進行校準(zhǔn)。通過尋找面部具有鮮明特征的區(qū)域,機器可以確定每一幀中人臉的朝向、表情,進而將待換臉視頻中需要插入的人臉與素材匹配起來。
匹配完成之后,換臉技術(shù)也不是簡單地就把換臉?biāo)夭馁N在了待換臉的人臉上。簡單地貼圖,可以輕松地被肉眼識別,難以達到“以假亂真”的效果。Deepfake技術(shù)進一步地學(xué)習(xí)原理可以用人的行為來類比。
如果你盯A臉看上100小時,接著去看B臉的照片;接下來讓你憑記憶畫出B的臉,那不管你的技術(shù)水平多高,最終都會畫的跟A臉很像。所以,當(dāng)我們訓(xùn)練機器,讓機器學(xué)習(xí)用A臉的元素畫出B臉時,就可以將A臉逼真地“畫到”B臉上。
圖2 看B畫A(圖片來源:原創(chuàng))
逼真的Deepfake技術(shù)也有小破綻
機器學(xué)習(xí)出的換臉視頻、照片那么逼真,那Deepfake技術(shù)的破綻何在呢?
中國有句古話叫做“若想人不知,除非己莫為”。換臉技術(shù)的破綻,就出在人臉?biāo)夭牡募毠?jié)上。Deepfake技術(shù)使用A臉的元素來畫出B臉,這一過程是對A臉元素的精巧拼接。而這一拼接的過程,勢必不能完美地符合真實情況。
紐約州布法羅-布法羅大學(xué)的計算機科學(xué)家,就從“眼睛”——這一人臉上最精致的元素入手,實現(xiàn)了對Deepfake技術(shù)的甄別。
這一技術(shù)的核心原理基于眼球的反射。當(dāng)外界環(huán)境的光照射到眼睛上時,就會產(chǎn)生反射,在角膜上生成圖像。在真正的照片中,兩只眼睛看同一物體,會具有非常相似的反射模式。但在Deepfake合成的照片中,兩只眼睛的反射內(nèi)容往往并不協(xié)調(diào)。很可能出現(xiàn)左眼“看見”一只小狗,右眼“看見”一輛卡車的情況。檢測機器首先提取兩只眼睛反射的內(nèi)容,然后檢測左右眼的反射內(nèi)容、反射光強度等參數(shù)是否協(xié)調(diào)統(tǒng)一,就可以識別出照片、視頻是否經(jīng)過了合成。這一方法已被證明具有94%的實驗有效性。
除此之外,常見的檢測方法還包括:
(1)根據(jù)視頻的2D圖像估計三維姿勢。使用Deepfake技術(shù)合成的視頻,三維姿勢可能會突然發(fā)生較大的突變。比如視頻中的人,如果在上一幀胸口還是鼓起正在吸氣的狀態(tài),下一幀就迅速變成胸口下沉吐氣的狀態(tài),那就說明這個視頻鐵定是合成出來的。
(2)捕捉Deepfake技術(shù)在處理視頻時對圖像進行扭曲而在環(huán)境中產(chǎn)生的“偽影”。
(3)捕捉左右虹膜異色、光照與陰影不協(xié)調(diào)、幾何建模錯誤等瑕疵。
(4)針對名人的行為習(xí)慣,檢測視頻中是否有對應(yīng)的特有行為特點(例如摸鼻子、歪嘴等)。
圖3 deepfake視頻中的虹膜異色(圖片來源:知乎)
Deepfake檢測中的“貓鼠游戲”
在不斷發(fā)展的過程中,Deepfake的檢測技術(shù)仍然會面對不少挑戰(zhàn)。
第一點是有的技術(shù)本身需要一定的信息量。例如前述的眼球反射檢測技術(shù),如果視頻里沒有同時存在兩只眼睛,就無法應(yīng)用。針對虹膜顏色的檢測,在視頻畫質(zhì)較低時使用起來也較為困難。
第二點是,檢測技術(shù)和換臉技術(shù)是一個“不斷發(fā)展,彼此競爭”的過程。例如前述的捕捉光照與陰影不協(xié)調(diào)的問題,換臉者可以在換臉時使用更多的資源進行光照模擬、渲染,從而保證陰影的生成質(zhì)量。從這個角度講,檢測和換臉技術(shù)就像一場“貓鼠游戲”,二者不斷迭代,你追我趕。今天檢測技術(shù)提出了用眼球的反射光進行檢測,明天換臉技術(shù)就可以把眼球的反射光模擬也放在學(xué)習(xí)內(nèi)容之中。檢測技術(shù)必須不斷更新,才能跟上Deepfake技術(shù)發(fā)展的步伐。
第三點是,檢測技術(shù)距自動化還有一定距離?,F(xiàn)有的檢測技術(shù)耗費的時間都比較長,難以做到在用戶上傳視頻的同時,短時間內(nèi)自動完成檢測和審核。距實用的自動Deepfake檢測軟件,還有一段路要走。
第四點是,目前針對Deepfake技術(shù)還沒有完善的法規(guī)。各個視頻平臺對于什么樣的Deepfake視頻是惡意的、違規(guī)的,有著自己的界定規(guī)則。同時,目前也沒有關(guān)于Deepfake技術(shù)的相關(guān)法律。這就給針對Deepfake視頻的檢測、管控工作帶來了很多困難。
雖然Deepfake檢測技術(shù)仍有諸多挑戰(zhàn),但是我們要相信,隨著AI技術(shù)的不斷發(fā)展,相關(guān)法規(guī)會逐漸完善,針對Deepfake的檢測技術(shù)也會變得越來越準(zhǔn)確、高效。終有一天,虛假的視頻會在檢測技術(shù)的“火眼金睛”下統(tǒng)統(tǒng)現(xiàn)出原形。鉆技術(shù)的漏洞,濫用Deepfake技術(shù),遲早會受到懲罰。
參考文獻
( Hu S , Li Y , Lyu S . Exposing GAN-generated Faces Using Inconsistent Corneal Specular Highlights[J]. 2020.)