你看到的,真的是「真的」嗎?
我們為什麼需要分辨圖片是真是假?
大家常說「眼見為憑」,但在人工智慧快速發展的今天,眼睛所見的,真的還能完全相信嗎?
早期的影像竄改大多是透過修圖軟體,把不同的照片拼貼在一起,或是改變畫面中的細節。後來出現了「Deepfake」技術,能把一個人的臉「貼」到另一段影片裡,讓他看起來像在說話或做表情,即使實際上根本不是那麼回事。如今,AI 更進一步,只要輸入一段文字指令,電腦就能自己「想像」並生成一張從沒存在過的人臉、風景,甚至是新聞照片。
過去這些假圖常有破綻,容易被人識破;但現在的 AI 生成圖片越來越真,光靠肉眼其實很難分辨是真是假。這種情況可能會讓人誤信假資訊,甚至造成恐慌。更嚴重的話,有人可能會拿這些假的圖片或影片去冒充他人、造謠,還可能涉及法律問題。
那麼現在 AI 能做到的圖片技術有多厲害?
現在的生成式 AI 圖片技術非常強大,其中最早被廣泛研究的技術之一叫做「生成對抗網路」(Generative Adversarial Networks,簡稱 GAN)。它包含兩個角色:一個是「生成器」(Generator),另一個是「辨別器」(Discriminator)。
生成器的工作是學習大量圖片的特徵,然後自己「畫出」新的圖片。舉例來說,假設我們輸入上萬張人臉照給它學習,生成器就能根據這些學到的樣子,開始創造出從沒出現過的新「人臉」。但一開始生成器的畫技很差,畫出來的臉可能五官歪斜、不自然,容易被人看穿。
這時候就輪到辨別器出場了。辨別器像是一位「品管員」,負責檢查這些生成出來的圖片,看它們像不像真的。如果不像,就退貨給生成器,要它再練功。這樣一來一往,生成器會不斷學習、修正,直到連辨別器都分不出真假,代表這張圖片已經幾可亂真了。這個過程如下圖所示。
圖1:生成對抗流程圖。圖片來源:吳孟倫助理教授提供
可以把這兩個角色想成在比賽:生成器像一位魔術師,努力練習要騙過觀眾 (辨別器);而辨別器就像觀眾,一開始什麼都看得出來,但當魔術師越來越厲害時,觀眾終究會被騙過。等魔術師練到連專家都看不出破綻,就可以出道了。下圖是一個由StyleGAN2隨機生成的人臉,這個人臉並不存在於世界上,雖然這張影像隱約有些不合理之處,但若非事前告知,人們看到這張影像也很難一口斷定它是由電腦生成的。
圖2:由StyleGAN2隨機生成的人臉影像。圖片來源:吳孟倫助理教授提供
除了GAN,目前還有更新一代的生成技術,例如「擴散式模型」(Diffusion Model),它的原理雖然不同,但一樣是從大量資料中學習,利用機率統計的方式一步步生成圖像。這種方法甚至可以讓使用者輸入一段文字,電腦就能畫出對應的畫面,像是不存在的人、城市、甚至奇幻場景。
AI 圖像真的有「破綻」嗎?
如果肉眼看不出破綻,那怎麼辦?
雖然這位 AI 魔術師能畫出讓人真假難辨的圖片,但它終究是電腦生成的,還是會留下「數位痕跡」。這些痕跡不像畫面中的明顯錯誤,而是藏在圖片的「頻譜」裡。
所謂頻譜,可以透過一種數學工具叫做「傅立葉轉換」來觀察。傅立葉轉換就像一種魔法眼鏡,能把圖片從我們平常看到的樣子,轉換成顯示「變化頻率」的樣子。用這副眼鏡看圖片,真實的照片通常比較自然、不規則,就像畫布上分散的顆粒;但 AI 生成的圖片,在頻譜中常常會出現像「棋盤格」一樣整齊的圖案。以下為真實影像和電腦生成影像的頻譜圖比較。
圖3頻譜圖比較:(a) 真實影像的頻譜;(b) 電腦生成影像的頻譜。
圖片來源:吳孟倫助理教授提供
為什麼會這樣?這和電腦的學習方式有關。為了讓訓練更快,也讓生成的圖片比較穩定,AI 常常不會「記住」整張照片,而是先把圖片縮小、模糊,只抓出最重要的精華部分來學。這有點像我們看漫畫只記住角色大概長相,細節就模糊帶過。等到真的要畫出完整圖片時,電腦會用這些「壓縮」過的記憶來重建畫面,但這個解壓縮的過程,往往會在頻率域留下痕跡,也就是我們說的「破綻」。
什麼是頻率?圖片裡怎麼會有這種東西?
我們平常在聽音樂時,會聽到高頻 (像尖銳的哨聲) 和低頻 (像重低音)的聲音。其實,影像裡也有「頻率」的概念。
在圖片中,低頻代表畫面變化比較少的地方,像是一整面純色的牆壁或光滑的桌面;高頻則出現在變化很大的區域,例如物體的邊緣、細節豐富的紋路,這些地方顏色改變得又快又明顯。
前述所提到的「頻譜圖」又是什麼?我們可以用「傅立葉轉換」這個工具,把圖片轉換到一個叫做「頻率域」的世界。在這個世界裡,如前所示,圖片變成一張看起來像黑白煙火圖的影像。頻譜圖中,畫面中央通常是低頻,越往外圈則是高頻。可以想像成一個同心圓:中心是平滑區域的訊息,外圍則是細節變化的訊息。
如果我們把頻譜圖的外圈 (高頻) 刪掉,再轉回原來的圖片,結果會變得模糊,因為細節不見了;反過來,如果把內圈 (低頻) 刪掉,留下的圖片只剩下物體的輪廓,會看起來像素描圖一樣。
這就是為什麼我們可以透過頻率分析來發現電腦生成影像的異常:這些影像在頻率域中,常會出現不自然的規律分布,像是棋盤格一樣,透露出它們「不是自然生成」的痕跡。
我們可以怎麼「破解魔術」?
這項研究結果對我們有什麼幫助?
透過分析頻率域,我們發現電腦生成的影像並不是完美無缺。雖然用肉眼直接看可能看不出問題,但只要用合適的數學轉換,就能讓那些「隱藏的痕跡」現形。
過去在偵測假圖片時,有些拼接或修圖的手法,只要把圖片的對比拉高,就能看出被「移花接木」的邊緣。現在的電腦生成圖片雖然更逼真,但它們的製作方式依然是基於統計和機器學習,這讓它們的紋理細節和真實影像在本質上還是不同。只要我們換個角度看待影像,比如用頻率分析,往往就能發現這些不一樣的地方。
此外,AI 在生成圖片時,並不一定會考慮到常識。例如早期生成的人臉圖片,可能會出現左右眼瞳孔顏色不同、耳環一邊有一邊沒有,甚至牙齒長得擠在一起等不合理的狀況。這是因為訓練 AI 的「辨別器」並不具備人類的生活經驗或常識,它只會根據數學規則來判斷圖片是否「看起來像真的」。
因此,我們可以把判斷圖片真偽分成兩步:第一步,電腦透過像頻率域這樣的技術找出人眼看不到的可疑特徵;第二步,再由人類用自己的知識和常識進一步審查。這樣人機合作的方式,就能更有效分辨哪些影像是AI生成的,哪些是真實世界的照片。
AI 會不會學會「藏破綻」?我們還能破解多久?
俗話說「道高一尺,魔高一丈」,當我們公開如何抓出電腦生成圖片的破綻後,很快就會有工程師或研究者設法改進演算法,把這些破綻隱藏起來。
以頻率域的分析方法為例,現在就有研究指出,可以透過特別設計的技術,把頻譜圖中那些明顯的「棋盤雜點」去除。這就像在犯罪現場抹去指紋一樣,是一種刻意掩蓋痕跡的行為。以下圖片為一個在頻率域中抹除棋盤痕跡的範例。
圖4 抹除電腦生成影像於頻率域的棋盤特徵:(a) 抹除前;(b) 抹除後。
圖片來源:吳孟倫助理教授提供
但問題來了:如果雜點去得太多,會讓圖片變模糊、失真,反而更容易被人眼看出來。所以這個「去除破綻」的過程必須非常小心。一邊去除雜點,一邊讓 AI 辨別器檢查,確保這張圖片還是看起來夠真、不會被識破。這個過程會持續進行,直到圖片的破綻被清除得差不多,而且依然能騙過辨別器為止。我們透過以下流程圖說明這個過程。
圖5:抹除頻率域痕跡流程圖。圖片來源:吳孟倫助理教授提供
這種「你抓我藏」的遊戲,其實就像貓捉老鼠一樣,是一場不斷演進的對抗。今天我們能找到破綻,明天它可能就被修補掉了。所以,想要持續破解生成影像,就需要不斷開發新的偵測方法與觀察角度。
未來偵測電腦生成影像的方式,將朝向更全面的方向發展。不僅會加強對影像內容邏輯性與合理性的分析,也會從單張圖片擴展到整段影片,藉由判斷影格之間是否存在不連續、突兀的變化,提升偵測準確度。同時,偵測技術也將結合聲音等多模態資訊,透過影像與音訊的一致性檢查,使原本難以辨識的生成內容更容易被發現。這些進展將有助於在未來更加有效辨識真假影像。
雖然每一種公開的電腦生成影像偵測方法都有可能被對抗技術破解,但具備資訊素養的人,仍能透過簡單的影像處理方式對可疑影像進行批判性思考。像是轉換至其他觀察域 (如頻率域)、放大細節檢視、調整對比等,都可能揭露影像中不合理、疑似遭竄改的線索。再結合邏輯與常識判斷,即使在深度學習與統計建模所生成的影像面前,我們仍有機會察覺其細微的不自然之處。畢竟,這些影像是由演算法產製,缺乏人類創作的意圖與直覺,而正是這份「靈性差距」,讓我們仍有辨識真假的可能。
未來,誰來當魔術師,誰來當觀眾?
此時相信許多的朋友會開始關心:那麼這樣的研究未來還會延伸到哪些領域?
在 AI 盛行的時代,真假難辨的影像與資訊充斥於網路,我們所見所聞已不再如過往單純。社群媒體上的圖片與影片,可能是為了娛樂而生成,也可能是刻意誤導、操弄輿論的工具。若創作者明確標示其為 AI 產物,內容單純有趣,或許無傷大雅;但若用於偽造證據、散播恐慌、製造假訊息,則可能對社會造成實質傷害。
因此,識別電腦生成影像的工具,如同資訊時代的「驗鈔機」,是保障真實、維護公共秩序的重要防線,避免虛假內容對社會造成不可逆的影響。
此外,相關研究不僅限於資訊科技領域,也已延伸至社會科學與法律領域。例如:電腦生成影像是否具備著作權?是否侵害原畫風格作者的創作權益?這些影像若被商業化使用,其法律定位為何?目前都尚未有一致的定論,也正是學術界持續探索的重要方向。
怎麼鼓勵學生認識這類問題?
電腦生成影像是統計運算的產物,缺乏真正的人類意圖與創作靈魂。即使不是工程師或科學家,一般人仍有機會透過放大影像、調整對比、應用簡單的影像處理工具,發現其中不自然的細節,進而懷疑它是否為生成內容。有時候,正因為少了專業人士的「慣性思考」,反而讓業餘愛好者能從不同角度發現電腦生成影像尚未被揭露的破綻。
重要的是要知道,影像生成技術本身是中立的,它不帶善惡。問題在於它被用來做什麼。如果用來散播假訊息或冒充他人,就可能涉及法律責任。因此,在享受科技樂趣、體驗生成影像創作時,也要培養資訊倫理的意識。用技術做出有創意、有趣的作品很棒,但更重要的是不被假資訊誤導,成為能分辨真假的智慧公民。