跳到主要內容

科技大觀園商標

分類項目
Menu

資訊:動畫狂想曲–人臉電腦繪圖技術解祕

100/05/06 瀏覽次數 28804
看電影時最常出現的疑問應是:「現實的物體或人物是如何置入虛擬場景中的呢?」

傳統 2D 技術是把前景、背景分離,然後融合前景到另一個背景中。但現今有 3D 模型可以直接透過影像生成所需要的場景,只是生成品質的好壞各家不同。

電影特效的介紹

在近代電影中,常常可以看到一些極為壯觀,或不太可能由真實人物現場演出的場景,如劇中人飛翔於空中、在外太空活動,或潛入很深的水中等。直覺上,拍攝時應該無法找到這種景觀,或在那樣的環境下拍攝,因此這類效果應是對影片後製而來,這種電影特效其實就是一種虛擬實境(virtual reality)。

在電影花絮中,有時會看到演員站在藍色或綠色布幕背景前拍攝。它的目的就是使角色和背景之間產生顏色差異,經由後製把綠幕(或藍幕)部分去除,再透過電腦圖形技術整修,就可以讓特效場景與劇中角色合成在一起,得到彷若置身在真實場景中的效果。

隨著電腦技術的進步,製作單位已經可以透過軟體如 3dmax、Maya 等生成 3D 模型,並置入想要的場景中。但根據經驗,這非常耗費人力及時間。因此在近期的電影製作中,是採用多張影像建構 3D 模型。現在經由 3D 模型生成的影像品質已經越來越好,但這些又是透過甚麼技術達到的呢?

如何塑造人臉

在電影〈阿凡達〉中,我們看到納美人臉部有豐富的表情,無論是喜悅、憤怒、悲傷、齜牙裂嘴,甚至是惶恐、無辜等,這些人類才有的細膩表情,都栩栩如生地呈現出來,令人感同身受。其實大家都知道,真實世界中並沒有所謂的納美人,他們都是用電腦製作出來的。

但擬真的表情又是如何從人臉模擬至 3D 模型上呢?其實這樣的技術早在〈貝武夫:北海的詛咒〉中就已大量使用,在貝片中,無論是安潔莉娜裘莉(女妖)或是雷溫斯頓(貝武夫),都是 3D 虛擬出來的角色,我們可以看到片中人物的臉部外形、表情、動作等,都與真實人物相去不遠。

如何才能取得與真實人物相似的結果呢?方法就是讓演員穿上布滿感應球的服裝,並且在臉部依照肌肉及五官的位置標記適量的感應點,再藉由攝影機拍攝的多張圖片,去推估每個感應元件的 3D 座標。把那些 3D 座標對應至 3D 數位演員模型上,便可驅動數位演員的臉部表情跟動作,這樣的技術稱作「3D 動態捕捉技術」。

要做到接近真實臉部表情的模擬,最關鍵的問題在於如何精確地推估出臉上各個感應點的 3D 座標,而這些感應點稱作「特徵點」。推估 3D 座標有很多種做法,常用的方法是借助多張不同角度的圖片,找出不同圖片之間特徵點的對應關係。

臺灣大學的研究團隊在 2000 年已設計了一套可以虛擬人臉演講的系統,並做成網頁瀏覽器的外掛程式。這套系統會針對影片的演講內容做分析,藉由發音特徵來驅動虛擬人臉做出相對應的嘴形跟表情,並且即時呈現出來。

當時臺灣大學的團隊就是利用動態捕捉技術,以 8 台攝影機同步拍攝,進一步建立虛擬角色的表情資料庫。然後配合輸入語音取得適當的資料,來操控虛擬「演講者」。

研究人員對表情模擬的重點,主要是處理臉部肌肉及五官位置的改變。因此,在設置特徵點時,會著重在額頭、眉邊、雙頰、嘴唇附近。當然,若要求更精密的表情變化,則必須在臉上布設更多的特徵點。但特徵點的數量是有限制的,因為太密集的特徵點反而會因為要處理不同角度攝影機特徵點的對應關係,而造成計算或人為處理的困難,導致空間位置推估錯誤或無法計算。

在 2002 年,臺灣大學的團隊提出另一套設計,簡化了拍攝所需要的硬體設備,但依舊可以維持模擬的精準度。它的基本概念是藉由鏡面的反射,來得到物體在不同角度的影像。

表情資料庫

有了物體不同角度的影像及攝影機資訊,便只需針對人臉上的特徵點找到鏡中人臉反射影像相對應的特徵點,就可藉由投影公式計算該特徵點在 3D 空間中的位置。隨著演員做出不同的表情變化,臉上特徵點所對應的 3D 座標也會隨之變化,這些 3D 座標的變化就代表了表情變換和頭部的動作。

若要單純抽取出演員臉部的表情變化,應不太可能在拍攝過程中限制演員完全不能移動頭部。因此必須從圖片中估計出頭部移動量,移除移動量後才會得到真正表情變化的參數。最簡單的方式是在標記人臉部特徵點時,選取部分與表情無關的點,只需與頭部的移動相關即可。

這種點基本上可以選擇靠近耳朵的臉頰部分,或直接在耳朵上標記特徵點,當最後抽取影像表情特徵點位置時,就可把所有 3D 特徵點座標先移回坐標系的基準,再取表情特徵點位置,這時取得的位置便不受頭部移動的影響,而只單純是表情參數。最後再把這些表情特徵點位置的變化套用在數位演員上相對應的點,這些數位演員便可以產生各種近似真人的生動表情。

值得一提的是,這些表情參數不只可以應用在原始的角色臉上,也可以對應到不同數位演員身上,如〈魔戒〉的咕魯、班傑明、納美人等都是很好的例子。

特徵點用於人臉建模

當 3D 模型的長相跟參與拍攝的演員長相不一樣時,可以拿捕捉到的特徵點對該臉部模型直接做變臉。主要是利用臉頰、眉角、耳朵、嘴部周邊等有標記處的座標,使得臉部模型相對於所標記出的臉部特徵頂點,能儘量靠近先前所求出的 3D 特徵點座標。經過變形後的人臉模型會相似於影像中的人物,這時已經具備一個外形相似於拍攝人物的數位演員。

利用捕捉的特徵點可讓既有的 3D 模型變形,生成相似於拍攝人物的數位演員。然而,如此產生的數位演員仍無法完整模擬真實演員皮膚的紋路細節,以及在不同照明條件和場景下所導致的臉部膚色反射效果,使得數位演員在影片中顯得不夠真實或與影片場景格格不入。對於挑剔的電影客群而言,這種瑕疵是不可接受的沉重。

是否還有其他方法可以生成較精細的臉部模型?事實上是有的,但不是花費很多的時間及昂貴的成本,就是結果不夠精確。

在 2000 年,美國柏克萊大學 Paul Debevec 的博士論文提出了一種名為 light stage 的攝影裝置。在拍攝人臉時會加入許多經過設計的光照條件,例如不同光源位置或改變光射出的樣式,如此的光照條件使得人臉的每個細部都能夠有明顯強烈的特徵。不只如此,這些特殊的光照條件也有助於影像間做出精確且大量的對應,使我們在空間中可以計算出成千上萬的三維座標點,這跟動態捕捉技術只能捕捉到少數的感應點是極為不同的。這項技術大大提升了人臉模型重建的精確度。

Paul Debevec 博士後來到南加大任教,繼續改良 light stage 技術。臺灣大學的馬萬鈞博士也參與了這個團隊,合作研究虛擬人臉建模。經過幾年的努力,利用 light stage 做人臉建模的技術漸趨成熟。

2008 年馬萬鈞博士參與的 Emily Project,成功地通過了杜林測試(Turing test),表示人臉建模在視覺上已經達到人眼無法分辨真偽的水準。該團隊曾播放一段女演員說話的影片,播放完後,請觀眾指出哪些片段是真人,哪些是數位演員,幾乎所有的人都無法指出其中的差異。因為電腦重建的 3D 模型,不論在皮膚的毛孔、皺紋,以及透光度的呈現上,都已經有非常真實的效果。

要達到這樣的技術突破,背後的概念又是什麼?其實人臉表面的材質可以設想為兩層,一層是粗糙皮膚,一層是油脂皮膚。前者對入射光的反應是散射反射,這種反射強度與觀測者所在的位置無關;後者則對入射光呈現鏡面反射,並與觀測者的位置有關。

在拍攝人臉時,可以同時對人臉打上不同的光照,並利用硬體設備把反射到攝影機的光來源分成散射反射與似鏡面反射,就可以模擬出粗糙皮膚跟油脂皮膚的材質,以及其幾何性質。最後再把這兩種材質的皮膚合成,所做出來的人臉模型就非常逼真了。

本文介紹了〈阿凡達〉影片中人臉模型製作所用到的技術,並指出其對未來電影製作的貢獻。於今,這些技術已經可以通過杜林測試,代表建構出來的 3D 臉模型已達幾可亂真的程度。這樣的發展是一大突破,也希望這樣的視覺技術未來能夠在虛擬實境的領域開發出更多的應用。
OPEN
回頂部