首頁 > 通訊科技:使音響品質更好的聲音壓縮編碼技術
:::

通訊科技:使音響品質更好的聲音壓縮編碼技術

數位時代不再是狂野的想像,身歷其境的家庭劇院、跨越時空限制的行動電話與答錄機等,因數位聲音壓縮編碼技術的不斷推陳出新而美夢成真。
 
 
 
高傳真音效的追求

自從一八七七年愛迪生發明留聲機之後,單聲道電唱機開始了人類對高音質聽覺享受的追求。然而單聲道系統如同一個點音源,只能重新播放原音內容,不能呈現出聲音的方向性與空間感。到了一九五八年左右,雙聲道立體聲系統才開始推出,利用左右兩聲道構成的線音源,展現橫向聲音的方向性與空間感,大幅提升了聽覺上的感受,使立體聲電視及影音光碟迅速地普及於家庭中。

近年來,雙聲道立體音響的發展出現了瓶頸。因為聆聽者的位置和音場有著密切的關係,即使聆聽者只偏離平衡點一小段距離,所感受到的音源定位就會有劇烈的改變。有鑑於此,電影娛樂相關業者使用5.1聲道的環繞音效系統,除了原有的左右聲道之外,更增加了中央聲道、左右環繞聲道及一個超重低音聲道。以此種方式配置的揚聲器,可構成寬廣的面音源,稱為3前/2環繞立體聲系統,前方的三個聲道可使聲音的空間感及方向性更明確,而後方的左右環繞聲道則提升了聆聽環境的真實感。

聲音的數位化

廣義來說,聲音是「振動體」與「介質」的接觸所造成的波動現象,包括人講話的語音以及彈奏各種樂器所產生的音訊。以語音為例,人類的發聲機制就是一個複雜的振動體,介質就是圍繞在每個人四周的空氣。當我們想要說話時,氣流由胸腔擠向喉部形成激發源,振動聲帶產生音波,音波再經口腔與鼻腔所構成的聲道產生共振而發出聲音。語音壓縮的夢想所以成真,正是因為聲帶周期性振動造成的長程相關性與音波在聲道共振造成的短程相關性,可充分運用於消除語音中所含的多餘訊息。

聲音可以透過空氣組成分子間的彈性碰撞而傳送,每個空氣分子碰撞後可左右橫向移動,造成空氣壓力的變化而以波的方式傳遞出去。如果要將聲音作數位錄音,可以使用麥克風將空氣壓力變化轉換成電子信號,再經類比/數位轉換成0與1位元形態的資料來儲存。轉換過程有取樣、量化、及脈衝編碼調變三個步驟。取樣是讀取聲音訊號在相等時間間隔的瞬間值;量化是將各個取樣瞬間值的振幅以有限的數值表示;而脈衝編碼調變則是將量化後的數值用二進位數的符碼表示。

影響數位錄音品質的兩個主要因素為取樣率與量化解析度,量化所用的位元數目決定其解析度,而取樣率的下限則為此聲音所包含最高頻率的兩倍。例如,電話語音頻寬為200~3,200赫茲,交響樂的頻寬則為40~20,000赫茲,因此電話語音與音樂光碟的取樣率分別為8,000赫茲與44,100赫茲。傳統的有線電話與音樂光碟都是利用這種脈衝編碼調變技術來數位化,但需要極大的儲存空間及傳輸頻寬。舉例而言,目前音樂光碟所採用的量化解析度為十六個位元,則其立體雙聲道的位元率為每秒一百四十一萬位元,因此十二分鐘的音樂大約需要十億位元的儲存空間。為了配合高傳真電視與多媒體通訊發展的需求,各式各樣的數位語音與音訊編碼技術也不斷地研發進步中。

聲音編碼的實現

聲音編碼的目的,是為了進行資料壓縮,以節省傳輸時所需的頻寬與在記憶體中所占的儲存空間,同時需保證解碼端在還原後還能聽到和原來一樣的聲音。這就好像我們掌握了製造隨身包即溶咖啡的訣竅,在任何時空只需要加熱水沖泡,就可以享受到和現煮咖啡同樣香醇的味道。

理想的聲音編碼器,除了利用信號取樣點間的相關性,來移除其中多餘的訊息外,更應考慮聲響心理學上有關人耳對頻率分辨與響度察覺的非線性聽覺感受,這是因為人耳是音質好壞的最後仲裁者。人耳的聽覺功能存在若干盲點,因此,聲音信號中含有與聽覺感知無關的資訊就可以刪除而不影響其再生音質。

人耳為何可以聽到聲音?這是音波先由外耳收集,經由聽道傳到鼓膜,再傳到連接著的中耳三小骨,此時音波會被振動放大,最後傳到內耳的耳蝸,耳蝸內基底膜上的聽覺受器會隨著波動的頻率與強度不同而產生神經衝動,經聽神經傳至大腦聽覺區,使我們聽到聲音。基底膜的功能如同一台精密的頻譜分析儀,能將輸入的音波由低頻到高頻依不同頻寬的臨界頻帶作濾波處理,再根據各個臨界頻帶內聲音信號的能量,計算出人耳所能容忍噪音能量分布的下限,即所謂的「遮蔽臨界曲線」。

遮蔽效應常常出現在日常生活中,例如,在安靜的街道中講話,音量適中即可充分溝通,若此時有一輛卡車從旁邊經過,而講話音量仍保持不變,就會聽不見對方在講什麼,也就是講話的聲音被卡車的噪音遮蔽了。這個例子中的遮蔽作用約可以分成三個部分:卡車經過前、卡車經過時及卡車經過後。卡車經過前與經過後對講話者的影響都很短暫,分別稱之為前遮蔽與後遮蔽,前遮蔽約持續0.02秒;而後遮蔽約持續0.2秒。當卡車正經過時會全程影響說話者,稱為同時遮蔽。數位音樂壓縮的夢想成真,就是能針對這三種不同的遮蔽效應在聽覺上感受的不同,而彈性調整各個臨界頻帶內編碼所需的位元數,使編碼誤差所衍生的噪音低於人耳遮蔽臨界曲線而無法察覺。

至於多聲道環繞音效系統,則進一步配合雙耳遮蔽效應與聲道耦合效應,達到更高比例的壓縮效果。多聲道系統在提供高傳真享受的同時,如果位元率以聲道數目的倍數成長,資料負載量將十分可觀。其實不同聲道所記錄的內容可能非常相似,這是因為音樂節目相同而錄音的位置不同,只有聽到時間、相位、或信號大小有所差別。基於這種聲道耦合效應,可以將若干聲道的高頻訊息合併為單一聲道再傳遞,以提高多聲道音訊信號的壓縮比率。

語音編碼技術的發展

語音壓縮有兩項主要的應用,一是用於空間領域的通訊,由於廣播及電話服務的傳輸頻寬有限,將語音訊號壓縮可同時傳送更多筆的語料;二是用於時間領域的保存,在既有的記憶體中增長語料的儲存時間,由此衍生的產品有數位答錄機及語音信箱。

語音壓縮編碼技術大致可以歸納為波形編碼、聲源編碼與混合編碼三類。波形編碼是直接對個別的語音取樣值加以處理,使其再生語音的波形能保持原始信號的波形,如廣泛用於電話網路的脈衝編碼調變及差值脈衝編碼調變。後者為前者的延伸,利用先前數個取樣值進行線性預估,再將原訊號與預估值之誤差量化,因差值遠比語音取樣值小,若傳送差值則可降低量化位元數目而達到相同的精準度,如此便可實現語音壓縮的目的。波形編碼的優點為系統架構簡單,解碼後的合成音質佳,但所需的位元率偏高,介於每秒16,000~64,000位元之間。

聲源編碼則利用簡化數學模型來描述人類語音的發聲結構,並將語音訊號以音框為單位擷取少量的特徵參數再編碼。在求取特徵參數時,假設目前取樣點的語音資料,可由先前數個取樣值以線性組合的方式預測而得,藉著使預測值和實際值之誤差最小,所估算出的線性組合係數便作為特徵參數。具體而言,聲源編碼透過特徵參數的擷取與編碼,位元率可以大幅降低為每秒2,400~4,800位元,但系統結構變得較複雜且合成音質差,應用範圍僅限於軍方的安全保密通訊。

較先進的語音壓縮則進一步採用分析後合成編碼架構,綜合了波形編碼的高音質與聲源編碼的高壓縮率特色。這種混合編碼架構是使用特定的激發源,透過兩個合成濾波器引進語音的長程與短程相關性,再利用最小聽覺失真的準則選擇與原音最接近的合成語音,並以此合成語音所對應的特徵參數作為編碼結果輸出。

由於激發源組成內容的差異,存在諸多不同的分析後合成編碼演算法,其壓縮比例與計算複雜度有很大差距。一種是碼書激發線性預估模式,其激發源是由隨機亂數所組成的碼書結構,利用每個碼字個別合成一段語音,然後在所有合成音中找尋與原音最相似的合成音,並將其相對應的碼字索引記錄下來作為特徵參數。另一種是規律脈衝激發附加長期預估模式,此即為台灣使用之泛歐式數位行動電話的語音編碼標準。規律脈衝激發附加長期預估模式是找出具有代表性的數個脈衝來替代一小段語音的激發源,並規定兩相鄰脈衝具有固定的間隔,再以少量的資料記錄第一個脈衝發生的位置及每個脈衝的大小,達到資料壓縮的目的。

音訊編碼技術的發展

目前流行的音樂光碟是採用脈衝調變編碼的錄音格式,但未壓縮音樂的大量資料,限制了多媒體整合與網路傳輸的應用。有別於語音編碼是利用線性預估模式來刪除其多餘訊息,音訊編碼的實現主要是引進聲響心理學內有關人耳對頻率分辨與響度察覺的非線性感應,即所謂的感知型編碼。其編碼流程如下:首先將音訊信號透過時頻轉換成頻域係數,同時求出人耳所能容忍失真的遮蔽臨界曲線,再據以彈性調整各個頻域係數所需要的位元數。常見的時頻轉換技術包括次頻帶編碼器採用的多相濾波器組,以及轉換編碼器所採用的修正餘弦轉換。而結合兩者優點的混合轉換機制,可以進一步在各個次頻帶提供不同的頻率解析度,已經廣泛地使用於較先進的音訊編碼技術上。

自一九九二年起,國際標準組織(ISO)的動畫專家群組(Moving Pictures Experts Group, MPEG)制定了一系列的影音編碼標準,目前已成為消費性電子、通訊與廣播等領域的通用規約標準,因此,希望藉由介紹MPEG標準,使大家對音訊編碼技術的演進發展更加了解。

MPEG-1是第一個國際性寬頻音訊壓縮標準,可以支援三種取樣率,適用於單聲道或雙聲道的音響設備。MPEG-1依照複雜度由低而高又可分為第一層、第二層及第三層,而壓縮比例分別為1/4、1/8與1/12。MPEG-1三個層次的時頻轉換技術均以32個次頻帶的多相濾波器組為基礎。相較於第一層的高位元率,第二層採用快速傅立葉轉換以提供較高解析度的遮蔽臨界曲線計算,同時降低相鄰資料區段的多餘訊息,進而達到中低位元率應用的需求。而第三層則將每個次頻帶信號再做修正餘弦轉換,可以有效刪除頻域係數之間的相關性。至於轉換區塊長度,則根據由音訊所測得的暫態結果作適度調整。若信號出現劇烈的能量變化時,將用較短的區塊作轉換,以借助前遮蔽效應改善音質。日前因智慧財產權問題引起軒然大波的MP3數位音樂壓縮格式,即是採用MPEG-1第三層的技術。

近年來,大眾對於聽覺享受的要求不斷提高,適用於5.1聲道環繞音效系統的MPEG-2也隨之出現。制定之初的目的在與MPEG-1相容的基礎上,實現低取樣率與多聲道擴展,但音質與壓縮效率並不如預期理想。後來為了需要而制定一個可獲得更高品質的多聲道音訊編碼標準,該標準與MPEG-1並不相容,稱為進階音訊編碼標準(MPEG-2 AAC),已經應用於數位影音光碟及歐洲的數位電視廣播。MPEG-2 AAC的核心技術,是利用人耳對於高頻信號較不敏感的特性,而且高頻信號本身強度的影響甚於其內容細節,許多內容細節可讓多個聲道共用,因此可以將若干聲道的高頻訊息合併為單一耦合聲道再傳遞。MPEG-2 AAC因採用動態位元配置且編碼輸出位元長度並不固定,所以較不具有對抗雜訊的能力。

MPEG-4與之前制定的標準並不同,不僅是壓縮資料以提升通訊網路的使用效益,更引進以內容為導向的資料處理技術,目的在實現對未來具有高度互動性的多媒體應用的廣泛支援,因此,必須符合傳輸頻寬的限制並減少通道雜訊所造成的影響。MPEG-4的解決方案是,採用轉換權重交錯向量量化來實現音訊編碼。所謂的向量量化,是先訓練一組能涵蓋其信號特徵變化的範本碼書,與輸入信號依序比對,選擇其中最近似的碼字,再傳送其索引值作為編碼輸出。向量量化有效利用信號間的相關性達到壓縮,但傳輸雜訊會改變碼字索引的接收值,進而解碼錯誤造成信號品質的嚴重惡化。MPEG-4根據通道特性將碼字索引排列作合理規劃,進而加強其對抗通道雜訊的能力,可以直接應用於視頻電話與電子新聞等多媒體網路通訊上。  
推薦文章