IT-Standup: 由MP3隨身聽淺談數位錄音原理

胡老師

常常看到同學們上課時用錄音筆錄下上課的情形，下課後錄音筆搖身一變成為MP3隨身聽，讚嘆之外也有好奇，現在的MP3隨身聽較十幾年前的錄音帶隨身聽音質可有進境，遂借來試聽，數位的MP3，類比的錄音帶，大小各異，互有長短，惟音質不夠細膩，一問之下，原來同學為了多存幾首歌，犧牲了頻率響應，到底，要怎麼轉檔，轉成什麼檔比較好，這其中的原理為何，請看以下介紹。

以數位訊號紀錄類比聲音的方法

為了令人更容易瞭解其中的意義，筆者使用樂譜替代一般物理課本常用的正弦波，首先，我們應該很容易瞭解，我們所聽到的聲音或是音樂在物理上的具體表現即是聲波，簡單的說，用數位訊號記載類比聲音訊號的方法就是用數位訊號的方式表示類比聲波的過程。這個過程，就叫做數位取樣。

為了解釋數位取樣，就要使用以下幾個觀念分別說明，就能了解數位取樣的是怎麼達成的。
觀點一：取樣頻率(sample rate)---

所謂取樣頻率，就是指要將一秒鐘的聲波分割成幾個點來加以數位化，也就是一秒鐘要取樣幾次：如CD音質的取樣頻率是44.1kHz，而現今錄音工業，甚至DVD的標準則是96 kHz。換句話說，取樣頻率指音效卡在一秒之中對聲音(波形)做記錄的次數。
聲音播出時的品質常常只能達到取樣頻率的一半,因此須採取雙倍樣率才能將原音準確重現.也就是只要取樣頻率大於原始訊號頻率的兩倍以上，即可減低錯誤，達到和原始聲音極真實的音訊。
而人類的聽力的極限約為20KHz,也就是說，將一秒鐘的音樂分割為20000等分以上時，人類就聽不出其品質上的差異，所以高品質的取樣應為其兩倍以上,當聲音來源為音樂時,因其所橫跨的頻率變化極為寬廣,所以用44.1KHz的頻率作為CD音樂取樣率的標準，也就是每秒鐘紀錄441000次;若以語音的記錄為主,譬如演講，人說話的語音大約為10KHz,因此加倍採樣,只取22KHz，也就是每秒鐘紀錄22000次就已具備足夠的音質。
取樣率越高, 所記錄下來的音質就越清晰;當然,越高的取樣所記錄下來的檔案就會越大。

觀點二：取樣解析度(sample resolution)

而音質分辨率則是對於聲波的「振幅」進行切割，形成類似階梯的度量單位，如果說取樣頻率是對聲波水平進行的X軸切割，那麼音質分辨率則是對Y軸的切割，切割的數量是以最大振幅切成2的n次方計算，n就是bit數， 8位元代表我們對音波的振幅做2的八次方256種強度的區別。CD音質是16位元就是2的8次方為65536種強度區別，而DVD的標準則是24位元。取樣頻率與解析度越大，則數位聲訊的品質就越細膩。位元數越高越能區分細緻的強弱音變化。常用區分音頻如下表。
　

	取樣頻率	位元數	單音/立體聲	傳送位元率
DVD	96000 Hz	24bit	立體聲	562.5KB/sec
CD品質	44100 Hz	16 bits	立體聲	172KB/sec
收音機品質	22050 Hz	8 bits	單音	22KB/sec
電話品質	11025 Hz	8 bits	單音	11KB/sec

那麼，為了記載CD品質的音樂，或是DVD品質的聲音，需要多少資料量呢？我們來算一下：
計算過程為
CD品質一秒鐘
44100________________ (每秒取樣次數)
*16__________________(乘以每次取樣的資料量16bit)
/8____________________(1Byte=8bit將位元資料單位轉換為位元組所以除以八)
/1024_________________(1KB=1024Byte---1K等於1024個BYTE)
*2___________________(雙聲立體也就是兩個聲道所以乘以二)
=172.26KB/sec_________(每一秒鐘需要使用172.26KB的資料)
我們也可以順便算一下DVD品質一秒鐘資料量
96000(次)x24(bit)/8(1Byte=8bit)/1024(1KB=1024Byte)x2(雙聲立體)=562.5KB/sec

換句話說，紀錄一分鐘的CD音質的聲音就要用到172.26(KB)X60(秒)=10335.6(KB)的資料量，也就是10.09MB的檔案，紀錄一首三分鐘的歌，就需要30.28MB的檔案，天哪，這麼大的檔案，不光是存在硬碟裡，還是要在網路上傳遞，或者用我們的隨身碟帶身上，都非常不方便呀！假如256MB的隨身碟只能記載八、九首歌，那不是太不方便了呢，所以，像這樣大的檔案，不想辦法將它變小一點，是不行的。

在介紹壓縮聲音檔的方式之前，我們先來看看各種儲存聲音的檔案格式：

在個人電腦上最常用的數位音效(digital audio file)格式 .WAV檔，就是記錄聲波依照時間演變時振幅的大小。在錄製的時候可以選擇不同的取樣頻率(44kHz, 22kHz, 11kHz)與位元數(8bits,16bits)及單音/立體聲。在個人電腦上最常用.WAV檔，可以當成物件使用在各種文件中，Word, Excel, Power Point中都可以插入聲音檔物件。

雖然處理聲音的原理相同，由不同公司研發出的檔案格式不同，因此從各處取得的聲音檔有時需要加以轉換，列舉幾種常見的聲波檔格式：

聲音檔格式	代表廠商
.WAV	Microsoft
.au或 .snd	Sun與NeXT
.voc	Ad Lib/Creative Labs聲霸卡
.aiff	Apple/Silicon Graphics(SGI)
.afc	Apple
.iff	Amiga
.mat	Matlab

聲音檔壓縮格式

聲音壓縮之後，聲音的品質，除了由壓縮的方式決定之外，往往以位元傳輸率來表達其所展現出的品質，位元傳輸率是指資料流中每秒的資訊量。您可能曾經看過將音效檔描述為「128 Kbps MP3」或「64 Kbps WMA」。Kbps 是「kilobytes per second」(每秒千位元組) 的縮寫，所以數字愈大表示資料愈多。128 Kbps MP3 音效檔所包含的資料量是 64 Kbps WMA 檔案的兩倍，因此會佔用兩倍的空間。

雖然這兩個檔案的資料量不同，但是聽起來卻大致相同。為什麼？這是因為有些檔案格式使用資料的壓縮效率高於其他檔案格式，因此 64 Kbps WMA 音效檔的音效品質和 128 Kbps MP3 音效檔的音效品質是差不多的。一般來說，位元傳輸率愈高，資訊量就愈多，因此資訊解碼也愈費力，檔案需要的空間也愈多。

以下介紹的是常見的音樂壓縮格式，有些高效率的壓縮方式在國外已經很普遍，如ogg、MUSEPACK，APE等，相信在台灣也會慢慢普及開來的。

MPEG Layer 3
一般的聲音、歌曲所包含的頻率除了人類聽得見的，其實還有人類聽不見的。而Mpeg壓縮技術就是認為既然這些頻率人類聽不到，留著它幹嘛，於是便將人類耳朵聽不見的聲音頻率給消滅掉以達到壓縮的目的。因此原始聲音的某些部份被丟掉了，聲音檔案大小也因此被縮減，這就是Mpeg壓縮技術的原理。以下兩種就是從Mpeg壓縮技術所發展出來，依照不同的需求，有不同的格式選擇。MPEG所使用的演算法乃1987年由德國的一家整合研究發展機構 Fraunhofer IIS與埃欄肯大學(University of Erlangen)合作計劃下的產品。

　　MPEG聲音壓縮標準可分3階層，每一層的壓縮法不同。層階數越高，壓縮複雜度就越高。MPEG第一階層(Mpeg1 audio layer1)標準壓縮效率為1：4，第二階段(Mpeg1 audio layer2)為1：6~1：8，第三階層(Mpeg1 audio layer3)的壓縮效率則高達1：10~1：12，MP3就是屬於第三階層。

MP3使用了強大的失真性壓縮，此演算法簡單的來說，就是過濾掉超高音波
等，我們還是不容易察覺出來的！因為它的壓縮之後讓人聽起來像是沒有經過壓縮一樣(其實還是有點失真)不過那種失真度是人耳所分辨不來的。

　　MP3是現今最普遍的壓縮格式，他可以將CD音樂壓縮成原來容量的1/10大小，並且音質上與原來的CD相差沒有多少。如果將MP3燒錄成光碟，則一片光碟可以放入100多首的MP3歌曲。
MPEG-2 進階音訊解碼 (MPEG-2 Advanced Audio Coding，AAC)
MPEG音訊壓縮規格在數位音訊的發展上佔有很重要的地位，而MP3正是應用此規格所發展出來的一種技術。MPEG最早之標準稱為MPEG-1，由國際標準化組織 (ISO) 在1992年完成，並制定成ISO/IEC 11172標準。從MPEG-1 的規格上來看，設計的最大位元率 (bit rate) 達到1.5Mbps，規格中分別規範了影像壓縮與聲音壓縮，由此我們不難看出，MPEG-1其實就是VCD使用的規格。MPEG-1本身分成三個部份，包括了系統、影像與聲音資料。

繼MPEG-1之後，ISO又推出了MPEG-2，同樣制定了一套影音壓縮的標準，不同的是MPEG-2影像資料的解析度要比MPEG-1高很多，同時聲音資料也由MPEG-1的兩聲道立體聲，提升到5.1聲道以上。目前DVD及美國數位電視標準 (ATSC) 都採用MPEG-2的影像壓縮標準。有了MPEG-1、MPEG-2之後，還制定出MPEG-4及MPEG-7，但這兩者目前尚未被廣泛應用。

MPEG Audio的發展目前已向前推進到MPEG-4，不過在這個新規格上，Audio並沒有更大的進展，反倒是MPEG-2又制訂了PART 7為新的Audio規格，稱為AAC。AAC不相容於MPEG-1，是一個獨立的編碼格式，提供了48個聲道及16個低頻輔助聲道，有16個資料串，壓縮效率要比MPEG-1 Layer-3高30%。另外，AAC使用了分辨率更高的濾波器組〈filter bank〉，時域噪音重整〈TNS，temporal noise shaping〉、後向調適線性預測〈backward adaptive predictor〉、聯合立體聲技術和量化哈夫曼編碼〈Huffman coding〉等最新技術，使音質更上一層樓；它還支持多種採樣頻率和位元率〈bit rate〉。

AAC壓縮率比MP3高；在32MB記憶容量中，最長可放下約一小時的音樂，將近十五首歌曲，若同樣的資料以MP3格式壓縮，32MB可存放半小時的音樂，約十首歌曲[AAC的發展已日漸成熟，眼明手快的多媒體業者早已注意到它蘊藏的潛力，並積極籌劃新產品中，新一代的MP3 Player都標榜著支援AAC格式的音樂，並隨機提供CD轉AAC或是MP3轉AAC的軟體，而個人電腦所使用的音樂播放程式也陸續推出支援AAC格式的新版本。由此可見，AAC躍升為音樂界新寵之時，已指日可待。
MPEG-2 AAC參考網址：http://roger.ee.ncu.edu.tw/chinese/pcchang/course2000b/comsp/aac/summary.htm

WMA Windows Media Audio

由Microsoft 研發，Windows Media Audio (WMA)是一種比MP3更小的音樂檔。WMA 在編碼率只有64kbps下的音質可近CD的質素，而MP3檔則需128kbps，也就是說，使用WMA可省下一半的檔案空間。WMA碼中可加入版權保護，讓持有人可保護自己的心血。
WMA壓縮格式可以在僅僅 20Kbps的位元傳輸率提供可聽的音質，因此WMA常常當作用於線上收聽和廣播的首選，微軟早就在Windows Media Player中支援這種格式。當WMA的位元傳輸率上升到128Kbps時，幾乎在同級別的所有的失真編碼格式中笑傲江湖了，MP3在 128Kbitrate時，會出現明顯的高頻失真，而WMA不會。

微軟推出WMA編碼時主要有2個主要目標，一個是瞄準了網路上的RM和RAM格式，另一個是使用者硬碟裡的MP3。但在高音質要求下，WMA仍無法構成對MP3的威脅，如果你想要獲得12：1左右或更高的壓縮比，就不妨選擇WMA格式，在這個流量下， WMA優秀太多了。

　　然而，似乎128Kbps是WMA的一個門檻，當位元傳輸率再往上提升時，就不會有太多的音質上的變化；MP3卻不一樣，在192Kbps時，音質就可以比WMA好了。WMA和MP3的優劣一直是大家爭論的焦點,其實這是一個無法回答的問題。這要看你的實際需要，是追求高音質(mp3)還是高壓縮率(wma)。

The Ogg Vorbis CODEC project

談到數位音樂，一般人腦海第一個浮現的字眼或許是 MP3。MP3 在消費者眼中已成為數位音樂的代名詞。開放源碼社群正試圖改變數位音樂領域的當前生態。一個名為 Xiph.Org 的非營利基金會，已經發展一套開放源碼的音訊編碼、解碼器，Ogg Vorbis。盡管要使市場主流接納 Ogg Vorbis 仍有一段不小的距離，為了和 MP3、WMA 等數位音樂格式競爭，Ogg Vorbis 仍須跨越許多障礙，但 Vorbis 目前已經一步步攻城掠地，試圖成為 MP3 之外的選擇。
Ogg Vorbis 是一個完全開放、免權利金，多用途的音訊壓縮格式，可處理中至高品質的音樂（8kHz-48.0 kHz、16 位元、多聲道），其 bitrates 範圍每頻道可自 16 到 128 kbps。因此 Vorbis 是屬於 MPEG-4（AAC）的同級競爭音樂格式，擁有高於 MPEG-1/2 audio layer 3、MPEG-4 audio（TwinVQ）、WMA 和 PAC 的效能表現。
Vorbis 是非營利組織 Xiph.Org 旗下 Ogg 多媒體編碼格式家族中的首項技術。Xiph.Org 以 BSD 授權釋出 Vorbis，已經吸引不少開發人員以及不願支付 MP3 授權金的製造廠商。
Xiph.Org 是一個確保網路多媒體基礎免受私人利益危害的非營利組織，其目標為支援並發展自由、開放的協定與軟體，提供公眾、開發人員與商業市場所需。 Xiph.Org 旗下囊括一系列的開放源碼多媒體發展專案。這些專案包括與 On2 Technologies 聯手發展的 Ogg Theora 影像編碼技術、Free Lossless Audio Codec（FLAC）和作為語音壓縮之用的低 bitrate codec，Speex。
包括 Ogg bitstream 格式規格和 Vorbis RTP 封包規格在內的 Xiph 技術，已經進入 Internet Engineering Task Force 的標準審查作業。更為重要的是，遊戲公司、硬體製造廠商、Web 出版商、串流音訊開發人員和關注數位音樂的其他個人，正在試圖將 Vorbis 整合到他們的產品之中。盡管對於 MP3 仍為構成威脅，然而 Vorbis 的確在數位音樂領域中掀起新的波瀾。
參考網址：http://www.xiph.org/ogg/vorbis/ http://www.openfoundry.org/archives/000198.html

MusePack

這是目前公認音質最好的有損聲音壓縮格式，由網路上的高手開發而成。經過許多人耳測試調整的結果，目前在 128Kbps 等級的資料率就能夠達成一般人/一般設備無法聽出與原本 CD 差異的境界。
跟 AAC 比較起來，有著演算法複雜度低，撥放與壓縮時 CPU 使用量不高的優點，同時也因為程式編寫上容易微調音質，在目前的情況下據稱效果比 AAC 更好。

以下列出其內建音質組態，與它們的輸出平均 Bitrate:
--telephone 最差32-48Kbps
--thumb 稍低 (網路廣播) 58-86Kbps
--radio 普通 (MP3 品質) 112-152Kbps
--standard 高品質 (預設) 142-184Kbps
--xtreme 極高品質 168-212Kbps
--insane 極高品質 232-268Kbps
--braindead 極高品質 232-278Kbps
http://www.musepack.net/
http://forums.dearhoney.idv.tw/viewtopic.php?t=23839

ATRAC3/ATRAC3plus

ATRAC3 是 Sony 獨創的音樂壓縮技術，其全名為 Adaptive Transform Acoustic Coding3 ，是一種低失真率之聲音壓縮技術，它可以透過減少噪音與一般音樂傳輸之干擾音源，嘹亮清脆的高音與溫暖之中低音被重新修飾與強化。而 ATRAC3plus 是 Sony 繼 ATRAC3 後所研發出的壓縮技術，可帶來更佳的音樂品質，更大的音樂儲存空間，以及更長的電池播放效能。 ATRAC3 和 ATRAC3plus 的壓縮方式分別可以使一般 CD 音源檔案的大小壓縮到原來的10分之一和20分之一左右，這樣當享受相同音質的同時，卻可以獲得更多的音樂儲存空間。如使用 68kbps 的取樣壓縮模式，聲音僅佔原音源的50%之檔案大小，但卻相等於MP3檔案在128kbps 模式下所提供的音源品質。由一個獨立的歐州實驗室針對此點作了"試聽報告"，詳請請見 sound test report 。而04年新增的256kbps格式，更可以壓縮出媲美CD音質的好音樂。
ATRAC3 聲音壓縮格式有三種 : 132kbps / 105kbps / 66kbps
ATRAC3plus 聲音壓縮格式有三種 : 64 kbps / 48kbps / 256kbps
http://www.sony.net/Products/ATRAC3/

APE

和上面介紹的幾種壓縮方式不同的是，這個壓縮方式提供了最好的音質保證，也就是無失真壓縮(壓縮比約為2:1)！而且還提供了 Winamp的支援，可以直接用Winamp來播放。所謂無失真壓縮就是指壓縮後的格式和源文件在音質上並無差異，而Mp3、WMA等的編碼方案是基於有失真的，在損失部分音質的前提下節約存貯空間，所以說音質再好的Mp3、WMA也只能是無限接近源文件的音質。APE非常適合來編碼講究細節的獨奏曲目和大動態的交響曲。各位喜歡古典樂的同學們可不要錯過了喔！。

http://www.monkeysaudio.com/

下一次將介紹如何把CD唱片中的歌曲壓縮轉換為聲音檔，敬請期待。

source: http://www.lccnet.com.tw/commercial/e-paper/teacher-lecture-first.html

IT-Standup

2010年3月14日星期日

由MP3隨身聽淺談數位錄音原理

沒有留言:

張貼留言

我的網誌清單

追蹤者

網誌存檔

關於我自己