2010年10月5日 星期二

音頻編碼技術標準

(一)電話質量的音頻壓縮編碼技術標準

電話質量語音信號頻率規定在300Hz~3.4kHz,採用標準的脈衝編碼調製(PCM),當採樣頻率為8kHz,進行8bit量化時,所得數據速率為64kbit/s,即椄一個數字話路。 1972年CCITT(現稱為ITU-T)制定了PCM標準G.711,速率為64kbit/s,採用非線性量化μ律或A律,其質量相當於12bit線性量化。

1984年CCITT公佈了自適應差分脈衝編碼調製(ADPCM)標準G.721,速率為32kbit/s。這一技術是對信號和它的預測值的差分信號進行量化,同時再根據鄰近差分信號的特性自適應改變量化參數,從而提高壓縮比,又能保持一定信號質量。因此ADPCM對中等電話質量要求的信號能進行高效編碼,而且可以在調幅廣播和交互式激光唱盤音頻信號壓縮中應用。

為了適應低速率語音通信的要求,必須採用參數編碼或混合編碼技術,如線性預測編碼(LPC),矢量量化(VQ),以及其他的綜合分析技術。其中較為典型的碼本激勵線性預測編碼(CELP)實際上是一個閉環LPC系統,由輸入語音信號確定最佳參數,再根據某種最小誤差準則從碼本中找出最佳激勵碼本矢量。 CELP具有較強的抗干擾能力,在4~ 16kbit/s傳輸速率下,即可獲得較高質量的語音信號。 1992年CCITT制定了短時延碼本激勵線性預測編碼(LD-CELP)的標準G.728,速率16kbit/s,其質量與32kbit/s的G.721標準基本相當。

1988年歐洲數字移動特別工作組制定了採用長時延線性預測規則碼本激勵(RPE-LTP)標準GSM,速率為13kbit/s。 1989年美國採用矢量和激勵線性預測技術(VSELP),制定了數字移動通信語音標準CTIA,速率為8kbit/s。為了適應保密通信的要求,美國國家安全局(NSA)分別於1982年和1989年制定了基於LPC,速率為2.4bit/s和基於CELP,速率為4.8kbit/s的編碼方案。

其他語音相關標準如:
G.723: 一種ITU-T 推薦標準, 用於傳輸速率在5.3~6.4 kbps之間多媒體通信傳輸的雙速率語音編碼器。
H.221:ITU-T的H.320推薦標準的框架部分,被正式稱為“視聽電話服務中64至1920 kbps通道的框架結構”。該推薦標準敘述了能讓編碼器和譯碼器在時間上同步的同步操作。
H.222:ITU-T 推薦標準,規定了運動圖片及相關音頻信息的通用編碼。
H.223:ITU-T的H.324標準的一部分,一個控制/復用協議,通常被叫作“用於低位率多媒體通信的複用協議”。
H.233:一種複用推薦標準,是ITU-T視頻互操作推薦標準協議族的一部分。該推薦標準規定音視信息的單個畫面如何在數字頻道中進行複用。
H.231:附加於ITU-T的H.320 協議族的推薦標準,規定多點控制單元,用於多點會議中將三個或三個以上遵從H.320 的編解碼器(codec)橋接在一起。
H.242:ITU-T的H.320 協議族中視頻互操作推薦標準部分。它規定了建立一個音頻會話和在通信終止後結束該會話的協議。
H.245:ITU-T的H.323 和H.324 協議族部分,定義多媒體終端之間的通信控制。
H.261:ITU-T的推薦標準,使不同視頻編解碼器(codec)能解釋一個信號是怎樣被編碼和壓縮的,以及怎樣解碼和解壓縮這個信號。它也定義了CIF 和QCIF兩種圖形格式。
H.263:包含在H.324 協議族中的視頻編解碼器(codec)。
H.320:一個ITU-T 標準,它包含了大量的單個推薦標準:編碼、組幀、信令及建立連接(H.221, H.230, H.321, H.242, 以及H.261 )。應用於點對點和多點可視會議會話,且包含G.711,、G.722 和G.728三種音頻算法。
H.323:H.323 將H.320 擴展到了內聯網、外聯網和互聯網的包交換網絡中:以太網、令牌環和其他一些可能不保證QoS的網。它也規定了ATM包括ATM QoS上可視會議過程。它支持點對點和多點操作。
H.324:一個ITU-T 標準。它在模擬電話線(POTS)上提供了點對點的數據、視頻和音頻會議。 H.324 協議族包括H.223(一種多路復用協議)、H.245(一種控制協議)、T.120(一套音頻圖像協議)和V.34(一種調製解調器規範)。
T.120:ITU-T的“多媒體數據傳輸協議”,一種數據共享/數據會議規範,使用戶能通過任何H.32x 可視會議共享文件。

(二)調幅廣播質量的音頻壓縮編碼技術標準

調幅廣播質量音頻信號的頻率在50Hz~7kHz範圍。 CCITT在1988年制定了 G.722標準。 G.722標準是採用16kHz採樣,14bit量化,信號數據速率為224kbit/s,採用子帶編碼方法,將輸入音頻信號經濾波器分成高子帶和低子帶兩個部分,分別進行ADPCM編碼,再混合形成輸出碼流,224kbit/s可以被壓縮成64kbit/s,最後進行數據插入(最高插入速率達16kbit/s),因此利用G.722標準可以在窄帶綜合服務數據網N-ISDN中的一個B信道上傳送調幅廣播質量的音頻信號。

(三)高保真度立體聲音頻壓縮編碼技術標準
高保真立體聲音頻信號頻率範圍是50Hz~20kHz,採用44.1kHz採樣頻率,16bit量化進行數字化轉換,其數據速率每聲道達705kbit/s。
一般語音信號的動態範圍和頻響比較小,採用8kHz 取樣,每樣值用8bit 表示,現在的語音壓縮技術可把碼率從原來的64kbps 壓縮到4kbps 左右。但多媒體通信中的聲音要比語音複雜的多,它的動態範圍可達100dB, 頻響範圍可達20Hz~20KHz。因此,聲音數字化後的信息量也非常大,例如把6聲道環繞立體聲數字化,按每聲道取樣頻率48KHz,每樣值18bits 表示,則數字化後的數據碼率為:6×48KHz×18bits= 5.184Mbit/s,即使是兩聲道立體聲,數字化後碼率也達到1.5Mbps 左右,而電視圖像信號數字壓縮後碼率大約為1.5Mbps~10Mbps,因此,相對而言聲音未經數字壓縮的碼率就太高了,為了更有效地利用寶貴的信道資源,必須對聲音進行數字壓縮編碼。
由於有必要確定一套通用的視頻和聲音編碼方案,ISO/IEC標準組織成立了ISO/IES JTC1/SC29/WG11,即MPEG(活動圖像專家組)。該小組負責比較和評估幾種低碼速率數字聲音編碼技術,以產生一套國際標準,用於活動圖像、相關聲音信息及其結合,和用數字存儲媒體(DSM)存儲與重現。 MPEG針對的DSM包括CD-ROM、DAT、磁光盤和電腦磁盤。基於MPEG的壓縮技術還將用於多種通信信道,如:ISDN、局域網和廣播。 "低於1.5Mbit/s的用於數字存儲媒體的活動圖像和相關聲音之國際標準ISO/IEC" (MPEG-1)1992年11月完成。其中ISO lll72-3作為“MPEG音頻”標準,成為國際上公認的高保真立體聲音頻壓縮標準,一般稱為“MPEG-1音頻”。 MPEG-1音頻第一和第二層次編碼是將輸入音頻信號進行採樣頻率為48kHz,44.1kHz,32kHz的採樣,經濾波器組將其分為32個子帶,同時利用人耳屏蔽效應,根據音頻信號的性質計算各頻率分量的人耳屏蔽門限,選擇各子帶的量化參數,獲得高的壓縮比。 MPEG第三層次是在上述處理後再引入輔助子帶,非均勻量化和熵編碼技術,再進一步提高壓縮比。 MPEG音頻壓縮技術的數據速率為每聲道32~448kbit/s,適合於CD-DA光盤應用。
MPEG-2也定義了音頻標準,由兩部分組成,即MPEG-2音頻(Audio,ISO/IEC 13818-3)和MPEG-2 AAC(先進的音頻編碼,ISO/IEC 13818-3)。 MPEG-2 音頻編碼標準是對MPEG-1後向兼容的、支持二至五聲道的後繼版本。主要考慮到高質量的5 1 聲道、低比特率和後向兼容性,以保證現存的兩聲道解碼器能從5 1 個多聲道信號中解出相應的立體聲。 MPEG-2 AAC除後向兼容MPEG-1音頻外,還有非後向兼容的音頻標準。
MPEG-4 Audio標準(ISO/IEC 14496-3)可集成從話音到高質量的多通道聲音,從自然聲音到合成聲音,編碼方法還包括參數編碼(parametric coding),碼激勵線性預測(CELP ,code excited linear predictive)編碼,時間/頻率(T/F,time/frequency)編碼,結構化聲音(SA,structured audio)編碼,文語轉換(TTS,text-to-speech)的合成聲音,和MIDI合成聲音等。
MPEG-7 Audio 標準(ISO/IEC 15938-3)提供了音頻描述工具。