2010年12月5日 星期日

RGB ,YUV, YCbCr的定義


YUV
視頻編解碼器功能
視頻編碼器要求YUV4:2:0格式的視頻輸入,因此可能根據應用需要進行視頻輸入的預處理,即對YUV4:2:2隔行掃描(例如從攝像機)到YUV 4:2:0非隔行掃描轉換,僅抽取但不過濾UV分。對視頻解碼器而言,還需要進行後處理,以將解碼的YUV 4:2:0數據轉換為RGB進行顯示,包括:YUV 4:2:0到RGB轉換;16位或12位RGB顯示格式;0到90度旋轉,實現橫向或縱向顯示。此外,視頻編解碼器通常還要求具有以下功能和特性:
支持MPEG-4簡單類 0、1 與 2 級;
兼容H.263與 MPEG-4 編解碼標準;
MPEG-4視頻解碼器支持的可選項有:AC/DC預測、可逆可變長度編碼(RVLC)、再同步標誌(RM)、數據分割(DP)、錯誤隱藏專利技術、支持每個宏塊4個運動矢量(4MV)、自由運動補償、解碼VOS層;
MPEG-4視頻編碼器選項有:RVLC、RM、DP、支持每個宏塊4個運動矢量(4MV)、報頭擴展碼、支持編碼期間碼率改變、支持編碼期間編碼幀率改變、插入或不插入可視對象序列起始碼;
支持編碼期間序列中插入I幀;
支持編碼器自適應幀內刷新(AIR);
支持多編解碼器,可用相同代碼運行多個編解碼器實例。

RGB
紅綠藍(RGB)是計算機顯示的基色,RGB565支持的色深可編程至高達每像素16位,即RGB565(紅色5位,綠色6位,藍色5位)。


YCbCr
在DVD、攝像機、數字電視等消費類視頻產品中,常用的色彩編碼方案是YCbCr,其中Y是指亮度分量,Cb指藍色色度分量,而Cr指紅色色度分量。人的肉眼對視頻的Y分量更敏感,因此在通過對色度分量進行子採樣來減少色度分量後,肉眼將察覺不到的圖像質量的變化。主要的子採樣格式有YCbCr 4:2:0、YCbCr 4:2:2 和YCbCr 4:4:4。
4:2:0表示每4個像素有4個亮度分量,2個色度分量(YYYYCbCr),僅採樣奇數掃描線,是便攜式視頻設備(MPEG-4)以及電視會議(H.263)最常用格式;4:2:2表示每4個像素有4個亮度分量,4個色度分量(YYYYCbCrCbCr),是DVD、數字電視、HDTV 以及其它消費類視頻設備的最常用格式;4:4:4表示全像素點陣(YYYYCbCrCbCrCbCrCbCr),用於高質量視頻應用、演播室以及專業視頻產品。


source: http://www.cnblogs.com/lucky-apple/archive/2008/07/02/1234022.html

2010年10月5日 星期二

音頻編碼技術標準

(一)電話質量的音頻壓縮編碼技術標準

電話質量語音信號頻率規定在300Hz~3.4kHz,採用標準的脈衝編碼調製(PCM),當採樣頻率為8kHz,進行8bit量化時,所得數據速率為64kbit/s,即椄一個數字話路。 1972年CCITT(現稱為ITU-T)制定了PCM標準G.711,速率為64kbit/s,採用非線性量化μ律或A律,其質量相當於12bit線性量化。

1984年CCITT公佈了自適應差分脈衝編碼調製(ADPCM)標準G.721,速率為32kbit/s。這一技術是對信號和它的預測值的差分信號進行量化,同時再根據鄰近差分信號的特性自適應改變量化參數,從而提高壓縮比,又能保持一定信號質量。因此ADPCM對中等電話質量要求的信號能進行高效編碼,而且可以在調幅廣播和交互式激光唱盤音頻信號壓縮中應用。

為了適應低速率語音通信的要求,必須採用參數編碼或混合編碼技術,如線性預測編碼(LPC),矢量量化(VQ),以及其他的綜合分析技術。其中較為典型的碼本激勵線性預測編碼(CELP)實際上是一個閉環LPC系統,由輸入語音信號確定最佳參數,再根據某種最小誤差準則從碼本中找出最佳激勵碼本矢量。 CELP具有較強的抗干擾能力,在4~ 16kbit/s傳輸速率下,即可獲得較高質量的語音信號。 1992年CCITT制定了短時延碼本激勵線性預測編碼(LD-CELP)的標準G.728,速率16kbit/s,其質量與32kbit/s的G.721標準基本相當。

1988年歐洲數字移動特別工作組制定了採用長時延線性預測規則碼本激勵(RPE-LTP)標準GSM,速率為13kbit/s。 1989年美國採用矢量和激勵線性預測技術(VSELP),制定了數字移動通信語音標準CTIA,速率為8kbit/s。為了適應保密通信的要求,美國國家安全局(NSA)分別於1982年和1989年制定了基於LPC,速率為2.4bit/s和基於CELP,速率為4.8kbit/s的編碼方案。

其他語音相關標準如:
G.723: 一種ITU-T 推薦標準, 用於傳輸速率在5.3~6.4 kbps之間多媒體通信傳輸的雙速率語音編碼器。
H.221:ITU-T的H.320推薦標準的框架部分,被正式稱為“視聽電話服務中64至1920 kbps通道的框架結構”。該推薦標準敘述了能讓編碼器和譯碼器在時間上同步的同步操作。
H.222:ITU-T 推薦標準,規定了運動圖片及相關音頻信息的通用編碼。
H.223:ITU-T的H.324標準的一部分,一個控制/復用協議,通常被叫作“用於低位率多媒體通信的複用協議”。
H.233:一種複用推薦標準,是ITU-T視頻互操作推薦標準協議族的一部分。該推薦標準規定音視信息的單個畫面如何在數字頻道中進行複用。
H.231:附加於ITU-T的H.320 協議族的推薦標準,規定多點控制單元,用於多點會議中將三個或三個以上遵從H.320 的編解碼器(codec)橋接在一起。
H.242:ITU-T的H.320 協議族中視頻互操作推薦標準部分。它規定了建立一個音頻會話和在通信終止後結束該會話的協議。
H.245:ITU-T的H.323 和H.324 協議族部分,定義多媒體終端之間的通信控制。
H.261:ITU-T的推薦標準,使不同視頻編解碼器(codec)能解釋一個信號是怎樣被編碼和壓縮的,以及怎樣解碼和解壓縮這個信號。它也定義了CIF 和QCIF兩種圖形格式。
H.263:包含在H.324 協議族中的視頻編解碼器(codec)。
H.320:一個ITU-T 標準,它包含了大量的單個推薦標準:編碼、組幀、信令及建立連接(H.221, H.230, H.321, H.242, 以及H.261 )。應用於點對點和多點可視會議會話,且包含G.711,、G.722 和G.728三種音頻算法。
H.323:H.323 將H.320 擴展到了內聯網、外聯網和互聯網的包交換網絡中:以太網、令牌環和其他一些可能不保證QoS的網。它也規定了ATM包括ATM QoS上可視會議過程。它支持點對點和多點操作。
H.324:一個ITU-T 標準。它在模擬電話線(POTS)上提供了點對點的數據、視頻和音頻會議。 H.324 協議族包括H.223(一種多路復用協議)、H.245(一種控制協議)、T.120(一套音頻圖像協議)和V.34(一種調製解調器規範)。
T.120:ITU-T的“多媒體數據傳輸協議”,一種數據共享/數據會議規範,使用戶能通過任何H.32x 可視會議共享文件。

(二)調幅廣播質量的音頻壓縮編碼技術標準

調幅廣播質量音頻信號的頻率在50Hz~7kHz範圍。 CCITT在1988年制定了 G.722標準。 G.722標準是採用16kHz採樣,14bit量化,信號數據速率為224kbit/s,採用子帶編碼方法,將輸入音頻信號經濾波器分成高子帶和低子帶兩個部分,分別進行ADPCM編碼,再混合形成輸出碼流,224kbit/s可以被壓縮成64kbit/s,最後進行數據插入(最高插入速率達16kbit/s),因此利用G.722標準可以在窄帶綜合服務數據網N-ISDN中的一個B信道上傳送調幅廣播質量的音頻信號。

(三)高保真度立體聲音頻壓縮編碼技術標準
高保真立體聲音頻信號頻率範圍是50Hz~20kHz,採用44.1kHz採樣頻率,16bit量化進行數字化轉換,其數據速率每聲道達705kbit/s。
一般語音信號的動態範圍和頻響比較小,採用8kHz 取樣,每樣值用8bit 表示,現在的語音壓縮技術可把碼率從原來的64kbps 壓縮到4kbps 左右。但多媒體通信中的聲音要比語音複雜的多,它的動態範圍可達100dB, 頻響範圍可達20Hz~20KHz。因此,聲音數字化後的信息量也非常大,例如把6聲道環繞立體聲數字化,按每聲道取樣頻率48KHz,每樣值18bits 表示,則數字化後的數據碼率為:6×48KHz×18bits= 5.184Mbit/s,即使是兩聲道立體聲,數字化後碼率也達到1.5Mbps 左右,而電視圖像信號數字壓縮後碼率大約為1.5Mbps~10Mbps,因此,相對而言聲音未經數字壓縮的碼率就太高了,為了更有效地利用寶貴的信道資源,必須對聲音進行數字壓縮編碼。
由於有必要確定一套通用的視頻和聲音編碼方案,ISO/IEC標準組織成立了ISO/IES JTC1/SC29/WG11,即MPEG(活動圖像專家組)。該小組負責比較和評估幾種低碼速率數字聲音編碼技術,以產生一套國際標準,用於活動圖像、相關聲音信息及其結合,和用數字存儲媒體(DSM)存儲與重現。 MPEG針對的DSM包括CD-ROM、DAT、磁光盤和電腦磁盤。基於MPEG的壓縮技術還將用於多種通信信道,如:ISDN、局域網和廣播。 "低於1.5Mbit/s的用於數字存儲媒體的活動圖像和相關聲音之國際標準ISO/IEC" (MPEG-1)1992年11月完成。其中ISO lll72-3作為“MPEG音頻”標準,成為國際上公認的高保真立體聲音頻壓縮標準,一般稱為“MPEG-1音頻”。 MPEG-1音頻第一和第二層次編碼是將輸入音頻信號進行採樣頻率為48kHz,44.1kHz,32kHz的採樣,經濾波器組將其分為32個子帶,同時利用人耳屏蔽效應,根據音頻信號的性質計算各頻率分量的人耳屏蔽門限,選擇各子帶的量化參數,獲得高的壓縮比。 MPEG第三層次是在上述處理後再引入輔助子帶,非均勻量化和熵編碼技術,再進一步提高壓縮比。 MPEG音頻壓縮技術的數據速率為每聲道32~448kbit/s,適合於CD-DA光盤應用。
MPEG-2也定義了音頻標準,由兩部分組成,即MPEG-2音頻(Audio,ISO/IEC 13818-3)和MPEG-2 AAC(先進的音頻編碼,ISO/IEC 13818-3)。 MPEG-2 音頻編碼標準是對MPEG-1後向兼容的、支持二至五聲道的後繼版本。主要考慮到高質量的5 1 聲道、低比特率和後向兼容性,以保證現存的兩聲道解碼器能從5 1 個多聲道信號中解出相應的立體聲。 MPEG-2 AAC除後向兼容MPEG-1音頻外,還有非後向兼容的音頻標準。
MPEG-4 Audio標準(ISO/IEC 14496-3)可集成從話音到高質量的多通道聲音,從自然聲音到合成聲音,編碼方法還包括參數編碼(parametric coding),碼激勵線性預測(CELP ,code excited linear predictive)編碼,時間/頻率(T/F,time/frequency)編碼,結構化聲音(SA,structured audio)編碼,文語轉換(TTS,text-to-speech)的合成聲音,和MIDI合成聲音等。
MPEG-7 Audio 標準(ISO/IEC 15938-3)提供了音頻描述工具。

2010年7月7日 星期三

Impulse Response

所謂脈衝響應(Impulse Response)
就是輸入訊號經過一個運算之後就變成輸出訊號
假設輸入訊號為x(t)
輸出訊號為y(t)

則當y(t) = h(t)*x(t)

則h(t)便為其"脈衝響應"

2010年6月28日 星期一

想印大海報印表卻不夠大怎麼辦?用Easy Poster Printer來幫你分割列印吧

想印大海報印表卻不夠大怎麼辦?用Easy Poster Printer來幫你分割列印吧

當我們想印出一張大海報時,可能需要一台所費不貲的大型印表機,或是拿去專門的店來列印輸出,相當花錢。今天阿正老師要來介紹一套免費的海報印製軟體–Easy Poster Printer,可以幫你把大張的圖片或海報切割成多張A4尺寸的紙張,用一般印表機即可列印出來喔!使用起來非常簡單,常需要列印海報的大尺寸圖片的玩家可別錯過啦!
image

Easy Poster Printer是一套來自丹麥的免費軟體,安裝及使用都相當簡單,主要的功能有:
- 可使用一般的印表機來印製各種尺寸的海報(最大20×20公尺)
- 可儲存你的海報,並與其他人分享
- 可在任何時間列印或預覽海報中的某一頁
- 可以即時載入、清除、旋轉或翻轉圖片
- 可用公釐、公分、英吋或紙張數來定義海報大小
- 可將一般的影像重新取樣為高畫質海報(150-600dpi)
- 可以更換背景顏色
- 可用剪貼簿的複製、貼上功能,直接將影像貼入海報中


Easy Poster Printer小檔案
軟體版本:2.0.3
官方網站:http://www.gdsoftware.dk/

ref: http://blog.soft.idv.tw/?p=748&utm_source=feedburner&utm_medium=feed&utm_campaign=Feed:+quicktop+(Software+Player)

2010年5月25日 星期二

遠端桌面如何登入主機的主控台(Console)工作階段

當使用遠端桌面進行遠端的伺服器主機遙控的時候,每次連進去主機都會多開一個新的 Session (工作階段),也就是一台機器變成同時兩個使用者登入,即便是同一個使用者帳號。

假設我主機放在遠端的機房裡,我可能在機房的電腦已經有做一些工作沒做完,想說視窗先不關掉,回辦公室再連進去繼續操作,但每次連進去卻是不同的畫面,至於這個問題有兩種解決辦法:

第一種:利用「工作管理員」的「使用者」頁籤進行工作階段的切換

  1. 先登入遠端桌面,在開啟「工作管理員」,並點選「使用者」頁籤

    先登入遠端桌面,在開啟「工作管理員」,並點選「使用者」頁籤

  2. 在另一個工作階段按下滑鼠右鍵,選擇「連線」就可以將工作階段切換過去了

    在另一個工作階段按下滑鼠右鍵,選擇「連線」就可以將工作階段切換過去了

第二種:使用 mstsc 指令外加 /console 參數 ( 這一招應該是最簡單的 )

  1. 開啟「執行」對話框 ( 可以按快速鍵 Win + R ),並輸入 mstsc /console

    開啟「執行」對話框 ( 可以按快速鍵 Win + R ),並輸入 mstsc /console

  2. 輸入遠端電腦的 IP 連線過去後就是「主控台(Console)」的工作階段畫面了!

不過使用 Vista 的使用者要特別注意,當 Vista 升級更新到 Service Pack 1 (SP1) 之後將不在提供 /console 參數了,而是改成 /admin 參數:

%systemroot%\system32\mstsc.exe /admin


source: The Will Will Web

2010年4月29日 星期四

Thoughts on Flash by Steve Jobs

Apple has a long relationship with Adobe. In fact, we met Adobe’s founders when they were in their proverbial garage. Apple was their first big customer, adopting their Postscript language for our new Laserwriter printer. Apple invested in Adobe and owned around 20% of the company for many years. The two companies worked closely together to pioneer desktop publishing and there were many good times. Since that golden era, the companies have grown apart. Apple went through its near death experience, and Adobe was drawn to the corporate market with their Acrobat products. Today the two companies still work together to serve their joint creative customers – Mac users buy around half of Adobe’s Creative Suite products – but beyond that there are few joint interests.

I wanted to jot down some of our thoughts on Adobe’s Flash products so that customers and critics may better understand why we do not allow Flash on iPhones, iPods and iPads. Adobe has characterized our decision as being primarily business driven – they say we want to protect our App Store – but in reality it is based on technology issues. Adobe claims that we are a closed system, and that Flash is open, but in fact the opposite is true. Let me explain.

First, there’s “Open”.

Adobe’s Flash products are 100% proprietary. They are only available from Adobe, and Adobe has sole authority as to their future enhancement, pricing, etc. While Adobe’s Flash products are widely available, this does not mean they are open, since they are controlled entirely by Adobe and available only from Adobe. By almost any definition, Flash is a closed system.

Apple has many proprietary products too. Though the operating system for the iPhone, iPod and iPad is proprietary, we strongly believe that all standards pertaining to the web should be open. Rather than use Flash, Apple has adopted HTML5, CSS and JavaScript – all open standards. Apple’s mobile devices all ship with high performance, low power implementations of these open standards. HTML5, the new web standard that has been adopted by Apple, Google and many others, lets web developers create advanced graphics, typography, animations and transitions without relying on third party browser plug-ins (like Flash). HTML5 is completely open and controlled by a standards committee, of which Apple is a member.

Apple even creates open standards for the web. For example, Apple began with a small open source project and created WebKit, a complete open-source HTML5 rendering engine that is the heart of the Safari web browser used in all our products. WebKit has been widely adopted. Google uses it for Android’s browser, Palm uses it, Nokia uses it, and RIM (Blackberry) has announced they will use it too. Almost every smartphone web browser other than Microsoft’s uses WebKit. By making its WebKit technology open, Apple has set the standard for mobile web browsers.

Second, there’s the “full web”.

Adobe has repeatedly said that Apple mobile devices cannot access “the full web” because 75% of video on the web is in Flash. What they don’t say is that almost all this video is also available in a more modern format, H.264, and viewable on iPhones, iPods and iPads. YouTube, with an estimated 40% of the web’s video, shines in an app bundled on all Apple mobile devices, with the iPad offering perhaps the best YouTube discovery and viewing experience ever. Add to this video from Vimeo, Netflix, Facebook, ABC, CBS, CNN, MSNBC, Fox News, ESPN, NPR, Time, The New York Times, The Wall Street Journal, Sports Illustrated, People, National Geographic, and many, many others. iPhone, iPod and iPad users aren’t missing much video.

Another Adobe claim is that Apple devices cannot play Flash games. This is true. Fortunately, there are over 50,000 games and entertainment titles on the App Store, and many of them are free. There are more games and entertainment titles available for iPhone, iPod and iPad than for any other platform in the world.

Third, there’s reliability, security and performance.

Symantec recently highlighted Flash for having one of the worst security records in 2009. We also know first hand that Flash is the number one reason Macs crash. We have been working with Adobe to fix these problems, but they have persisted for several years now. We don’t want to reduce the reliability and security of our iPhones, iPods and iPads by adding Flash.

In addition, Flash has not performed well on mobile devices. We have routinely asked Adobe to show us Flash performing well on a mobile device, any mobile device, for a few years now. We have never seen it. Adobe publicly said that Flash would ship on a smartphone in early 2009, then the second half of 2009, then the first half of 2010, and now they say the second half of 2010. We think it will eventually ship, but we’re glad we didn’t hold our breath. Who knows how it will perform?

Fourth, there’s battery life.

To achieve long battery life when playing video, mobile devices must decode the video in hardware; decoding it in software uses too much power. Many of the chips used in modern mobile devices contain a decoder called H.264 – an industry standard that is used in every Blu-ray DVD player and has been adopted by Apple, Google (YouTube), Vimeo, Netflix and many other companies.

Although Flash has recently added support for H.264, the video on almost all Flash websites currently requires an older generation decoder that is not implemented in mobile chips and must be run in software. The difference is striking: on an iPhone, for example, H.264 videos play for up to 10 hours, while videos decoded in software play for less than 5 hours before the battery is fully drained.

When websites re-encode their videos using H.264, they can offer them without using Flash at all. They play perfectly in browsers like Apple’s Safari and Google’s Chrome without any plugins whatsoever, and look great on iPhones, iPods and iPads.

Fifth, there’s Touch.

Flash was designed for PCs using mice, not for touch screens using fingers. For example, many Flash websites rely on “rollovers”, which pop up menus or other elements when the mouse arrow hovers over a specific spot. Apple’s revolutionary multi-touch interface doesn’t use a mouse, and there is no concept of a rollover. Most Flash websites will need to be rewritten to support touch-based devices. If developers need to rewrite their Flash websites, why not use modern technologies like HTML5, CSS and JavaScript?

Even if iPhones, iPods and iPads ran Flash, it would not solve the problem that most Flash websites need to be rewritten to support touch-based devices.

Sixth, the most important reason.

Besides the fact that Flash is closed and proprietary, has major technical drawbacks, and doesn’t support touch based devices, there is an even more important reason we do not allow Flash on iPhones, iPods and iPads. We have discussed the downsides of using Flash to play video and interactive content from websites, but Adobe also wants developers to adopt Flash to create apps that run on our mobile devices.

We know from painful experience that letting a third party layer of software come between the platform and the developer ultimately results in sub-standard apps and hinders the enhancement and progress of the platform. If developers grow dependent on third party development libraries and tools, they can only take advantage of platform enhancements if and when the third party chooses to adopt the new features. We cannot be at the mercy of a third party deciding if and when they will make our enhancements available to our developers.

This becomes even worse if the third party is supplying a cross platform development tool. The third party may not adopt enhancements from one platform unless they are available on all of their supported platforms. Hence developers only have access to the lowest common denominator set of features. Again, we cannot accept an outcome where developers are blocked from using our innovations and enhancements because they are not available on our competitor’s platforms.

Flash is a cross platform development tool. It is not Adobe’s goal to help developers write the best iPhone, iPod and iPad apps. It is their goal to help developers write cross platform apps. And Adobe has been painfully slow to adopt enhancements to Apple’s platforms. For example, although Mac OS X has been shipping for almost 10 years now, Adobe just adopted it fully (Cocoa) two weeks ago when they shipped CS5. Adobe was the last major third party developer to fully adopt Mac OS X.

Our motivation is simple – we want to provide the most advanced and innovative platform to our developers, and we want them to stand directly on the shoulders of this platform and create the best apps the world has ever seen. We want to continually enhance the platform so developers can create even more amazing, powerful, fun and useful applications. Everyone wins – we sell more devices because we have the best apps, developers reach a wider and wider audience and customer base, and users are continually delighted by the best and broadest selection of apps on any platform.

Conclusions.

Flash was created during the PC era – for PCs and mice. Flash is a successful business for Adobe, and we can understand why they want to push it beyond PCs. But the mobile era is about low power devices, touch interfaces and open web standards – all areas where Flash falls short.

The avalanche of media outlets offering their content for Apple’s mobile devices demonstrates that Flash is no longer necessary to watch video or consume any kind of web content. And the 200,000 apps on Apple’s App Store proves that Flash isn’t necessary for tens of thousands of developers to create graphically rich applications, including games.

New open standards created in the mobile era, such as HTML5, will win on mobile devices (and PCs too). Perhaps Adobe should focus more on creating great HTML5 tools for the future, and less on criticizing Apple for leaving the past behind.

Steve Jobs
April, 2010

2010年3月14日 星期日

由MP3隨身聽淺談數位錄音原理


胡老師


常常看到同學們上課時用錄音筆錄下上課的情形,下課後錄音筆搖身一變成為MP3隨身聽,讚嘆之外也有好奇,現在的MP3隨身聽較十幾年前的錄音帶隨身聽音質可有進境,遂借來試聽,數位的MP3,類比的錄音帶,大小各異,互有長短,惟音質不夠細膩,一問之下,原來同學為了多存幾首歌,犧牲了頻率響應,到底,要怎麼轉檔,轉成什麼檔比較好,這其中的原理為何,請看以下介紹。

以數位訊號紀錄類比聲音的方法


為了令人更容易瞭解其中的意義,筆者使用樂譜替代一般物理課本常用的正弦波,首先,我們應該很容易瞭解,我們所聽到的聲音或是音樂在物理上的具體表現即是聲波,簡單的說,用數位訊號記載類比聲音訊號的方法就是用數位訊號的方式表示類比聲波的過程。這個過程,就叫做數位取樣。

為了解釋數位取樣,就要使用以下幾個觀念分別說明,就能了解數位取樣的是怎麼達成的。
觀點一:取樣頻率(sample rate)---


所謂取樣頻率,就是指要將一秒鐘的聲波分割成幾個點來加以數位化,也就是一秒鐘要取樣幾次:如CD音質的取樣頻率是44.1kHz,而現今錄音工業,甚至DVD的標準則是96 kHz。換句話說,取樣頻率指音效卡在一秒之中對聲音(波形)做記錄的次數。
聲音播出時的品質常常只能達到取樣頻率的一半,因此須採取雙倍樣率才能將原音準確重現.也就是只要取樣頻率大於原始訊號頻率的兩倍以上,即可減低錯誤,達到和原始聲音極真實的音訊。
而人類的聽力的極限約為20KHz,也就是說,將一秒鐘的音樂分割為20000等分以上時,人類就聽不出其品質上的差異,所以高品質的取樣應為其兩倍以上,當聲音來源為音樂時,因其所橫跨的頻率變化極為寬廣,所以用44.1KHz的頻率作為CD音樂取樣率的標準,也就是每秒鐘紀錄441000次;若以語音的記錄為主,譬如演講,人說話的語音大約為10KHz,因此加倍採樣,只取22KHz,也就是每秒鐘紀錄22000次就已具備足夠的音質。
取樣率越高, 所記錄下來的音質就越清晰;當然,越高的取樣所記錄下來的檔案就會越大。

觀點二:取樣解析度(sample resolution)


而音質分辨率則是對於聲波的「振幅」進行切割,形成類似階梯的度量單位,如果說取樣頻率是對聲波水平進行的X軸切割,那麼音質分辨率則是對Y軸的切割,切割的數量是以最大振幅切成2的n次方計算,n就是bit數, 8位元代表我們對音波的振幅做2的八次方256種強度的區別。CD音質是16位元就是2的8次方為65536種強度區別,而DVD的標準則是24位元。取樣頻率與解析度越大,則數位聲訊的品質就越細膩。位元數越高越能區分細緻的強弱音變化。常用區分音頻如下表。
 
 取樣頻率位元數單音/立體聲傳送位元率
DVD96000 Hz24bit立體聲562.5KB/sec
CD品質44100 Hz16 bits立體聲172KB/sec
收音機品質22050 Hz8 bits單音22KB/sec
電話品質11025 Hz8 bits單音11KB/sec

那麼,為了記載CD品質的音樂,或是DVD品質的聲音,需要多少資料量呢?我們來算一下:
計算過程為
CD品質一秒鐘
44100________________ (每秒取樣次數)
*16__________________(乘以每次取樣的資料量16bit)
/8____________________(1Byte=8bit將位元資料單位轉換為位元組所以除以八)
/1024_________________(1KB=1024Byte---1K等於1024個BYTE)
*2___________________(雙聲立體也就是兩個聲道所以乘以二)
=172.26KB/sec_________(每一秒鐘需要使用172.26KB的資料)
我們也可以順便算一下DVD品質一秒鐘資料量
96000(次)x24(bit)/8(1Byte=8bit)/1024(1KB=1024Byte)x2(雙聲立體)=562.5KB/sec

換句話說,紀錄一分鐘的CD音質的聲音就要用到172.26(KB)X60(秒)=10335.6(KB)的資料量,也就是10.09MB的檔案,紀錄一首三分鐘的歌,就需要30.28MB的檔案,天哪,這麼大的檔案,不光是存在硬碟裡,還是要在網路上傳遞,或者用我們的隨身碟帶身上,都非常不方便呀!假如256MB的隨身碟只能記載八、九首歌,那不是太不方便了呢,所以,像這樣大的檔案,不想辦法將它變小一點,是不行的。

在介紹壓縮聲音檔的方式之前,我們先來看看各種儲存聲音的檔案格式:

在個人電腦上最常用的數位音效(digital audio file)格式 .WAV檔,就是記錄聲波依照時間演變時振幅的大小。在錄製的時候可以選擇不同的取樣頻率(44kHz, 22kHz, 11kHz)與位元數(8bits,16bits)及單音/立體聲。在個人電腦上最常用.WAV檔,可以當成物件使用在各種文件中,Word, Excel, Power Point中都可以插入聲音檔物件。

雖然處理聲音的原理相同,由不同公司研發出的檔案格式不同,因此從各處取得的聲音檔有時需要加以轉換,列舉幾種常見的聲波檔格式:

聲音檔格式代表廠商
.WAVMicrosoft
.au或 .sndSun與NeXT
.vocAd Lib/Creative Labs聲霸卡
.aiffApple/Silicon Graphics(SGI)
.afcApple
.iffAmiga
.matMatlab

聲音檔壓縮格式

聲音壓縮之後,聲音的品質,除了由壓縮的方式決定之外,往往以位元傳輸率來表達其所展現出的品質,位元傳輸率是指資料流中每秒的資訊量。您可能曾經看過將音效檔描述為「128 Kbps MP3」或「64 Kbps WMA」。Kbps 是「kilobytes per second」(每秒千位元組) 的縮寫,所以數字愈大表示資料愈多。128 Kbps MP3 音效檔所包含的資料量是 64 Kbps WMA 檔案的兩倍,因此會佔用兩倍的空間。

雖然這兩個檔案的資料量不同,但是聽起來卻大致相同。為什麼?這是因為有些檔案格式使用資料的壓縮效率高於其他檔案格式,因此 64 Kbps WMA 音效檔的音效品質和 128 Kbps MP3 音效檔的音效品質是差不多的。一般來說,位元傳輸率愈高,資訊量就愈多,因此資訊解碼也愈費力,檔案需要的空間也愈多。

以下介紹的是常見的音樂壓縮格式,有些高效率的壓縮方式在國外已經很普遍,如ogg、MUSEPACK,APE等,相信在台灣也會慢慢普及開來的。

MPEG Layer 3
一般的聲音、歌曲所包含的頻率除了人類聽得見的,其實還有人類聽不見的。而Mpeg壓縮技術就是認為既然這些頻率人類聽不到,留著它幹嘛,於是便將人類 耳朵聽不見的聲音頻率給消滅掉以達到壓縮的目的。因此原始聲音的某些部份被丟掉了,聲音檔案大小也因此被縮減,這就是Mpeg壓縮技術的原理。以下兩種就 是從Mpeg壓縮技術所發展出來,依照不同的需求,有不同的格式選擇。MPEG所使用的演算法乃1987年由德國的一家整合研究發展機構 Fraunhofer IIS與埃欄肯大學(University of Erlangen)合作計劃下的產品。

  MPEG聲音壓縮標準可分3階層,每一層的壓縮法不同。層階數越高,壓縮複雜度就越高。MPEG第一階層(Mpeg1 audio layer1)標準壓縮效率為1:4,第二階段(Mpeg1 audio layer2)為1:6~1:8,第三階層(Mpeg1 audio layer3)的壓縮效率則高達1:10~1:12,MP3就是屬於第三階層。

MP3使用了強大的失真性壓縮,此演算法簡單的來說,就是過濾掉超高音波
等,我們還是不容易察覺出來的!因為它的壓縮之後讓人聽起來像是沒有經過壓縮一樣(其實還是有點失真)不過那種失真度是人耳所分辨不來的。

   MP3是現今最普遍的壓縮格式,他可以將CD音樂壓縮成原來容量的1/10大小,並且音質上與原來的CD相差沒有多少。如果將MP3燒錄成光碟,則一片光 碟可以放入100多首的MP3歌曲。
MPEG-2 進階音訊解碼 (MPEG-2 Advanced Audio Coding,AAC)
MPEG音訊壓縮規格在數位音訊的發展上佔有很重要的地位,而MP3正是應用此規格所發展出來的一種技術。MPEG最早之標準稱為MPEG-1,由國際標準化組織 (ISO) 在1992年完成,並制定成ISO/IEC 11172標準。從MPEG-1 的規格上來看,設計的最大位元率 (bit rate) 達到1.5Mbps,規格中分別規範了影像壓縮與聲音壓縮,由此我們不難看出,MPEG-1其實就是VCD使用的規格。MPEG-1本身分成三個部份,包括了系統、影像與聲音資料。

繼MPEG-1之後,ISO又推出了MPEG-2,同樣制定了一套影音壓縮的標準,不同的是MPEG-2影像資料的解析度要比MPEG-1高很多,同時聲音資料也由MPEG-1的兩聲道立體聲,提升到5.1聲道以上。目前DVD及美國數位電視標準 (ATSC) 都採用MPEG-2的影像壓縮標準。有了MPEG-1、MPEG-2之後,還制定出MPEG-4及MPEG-7,但這兩者目前尚未被廣泛應用。

MPEG Audio的發展目前已向前推進到MPEG-4,不過在這個新規格上,Audio並沒有更大的進展,反倒是MPEG-2又制訂了PART 7為新的Audio規格,稱為AAC。AAC不相容於MPEG-1,是一個獨立的編碼格式,提供了48個聲道及16個低頻輔助聲道,有16個資料串,壓縮效率要比MPEG-1 Layer-3高30%。另外,AAC使用了分辨率更高的濾波器組〈filter bank〉,時域噪音重整〈TNS,temporal noise shaping〉、後向調適線性預測〈backward adaptive predictor〉、聯合立體聲技術和量化哈夫曼編碼〈Huffman coding〉等最新技術,使音質更上一層樓;它還支持多種採樣頻率和位元率〈bit rate〉。

AAC壓縮率比MP3高;在32MB記憶容量中,最長可放下約一小時的音樂,將近十五首歌曲,若同樣的資料以MP3格式壓縮,32MB可存放半小時的音樂,約十首歌曲[AAC的發展已日漸成熟,眼明手快的多媒體業者早已注意到它蘊藏的潛力,並積極籌劃新產品中,新一代的MP3 Player都標榜著支援AAC格式的音樂,並隨機提供CD轉AAC或是MP3轉AAC的軟體,而個人電腦所使用的音樂播放程式也陸續推出支援AAC格式的新版本。由此可見,AAC躍升為音樂界新寵之時,已指日可待。
MPEG-2 AAC參考網址:http://roger.ee.ncu.edu.tw/chinese/pcchang/course2000b/comsp/aac/summary.htm


WMA Windows Media Audio

由Microsoft 研發,Windows Media Audio (WMA)是一種比MP3更小的音樂檔。WMA 在編碼率只有64kbps下的音質可近CD的質素,而MP3檔則需128kbps,也就是說,使用WMA可省下一半的檔案空間。WMA碼中可加入版權保護,讓持有人可保護自己的心血。
WMA壓縮格式可以在僅僅 20Kbps的位元傳輸率提供可聽的音質,因此WMA常常當作用於線上收聽和廣播的首選,微軟早就在Windows Media Player中支援這種格式。當WMA的位元傳輸率上升到128Kbps時,幾乎在同級別的所有的失真編碼格式中笑傲江湖了,MP3在 128Kbitrate時,會出現明顯的高頻失真,而WMA不會。

微軟推出WMA編碼時主要有2個主要目標,一個是瞄準了網路上的RM和RAM格式,另一個是使用者硬碟裡的MP3。但在高音質要求下,WMA仍無法構成對MP3的威脅,如果你想要獲得12:1左右或更高的壓縮比,就不妨選擇WMA格式,在這個流量下, WMA優秀太多了。

  然而,似乎128Kbps是WMA的一個門檻,當位元傳輸率再往上提升時,就不會有太多的音質上的變化;MP3卻不一樣,在192Kbps時,音質就可以比WMA好了。WMA和MP3的優劣一直是大家爭論的焦點,其實這是一個無法回答的問題。這要看你的實際需要,是追求高音質(mp3)還是高壓縮率(wma)。


The Ogg Vorbis CODEC project

談到數位音樂,一般人腦海第一個浮現的字眼或許是 MP3。MP3 在消費者眼中已成為數位音樂的代名詞。開放源碼社群正試圖改變數位音樂領域的當前生態。一個名為 Xiph.Org 的非營利基金會,已經發展一套開放源碼的音訊編碼、解碼器,Ogg Vorbis。盡管要使市場主流接納 Ogg Vorbis 仍有一段不小的距離,為了和 MP3、WMA 等數位音樂格式競爭,Ogg Vorbis 仍須跨越許多障礙,但 Vorbis 目前已經一步步攻城掠地,試圖成為 MP3 之外的選擇。
Ogg Vorbis 是一個完全開放、免權利金,多用途的音訊壓縮格式,可處理中至高品質的音樂(8kHz-48.0 kHz、16 位元、多聲道),其 bitrates 範圍每頻道可自 16 到 128 kbps。因此 Vorbis 是屬於 MPEG-4(AAC) 的同級競爭音樂格式,擁有高於 MPEG-1/2 audio layer 3、MPEG-4 audio(TwinVQ)、WMA 和 PAC 的效能表現。
Vorbis 是非營利組織 Xiph.Org 旗下 Ogg 多媒體編碼格式家族中的首項技術。Xiph.Org 以 BSD 授權釋出 Vorbis,已經吸引不少開發人員以及不願支付 MP3 授權金的製造廠商。
Xiph.Org 是一個確保網路多媒體基礎免受私人利益危害的非營利組織,其目標為支援並發展自由、開放的協定與軟體,提供公眾、開發人員與商業市場所需。 Xiph.Org 旗下囊括一系列的開放源碼多媒體發展專案。這些專案包括與 On2 Technologies 聯手發展的 Ogg Theora 影像編碼技術、Free Lossless Audio Codec(FLAC)和作為語音壓縮之用的低 bitrate codec,Speex。
包括 Ogg bitstream 格式規格和 Vorbis RTP 封包規格在內的 Xiph 技術,已經進入 Internet Engineering Task Force 的標準審查作業。更為重要的是,遊戲公司、硬體製造廠商、Web 出版商、串流音訊開發人員和關注數位音樂的其他個人,正在試圖將 Vorbis 整合到他們的產品之中。盡管對於 MP3 仍為構成威脅,然而 Vorbis 的確在數位音樂領域中掀起新的波瀾。
參考網址:http://www.xiph.org/ogg/vorbis/ http://www.openfoundry.org/archives/000198.html

MusePack

這是目前公認音質最好的有損聲音壓縮格式,由網路上的高手開發而成。經過許多人耳測試調整的結果,目前在 128Kbps 等級的資料率就能夠達成一般人/一般設備無法聽出與原本 CD 差異的境界。
跟 AAC 比較起來,有著演算法複雜度低,撥放與壓縮時 CPU 使用量不高的優點,同時也因為程式編寫上容易微調音質,在目前的情況下據稱效果比 AAC 更好。

以下列出其內建音質組態,與它們的輸出平均 Bitrate:
--telephone 最差32-48Kbps
--thumb 稍低 (網路廣播) 58-86Kbps
--radio 普通 (MP3 品質) 112-152Kbps
--standard 高品質 (預設) 142-184Kbps
--xtreme 極高品質 168-212Kbps
--insane 極高品質 232-268Kbps
--braindead 極高品質 232-278Kbps
http://www.musepack.net/
http://forums.dearhoney.idv.tw/viewtopic.php?t=23839

ATRAC3/ATRAC3plus

ATRAC3 是 Sony 獨創的音樂壓縮技術,其全名為 Adaptive Transform Acoustic Coding3 ,是一種低失真率之聲音壓縮技術,它可以透過減少噪音與一般音樂傳輸之干擾音源,嘹亮清脆的高音與溫暖之中低音被重新修飾與強化。而 ATRAC3plus 是 Sony 繼 ATRAC3 後所研發出的壓縮技術,可帶來更佳的音樂品質,更大的音樂儲存空間,以及更長的電池播放效能。 ATRAC3 和 ATRAC3plus 的壓縮方式分別可以使一般 CD 音 源 檔案的大小 壓縮到原來的10分之一和20分之一左右,這樣當享受相同音質的同時,卻可以獲得更多的音樂儲存空間。如使用 68kbps 的取樣壓縮模式,聲音僅佔原音源的50%之檔案大小,但卻相等於MP3檔案在128kbps 模式下所提供的音源品質。由一個獨立的歐州實驗室針對此點作了"試聽報告",詳請請見 sound test report 。而04年新增的256kbps格式,更可以壓縮出媲美CD音質的好音樂。
ATRAC3 聲音壓縮格式有三種 : 132kbps / 105kbps / 66kbps
ATRAC3plus 聲音壓縮格式有三種 : 64 kbps / 48kbps / 256kbps
http://www.sony.net/Products/ATRAC3/

APE

和上面介紹的幾種壓縮方式不同的是,這個壓縮方式提供了最好的音質保證,也就是無失真壓縮(壓縮比約為2:1)!而且還提供了 Winamp的支援,可以直接用Winamp來播放。所謂無失真壓縮就是指壓縮後的格式和源文件在音質上並無差異,而Mp3、WMA等的編碼方案是基於有失真的,在損失部分音質的前提下節約存貯空間,所以說音質再好的Mp3、WMA也只能是無限接近源文件的音質。APE非常適合來編碼講究細節的獨奏曲目和大動態的交響曲。各位喜歡古典樂的同學們可不要錯過了喔!。

http://www.monkeysaudio.com/

下一次將介紹如何把CD唱片中的歌曲壓縮轉換為聲音檔,敬請期待。



source: http://www.lccnet.com.tw/commercial/e-paper/teacher-lecture-first.html

2010年3月5日 星期五

數位基本認識: Nyquist Freq

數位基本認識


何謂數位化?

簡單解說,數位化 ( Digital ) 就是以數字來描述事物。就聲音電器特性上,在當下的時間內,
給予電壓來區別記錄,有電壓提供的區塊我們付予 1 無電壓提供的區塊我們付予 0,然後再將編碼後
的數據組合起來還原真像,如此的記錄過程,就是一種數位化。
而跟數位常常一起被提到的字眼是類比 ( Analog / Analogue )。類比的意思是一種隨時間而改變的線性
記錄原則,它無法在現有的資料及設備內,獨立創造一樣的資料,它可用相似的東西去表達,
例如再運用另一組設備轉錄過來,相對的它必須遵循原有的時間過程,如此就是一種類比的紀錄方式。

類比訊號電平如何數位化?

將類比訊號數位化,根據早些年貝爾研究室 Nyquist,理論上我們只要用 40 kHz 以上的取樣率就可以完整紀錄 20 kHz 以下的訊號。我們再重提一下舊文章,就人們大概能聽取有聲音頻大概是
20 Hz ~ 20 KHz,這是何意?就音頻學,在物理上,1 Khz 的倍頻是 2 Khz,我們將其轉移到樂理上,
這個倍頻就包含一個音程,也就是那 7 個音階,亦稱為 7 均分律,若再加上 5 個半音,就是 12 均分律,
為不使轉換過程損失掉基本的頻域,我們必須高於 20 KHz,又它的倍頻就是 40 KHz,

20 Khz 的倍頻是 40 Khz,問題是為何現有的 CD 格式是 44 . 1 Khz 呢?
在 CD 發明前硬碟 ( Hard Disk ) 還很貴不是民生用品,
研發很貴,只有尋找在當時最近的資源,
拜謝那時的電影圈
1 / 24 秒 / 格的連續影像啟發,所以主要數位音訊儲存媒體的替代者是當下既有的
資源 ( 錄影帶 ),用黑白來記錄 0 與 1 的編碼
訊號。 ( 早期的影像是黑白的 )。
而格式就是每秒 30 張格,
而一張圖又可以分為 490 條掃瞄線,每一條線又可以儲存三個取樣訊號,
因此每秒有 30 ╳ 490 ╳ 3 = 44100 個取樣點。
這個成功研發的概念是由當年在貝爾研究室的 Harry Nyquist 研發出來的,為此,數位化的取樣頻率
我們就稱為 Nyquist frequency。簡單的說明如果我們欲將一類比訊號編碼記錄時,
如果每秒一格,那將會是低取樣比率,無法將過程還原,如果每秒 24 格或更多,那這個取樣比率將會
優於一格秒的記錄。
圖 1 裡的表達在說明高取樣的比率,事後才有能力供解碼還原成
之前的訊號。
低取樣的比率將無法記錄下過程,有的只是
pi pai 的數位雜音罷了。
_



圖 1,取樣的比值說明。
藉由上述的說明,數位的取樣比率格式,通常有:32、44 . 056、44 . 1、48、以及 96 KHz。
在國際上,聲音轉播放送
( on air ) 的頻寬也不過 15 Khz,因此 32 Khz 的取樣比率是如此的。

44 . 056 and 44 . 1 Khz 是供雷射 CD、音樂錄製、數位錄音使用,現在取樣比率的細調功能也都普遍
了,你可以方便的在 44 . 1 Khz
的位置,以百分比來增加或是減少比率值。
例如 Yamaha AW-4416 取樣頁面內,就有一個調整鈕來幫忙匹配這細微的取樣差。至於 48、 96 Khz
即是提供給 DVD 或是一些資料記錄方面,
尚有一些高品質的單位如 Super Audio Compact Disc
( SACD ),
目前都已發展到 192 Khz 的取樣技術了,唯獨其價前還是高高在上。

量子化 ( Quantization )

這個過程的解釋就是將一訊號波形,藉由電壓的變化,將其轉換刻錄在碟盤上。這個電壓值我們把它
量化成為兩個要素,
即二進位 ( binary digits ),或位元 bit 成為有意義的記錄。
利用此數學的方法將類比訊號的電壓轉變成為數字編碼,當輸出電壓是 off 的,我們定義為 ”0 ”,
反之我們將其定義為 “ 1 “。
Quantization 的動作就像是二進制的數學,1 0 就是兩位元,101即三位元,11010是五位元等,
所以 n 位元就等於 2n 位元字義。
所以量子化後的資料會依當下的訊號轉換類似 ----111、110、101、100、011……… 之類的資料,
在 0 與 1 的架構下,我們可以整理出:

1 個 bit 等於兩個 discrete level 及 0、1。

2個 bit等於四個discrete level 及00、01、11、10。

3個 bit等於八個discrete level 及000、001、010、011、100、101、110、111。
註,discrete level ( 分立的電平值 )

如上所釋,又想要得到好的轉換聲音訊號,量子化的位元愈長愈好,就這樣 8 bit 的量子解析是 256,
16 bit 是 65536,20 bit 是 1048576,
24 = 16777216。
會算了嗎?想再深入學習的人,可以到書電買本邏輯電路概念開始。

如下方圖 2 所示,不同的位元取樣,所得到的解析度是不一樣的,第四個圖示為16 bit 的取樣分析,
你可以看出有一個弦波的形狀了。
另外要說明的是這構成的圖像,若是在 44 . 1 Khz 時,它應該是有
44100 格的電壓解析區塊。
_



圖 2,取樣位元比值說明。
類比訊號在 Quanitzation 這些訊號電壓時,雖然取樣位元愈高,記錄就愈忠實,僅管如此,Quanitzation
後的訊號振幅結果,
多少會與真正原始的波形振幅表示,有一些誤差存在。這種情況,我們稱之為
Quanitzation noise 。
此一係值的多寡是隨著量子化的位元數增加而減少。
一樣的它也會關係到所謂的 signal – to – noise,一個類比轉換成數位的轉換元件,每增一個 bit 時,
所記錄的資料忠實度就會增加兩倍,
即與與實際波形間的誤差會變成 1 / 2,如果以分貝表示 ( dB ),
取樣忠實度的增加 2 倍,就會減少 6 dB 的噪音系數,則代表聲音強弱的動態範圍 ( Dynamic Range )
簡稱 D ,因此 16 bit 就會擁有
6 dB ╳ 16 bit = 96 dB 的動態範圍。
這相當於類比系統的 – 75 dB 左右
的噪音底層,不過就數位的領域裡,這 96 dB 噪音底層不過是一般
的條件,因此以 20 bit 為架構就可得到 120 dB 的噪音比,24 bit 會更好,達到 144 dB 之高!
註,Quanitzation noise l ( 量化噪音值 ),signal – to – noise ( 噪音底層 )。

圖 3 可以更清楚取樣位元多寡在 Quanitzation 過程的粗糙與細膩。
_



圖 3,取樣位元比值說明 2。
以上簡單的文章說明了數位的奧妙處,就它們普及化在市面上後,各種的數位格式就出現在生活裡,
在聲音領域裡,常被各位應用到的聲頻數位界面格式.,
請各位參照我另一篇文章:認識聲頻數位格式,
在此我就不再寫出。

電腦硬碟格式錄音

轉換功能成熟後,聰明的商人組合它們成為生活必須品,從早期的帶子 DAT TAPE 錄音,到今日的硬碟
HARD DISK 錄音,
線性及非線性不同的地方,凡是接觸過的人,皆有點滴… 在錄音的領域裡,
數位非線性 Digital 漸而取代類比線性 Analog
的工作方式,Hard Disk Recorder 將會取代 Tape Recorder ,
就 Audio 方面的故事,早期的硬碟錄放音模式,Hard Disk Recorder 以 Apple Macintosh Computer
做主平台。
由 Digidesign 開發的兩軌聲音工具系統 Two Track Sound Tools System,除了多次的播放,
原音不變,剪接編輯,後製,再生種種多項的優點,
改善了當初線性工作領域的瓶頸,也奠定了電腦數位
錄音的市場及
成長。

當時的電腦 CPU 處理器速度比較慢,同時能處理的工作不多,兩軌的錄放音掛在平台上,其他的資源就別
想再動用到,
後來跟隨著科技的進步,CPU 速度加快,再加上 DSP Cards 發展成功,
Recording 和 Playback 在這時候已有
多軌的模式在線上運作了。
有了金錢,有了名,Sound Tools 即改名為 Pro Tools,由於當時並不是很大眾化的產品,所以它的價格都
很高,因此有一段時間是流行原有
的類比設備參與電腦的部份功能交替作業,並不是完全交付電腦來完成
所有的事情。
當 PC 開始接觸聲音多媒體這一塊領域時,它是被嘲笑的,剛開始的我就是如此,
幾乎無法
勝任工作的,然而它夾帶著全世界使用的普及化,廉價,各項支援多,問題的發生,
很快就有人完成修正,又各項的軟體、輔助插件、儀錶
等相關的,每個人想要的。
各方面的資訊就很快能夠提供。
在目前的年代,PC 在錄音混音的市場上已是一大龍頭了,尤其是德國
Steinberg 公司所開發出來的 VST 架構,以及其相關的產品,如
Nuendo 、cubase、Wavlab,另外已讓售
給 SONY 的 Sonic Foundry,這些公司所製作出來的產品,在聲音圖形化的編輯剪接,專業領域上已經是必修的課目了,現今 Computer Audio 的市場已不再是 MAC 的天下了,反倒是 PC 漸漸的佔領這塊市場。

Hard Disk Multi Track Recorder ( 硬碟多軌記錄器 ),TASCAM MX-2424 就是業界的一個代表作品。
DAT 在記錄再生的過程裡,由於磁頭與磁帶間的接觸面有凹凸不均勻現象,或是帶子、或是磁頭清潔度
問題等,都有可能產生記錄訊號
欠缺的問題,此現象我們稱為遺訊 ( Drop out )當 DAT ( Digital Audio Tape )
的領域過後,隨之而來的是人手一台的電腦時代,包括非線性的後製處理作業全都仰賴電腦。
而且直接將訊號轉換到硬碟上就沒有此種問題的產生。Quanitzation 完後的數據是龐大的位元數據,
這是電腦看不懂的格式,因為電腦是以字元來辨別容量的,所以我們必須
將位元 bit 轉成 字元 byte,
如此才能順利的
將數位化之後的資料存入硬碟裡。

一般各位在製作數位錄音時,記錄這些轉換資料往往不清楚它們的架構,整場要配置多少空間的硬碟也
不清楚,甚至是自己攜帶的手提電腦想要側錄個兩軌訊號,都不知道可以錄多久,數不清的 mail 裡面,
問的也是這個問題,
現在這個式子寫給大家,以後就不用擔心了。

1個 bit 等於 8 byte,所以如果有一類比訊號欲存錄到硬碟裡,那麼應該 如何計算才能知道所須的硬碟空間?
假設我們以 44 . 1 Khz 取樣頻率, 16 bit 的格式來錄音,我們就會有下面的數學出現:

44 ╳ 1024 ╳ 16 ÷ 8 = 90112 byte / sec

90112 ╳ 60 = 5406720 byte / sec = 5 . 4 Mbyte / m

5 . 4 ╳ 60 = 324 Mbyte / h

這裡說明如果以 44 . 1 Khz / 16 bit 來做硬碟錄音時,那麼在每小時內,你會得到 324 MB 的資料,從這裡
不難看出,若是立體的兩軌
音樂資料,它會是 648 MB,這就是為何一張標準的 CD 音樂片子,
它們的格式會是 650 MB / 74 分鐘。當然啦,時至今日,一些 CD 的播放器材也已脫離這樣的格式來迎應
一些超時,如 700 MB / 80 分鐘的 CD 格式。唯無論你事先是採用多高的取樣,多高的位元來記錄資料,
在完成作品後,一定是全要回歸到 44 . 1 Khz / 16 bit 的格式來。

ok,這篇就寫到此,整理一下,我們從數位的開頭一直到簡單介紹應用,又知道一些事情了,
各位,加油加油。

音匠 吳榮宗



source: http://www.sounderpro.com.tw/Reviw/review.html

2010年3月2日 星期二

SNR信噪比

信噪比,即SNR(Signal to Noise Ratio)又稱為訊噪比,即放大器的輸出信號的電壓與同時輸出的噪聲電壓的比,常常用分貝數表示。設備的信噪比越高表明它產生的雜音越少。一般來說,信噪比越大,說明混在信號裡的噪聲越小,聲音回放的音質量越高,否則相反。信噪比一般不應該低於70dB,高保真音箱的信噪比應達到110dB以上。

通俗的說

信噪比是音箱回放的正常聲音信號與無信號時噪聲信號(功率)的比值。用dB表示。例如,某音箱的信噪比為80dB,即輸出信號功率比噪音功率大80dB。信噪比數值越高,噪音越小

“噪聲”的簡單定義就是:“在處理過程中設備自行產生的信號”,這些信號與輸入信號無關。對於MP3播放器來說,信噪比都是一個比較重要的參數,它指音源產生最大不失真聲音信號強度與同時發出噪音強度之間的比率稱為信號噪聲比,簡稱信噪比(Signal/ Noise),通常以S/N表示,單位為分貝(dB)對於播放器來說,該值當然越大越好。

目前MP3播放器的信噪比有60dB、65dB、85dB、90dB、95dB等等,我們在選擇MP3的時候,一般都選擇60dB以上的,但即使這一參數達到了要求,也不一定表示機子好,畢竟它只是MP3性能參數中要考慮的參數之一。

指在規定輸入電壓下的輸出信號電壓與輸入電壓切斷時,輸出所殘留之雜音電壓之比,也可看成是最大不失真聲音信號強度與同時發出的噪音強度之間的比率,通常以S /N表示。一般用分貝(dB)為單位,信噪比越高表示音頻產品越好,常見產品都選擇60dB以上。

國際電工委員會對信噪比的最低要求是前置放大器大於等於63dB,後級放大器大於等於86dB,合併式放大器大於等於63dB。合併式放大器信噪比的最佳值應大於90dB,CD機的信噪比可達90dB以上,高檔的更可達110dB以上。信噪比低時,小信號輸入時噪音嚴重,整個音域的聲音明顯感覺是混濁不清,所以信噪比低於80dB的音箱不建議購買,而低音炮70dB的低音炮同樣原因不建議購買。

信噪比的用途

另外,信噪比可以是車載功放;光端機;影碟機;數字語音室;家庭影院套裝;網絡攝像機;音箱……等等,這裡所說明的是MP3播放器的信噪比。

以dB計算的信號最大保真輸出與不可避免的電子噪音的比率。該值越大越好。低於75dB這個指標,噪音在寂靜時有可能被發現AWE64 Gold聲卡的信噪比是80dB,較為合理。 SBLIVE更是宣稱超過120dB的頂級信噪比。總的說來,由於電腦裡的高頻干擾太大,所以聲卡的信噪比往往不令人滿意。

圖像信噪比

圖像的信噪比應該等於信號與噪聲的功率譜之比,但通常功率譜難以計算,有一種方法可以近似估計圖像信噪比,即信號與噪聲的方差之比。首先計算圖像所有像素的局部方差,將局部方差的最大值認為是信號方差,最小值是噪聲方差,求出它們的比值,再轉成dB數,最後用經驗公式修正,具體參數請參看“反捲積與信號復原(鄒謀炎)”。

  頻信噪比

音頻信噪比是指音響設備播放時,正常聲音信號強度與噪聲信號強度的比值。當信噪比低,小信號輸入時噪音嚴重,在整個音域的聲音明顯變得渾濁不清,不知發的是什麼音,嚴重影響音質。信噪比的大小是用有用信號功率(或電壓)和噪聲功率(或電壓)比值的對數來表示的。這樣計算出來的單位稱為“貝爾”。實用中因為貝爾這個單位太大,所以用它的十分之一做計算單位,稱為“分貝”。對於便攜式DVD來說,信噪比至少應該在70dB(分貝)以上,才可以考慮。

信噪比與噪聲

信噪比是音響界公認的衡量音響器材質量水準的一個重要指標,幾乎所有的電聲器材都會標註這個指標,沒有這個指標的器材,要么是一些特製的專用器材設備,要么就是不正規的產品信噪比、失真率、頻率響應這三個指標是音響器材的“基礎指標”或“基本特性”,我們在評價一件音響器材或者一個系統水準之前,必須先要考核這三項指標,這三項指標中的任何一項不合格,都說明該器材或者係統存在著比較重大的缺陷。信噪比作為設備、系統的基礎指標之一,必須得到應有的高度重視。

信噪比,英文名稱叫做SNR或S/N(SIGNAL-NOICE RATE),是指一個電子設備或者電子系統中信號與噪聲的比例。這裡面的信號指的是來自設備外部需要通過這台設備進行處理的電子信號,噪聲是指經過該設備後產生的原信號中並不存在的無規則的額外信號(或信息),並且該種信號並不隨原信號的變化而變化。同樣是“原信號不存在”還有一種東西叫“失真”,失真和噪聲實際上有一定關係,二者的不同是失真是有規律的,而噪聲則是無規律的,這個以後再講。

信噪比的計量單位是dB,其計算方法是10LOG(PS/PN),其中Ps和Pn分別代表信號和噪聲的有效功率,也可以換算成電壓幅值的比率關係:20LOG(VS/VN) ,Vs和Vn分別代表信號和噪聲電壓的“有效值”。在音頻放大器中,我們希望的是該放大器除了放大信號外,不應該添加任何其它額外的東西。因此,信噪比應該越高越好。

信噪比的測量及計算

通過計算公式我們發現,信噪比不是一個固定的數值,它應該隨著輸入信號的變化而變化,如果噪聲固定的話,顯然輸入信號的幅度越高信噪比就越高。顯然,這種變化著的參數是不能用來作為一個衡量標準的,要想讓它成為一種衡量標準,就必須使它成為一個定值。於是,作為器材設備的一個參數,信噪比被定義為了“在設備最大不失真輸出功率下信號與噪聲的比率”,這樣,所有設備的信噪比指標的測量方式就被統一起來,大家可以在同一種測量條件下進行比較了。信噪比通常不是直接進行測量的,而是通過測量噪聲信號的幅度換算出來的,通常的方法是:給放大器一個標准信號,通常是0.775Vrms或2Vp- p@1kHz,調整放大器的放大倍數使其達到最大不失真輸出功率或幅度(失真的範圍由廠家決定,通常是10%,也有1%),記下此時放大器的輸出幅Vs,然後撤除輸入信號,測量此時出現在輸出端的噪聲電壓,記為Vn,再根據10LOG(Vn/Vs)就可以計算出信噪比了。

這樣的測量方式完全可以體現設備的性能了。但是,實踐中發現,這種測量方式很多時候會出現誤差,某些信噪比測量指標高的放大器,實際聽起來噪聲比指標低的放大器還要大。經過研究發現,這不是測量方法本身的錯誤,而是這種測量方法沒有考慮到人的耳朵對於不同頻率的聲音敏感性是不同的,同樣多的噪聲,如果都是集中在幾百到幾千Hz,和集中在20KHz以上是完全不同的效果,後者我們可能根本就察覺不到。

因此就引入了一個“權”的概念。這是一個統計學上的概念,它的核心思想是,在進行統計的時候,應該將有效的、有用的數據進行保留,而無效和無用的數據應該盡量排除,使得統計結果接近最準確,每個統計數據都由一個“權”,“權”越高越有用,“權”越低就越無用,毫無用處的數據的“權”為0。於是,經過一系列測試和研究,科學家們找到了一條“通用等響度曲線”,這個曲線代表的是人耳對於不同頻率的聲音的靈敏度的差異,將這個曲線引入信噪比計算方法後,先兆比指標就和人耳感受的結果更為接近了。
噪聲中對人耳影響最大的頻段“權”最高,而人耳根本聽不到的頻段的“權”為0。這種計算方式被稱為“A計權”,已經稱為音響行業中普遍採用的計算方式。

source:http://www.dzwebs.net/2487.html

2010年2月19日 星期五

Jitter Correction

CD-ROM 因為在設計上是 定線速,所以在讀內圈資料和讀外圈資料時的
碟片轉速會不同,讀內圈時會比外圈快得多,而為了要簡化設計,許多 CD-ROM
都只是用一個 FIFO(First In, First out)的緩衝區來控制轉速,當緩衝區快要
滿的時候就將轉速降低,反之則加快,故在讀取資料時的間距就會忽大忽小,
這就是 jitter。這在讀取資料軌時沒有什麼問題,因為每個資料區塊有起始碼
及第三層 ECC(error correcting code),但音樂軌時就有問題了,因為在
音樂軌的資料中沒有起始碼,無法準確的決定每一個 frame 的起始位置,所以
會有一種現象就是,一片音樂 CD 中的某一首歌,在兩台 CD-Player 中播放
出來的時間會有一點點差距。為了要解決這種音樂播放時的問題,各家廠商都在
CD device 裡加上一些線路來設法解決問題,這就是 de-jitter。

當我們要在電腦上利用可以抓音軌的 CD-ROM 來抓音軌時,一樣會發生這種
問題,但因為近來 CD device 的技術越來越進步,再加上(我猜測的)有些公司
的 CD-ROM 有用到額外通道中的一些資訊來確定每個 frame 的起始位置,因此
已經可以做到 100% 完整重現音樂軌的資料,因為無論如何,de-jitter 後所得到
的音樂軌資料,很有可能會和原始資料不同,既使在大部份的情形下可能聽不
出來,但是仔細聽還是有些變化比較快的地方是可以聽得出來的。

用軟體來做 de-jitter 的一種常用的方法是,將同一個 frame 讀出兩次加以
比較,如果完全相同就沒有問題,如果還是不同就要讀第三次,然後找出最相近的
兩次,然後再用一些方法來算出可以接受的資料,如果三次的差距都很大,那麼
de-jitter 就會失敗,這在使用 cdda 時是偶爾會出現的。有人問說為何 cdda
會比 cdgrabp 慢得多,而 cdda 抓出來的品質卻比 cdgrabp 好,這是因為 cdda
deafult 會有 de-jitter,而 cdgrabp 沒有罷了。當這種情形發生時,就表示
你抓到的資料已經是經過修飾的了,已經和原始資料不同了,既使你不太能夠聽
得出差異。

我為何敢如此斷定上面這件事呢?很簡單,請將一個音樂軌重覆抓兩次,
存成 ta.wav 及 tb.wav,然後用 DOS 的 FC 加以比較:fc/b ta.wav tb.wav,
你就會發現原來它們的差距是如此的大!附帶要提的一件事就是,在有 smartdrv
的情形下,很容易發生 jitter 的情形,既使那台 CD-ROM 本來應該是很好的,
此時可以試著將 smartdrv 關掉,同一軌再抓兩次比較看看,你或許就會驚訝的
發現,"no differences encountered"!

好啦,請各位有心抓音軌的人,將你的 PC 啟動到 DOS 模式下,將 smartdrv
關掉,然後將你最喜歡的那首歌抓下兩次比較看看,如果完全一模一樣,那個恭禧
你,如果有所不同,那就表示你以前抓下來的"沒有音爆"的音樂軌,其實是經過
修飾的,當然,如果你不介意,那還有誰能介意呢?