多媒體技術(shù)教程（林福宗）第2章數(shù)字聲音及MIDI簡介

百眼通 2014-09-29

展開全文

聲音是攜帶信息的極其重要的媒體，是多媒體技術(shù)研究中的一個重要內(nèi)容。聲音的種類繁多，如人的話音、樂器聲、動物發(fā)出的聲音、機(jī)器產(chǎn)生的聲音以及自然界的雷聲、風(fēng)聲、雨聲、閃電聲等。這些聲音有許多共同的特性，也有它們各自的特性。在用計(jì)算機(jī)處理這些聲音時，既要考慮它們的共性，又要利用它們的各自的特性。本章將介紹聲音的基礎(chǔ)知識，重點(diǎn)掌握聲音數(shù)字化的兩個最基本的概念。此外，還介紹在上網(wǎng)瀏覽或者脫機(jī)工作時你會經(jīng)常遇到的聲音文件存儲格式和聲音工具。

2.1 聲音與聽覺器官

　　聲音是通過空氣傳播的一種連續(xù)的波，叫聲波。聲音的強(qiáng)弱體現(xiàn)在聲波壓力的大小上，音調(diào)的高低體現(xiàn)在聲音的頻率上。聲音用電表示時，聲音信號在時間和幅度上都是連續(xù)的模擬信號，如圖2－01所示。聲波具有普通波所具有的特性，例如反射 (reflection)、折射 (refraction)和衍射 (diffraction)等。

圖2－01 聲音是一種連續(xù)的波

　　對聲音信號的分析表明，聲音信號由許多頻率不同的信號組成，這類信號稱為復(fù)合信號，而單一頻率的信號稱為分量信號。聲音信號的一個重要參數(shù)就是帶寬，它用來描述組成復(fù)合信號的頻率范圍。如高保真音信號(high-fidelity audio)的頻率范圍為10 Hz～20 000 Hz，它的帶寬約為20 kHz，而視頻信號的帶寬是6 MHz。
　　聲音信號的兩個基本參數(shù)是頻率和幅度。信號的頻率是指信號每秒鐘變化的次數(shù)，用Hz表示。例如，大氣壓的變化周期很長，以小時或天數(shù)計(jì)算，一般人不容易感到這種氣壓信號的變化，更聽不到這種變化。對于頻率為幾Hz到20 Hz的空氣壓力信號，人們也聽不到，如果它的強(qiáng)度足夠大，也許可以感覺到。人們把頻率小于20 Hz的信號稱為亞音信號，或稱為次音信號(subsonic)；頻率范圍為20 Hz～20 kHz的信號稱為音頻(Audio)信號；雖然人的發(fā)音器官發(fā)出的聲音頻率大約是80～3400 Hz，但人說話的信號頻率通常為300～3000 Hz，人們把在這種頻率范圍的信號稱為話音(speech)信號；高于20 kHz的信號稱為超音頻信號，或稱超聲波(ultrasonic)信號。超音頻信號具有很強(qiáng)的方向性，而且可以形成波束，在工業(yè)上得到廣泛的應(yīng)用，如超聲波探測儀，超聲波焊接設(shè)備等就是利用這種信號。在多媒體技術(shù)中，處理的信號主要是音頻信號，它包括音樂、話音、風(fēng)聲、雨聲、鳥叫聲、機(jī)器聲等。
　　人們是否都能聽到音頻信號，這主要取決于各個人的年齡和耳朵的特性。一般來說，人的聽覺器官能感知的聲音頻率大約在20～20000 Hz之間，在這種頻率范圍里感知的聲音幅度大約在0～120 dB之間。除此之外，人的聽覺器官對聲音的感知還有一些重要特性，這些特性將在第9章中介紹，它們在聲音數(shù)據(jù)壓縮中已經(jīng)得到廣泛的應(yīng)用。

2.2 聲音信號數(shù)字化 2.2.1 從模擬過渡到數(shù)字

　　回顧歷史，大多數(shù)電信號的處理一直是用模擬元部件(如晶體管、變壓器、電阻、電容等)對模擬信號進(jìn)行處理。但是，開發(fā)一個具有相當(dāng)精度、且?guī)缀醪皇墉h(huán)境變化影響的模擬信號處理元部件是相當(dāng)困難的，而且成本也很高。
　　如果把模擬信號轉(zhuǎn)變成數(shù)字信號，用數(shù)字來表示模擬量，對數(shù)字信號做計(jì)算，那末難點(diǎn)就發(fā)生了轉(zhuǎn)移，把開發(fā)模擬運(yùn)算部件的問題轉(zhuǎn)變成開發(fā)數(shù)字運(yùn)算部件的問題，這就出現(xiàn)了數(shù)字信號處理器(digital signal processor，DSP)。DSP與通用微處理器相比，除了它們的結(jié)構(gòu)不同外，其基本差別是，DSP有能力響應(yīng)和處理采樣模擬信號得到的數(shù)據(jù)流，如做乘法和累加求和運(yùn)算。
　　在數(shù)字域而不在模擬域中做信號處理的主要優(yōu)點(diǎn)是：首先，數(shù)字信號計(jì)算是一種精確的運(yùn)算方法，它不受時間和環(huán)境變化的影響；其次，表示部件功能的數(shù)學(xué)運(yùn)算不是物理上實(shí)現(xiàn)的功能部件，而是僅用數(shù)學(xué)運(yùn)算去模擬，其中的數(shù)學(xué)運(yùn)算也相對容易實(shí)現(xiàn)；此外，可以對數(shù)字運(yùn)算部件進(jìn)行編程，如欲改變算法或改變某些功能，還可對數(shù)字部件進(jìn)行再編程。

2.2.2 模擬信號與數(shù)字信號

　　話音信號是典型的連續(xù)信號，不僅在時間上是連續(xù)的，而且在幅度上也是連續(xù)的。在時間上“連續(xù)”是指在一個指定的時間范圍里聲音信號的幅值有無窮多個，在幅度上“連續(xù)”是指幅度的數(shù)值有無窮多個。我們把在時間和幅度上都是連續(xù)的信號稱為模擬信號。
　　在某些特定的時刻對這種模擬信號進(jìn)行測量叫做采樣(sampling)，由這些特定時刻采樣得到的信號稱為離散時間信號。采樣得到的幅值是無窮多個實(shí)數(shù)值中的一個，因此幅度還是連續(xù)的。如果把信號幅度取值的數(shù)目加以限定，這種由有限個數(shù)值組成的信號就稱為離散幅度信號。例如，假設(shè)輸入電壓的范圍是0.0V～0.7V，并假設(shè)它的取值只限定在0、0.1、0.2，…，0.7共8個值。如果采樣得到的幅度值是0.123V，它的取值就應(yīng)算作0.1V，如果采樣得到的幅度值是0.26V，它的取值就算作0.3，這種數(shù)值就稱為離散數(shù)值。我們把時間和幅度都用離散的數(shù)字表示的信號就稱為數(shù)字信號。

2.2.3 聲音信號數(shù)字化

　　聲音進(jìn)入計(jì)算機(jī)的第一步就是數(shù)字化，數(shù)字化實(shí)際上就是采樣和量化。如前所述，連續(xù)時間的離散化通過采樣來實(shí)現(xiàn)，就是每隔相等的一小段時間采樣一次，這種采樣稱為均勻采樣(uniform sampling)；連續(xù)幅度的離散化通過量化(quantization)來實(shí)現(xiàn)，就是把信號的強(qiáng)度劃分成一小段一小段，如果幅度的劃分是等間隔的，就稱為線性量化，否則就稱為非線性量化。圖2–02表示了聲音數(shù)字化的概念。

圖2－02 聲音的采樣和量化

　　聲音數(shù)字化需要回答兩個問題：①每秒鐘需要采集多少個聲音樣本，也就是采樣頻率(f_s)是多少，②每個聲音樣本的位數(shù)(bit per sample，bps)應(yīng)該是多少，也就是量化精度。

2.2.4 采樣頻率

　　采樣頻率的高低是根據(jù)奈奎斯特理論(Nyquist theory)和聲音信號本身的最高頻率決定的。奈奎斯特理論指出，采樣頻率不應(yīng)低于聲音信號最高頻率的兩倍，這樣就能把以數(shù)字表達(dá)的聲音還原成原來的聲音，這叫做無損數(shù)字化(lossless digitization)。采樣定律用公式表示為
　　　　f_s₃ 2f 或者 T_s ￡ T/2
其中 f 為被采樣信號的最高頻率。
　　　你可以這樣來理解奈奎斯特理論：聲音信號可以看成由許許多多正弦波組成的，一個振幅為 A、頻率為 f 的正弦波至少需要兩個采樣樣本表示，因此，如果一個信號中的最高頻率為f_max_,采樣頻率最低要選擇2。例如，電話話音的信號頻率約為3.4 kHz，采樣頻率就選為8 kHz。

2.2.5 采樣精度

　　樣本大小是用每個聲音樣本的位數(shù) bit/s（即bps）表示的，它反映度量聲音波形幅度的精度。例如，每個聲音樣本用 16 位（2字節(jié)）表示，測得的聲音樣本值是在 0～65536 的范圍里，它的精度就是輸入信號的 1/65536。樣本位數(shù)的大小影響到聲音的質(zhì)量，位數(shù)越多，聲音的質(zhì)量越高，而需要的存儲空間也越多；位數(shù)越少，聲音的質(zhì)量越低，需要的存儲空間越少。
　　采樣精度的另一種表示方法是信號噪聲比，簡稱為信噪比(signal-to-noise ratio，SNR)，并用下式計(jì)算：
　　　　SNR＝10log[(Vsignal)2/(Vnoise)2]＝20log(Vsignal/Vnoise)
其中，Vsignal表示信號電壓，Vnoise表示噪聲電壓；SNR的單位為分貝(db)
　　例1：假設(shè)Vnoise＝1，采樣精度為1位表示Vsignal＝21，它的信噪比SNR＝6分貝。
　　例2：假設(shè)Vnoise＝1，采樣精度為16位表示Vsignal＝216，它的信噪比SNR＝96分貝。

2.2.6 聲音質(zhì)量與數(shù)據(jù)率

　　根據(jù)聲音的頻帶，通常把聲音的質(zhì)量分成5個等級，由低到高分別是電話（telephone）、調(diào)幅（amplitude modulation，AM）廣播、調(diào)頻（frequency modulation，F(xiàn)M）廣播、激光唱盤（CD-Audio）和數(shù)字錄音帶（digital audio tape，DAT）的聲音。在這5個等級中，使用的采樣頻率、樣本精度、通道數(shù)和數(shù)據(jù)率列于表2–01。

表2–01 聲音質(zhì)量和數(shù)據(jù)率

_{質(zhì)量

采樣頻率
(kHz)

樣本精度
(bit/s)

單道聲/立體聲

數(shù)據(jù)率(kB/s)
(未壓縮)

頻率范圍

電話*

8

8

單道聲

8

200～3 400 Hz

AM

11.025

8

單道聲

11.0

20～15 000Hz

FM

22.050

16

立體聲

88.2

50～7 000Hz

CD

44.1

16

立體聲

176.4

20～20 000 Hz

DAT

48

16

立體聲

192.0

20～20 000 Hz}

* 電話使用m律編碼，動態(tài)范圍為13位，而不是8位(詳見第3章)

2.3 聲音文件的存儲格式

　　如同存儲文本文件一樣，存儲聲音數(shù)據(jù)也需要有存儲格式。在因特網(wǎng)上和各種機(jī)器上運(yùn)行的聲音文件格式很多，但目前比較流行的有以.wav (waveform)，.au(audio)，.aiff(Audio Interchangeable File Format)和.snd(sound)為擴(kuò)展名的文件格式。.wav格式主要用在PC上，.au主要用在Unix工作站上，.aiff和snd主要用在蘋果機(jī)和美國視算科技有限公司(Silicon Graphics，Inc.，SGI)的工作站上。
　　用 .wav 為擴(kuò)展名的文件格式稱為波形文件格式(WAVE File Format)，它在多媒體編程接口和數(shù)據(jù)規(guī)范1.0(Multimedia Programming Interface and Data Specifications 1.0)文檔中有詳細(xì)的描述。該文檔是由IBM和微軟公司于1991年8月聯(lián)合開發(fā)的，它是一種為交換多媒體資源而開發(fā)的資源交換文件格式(Resource Interchange File Format，RIFF)。
　　波形文件格式支持存儲各種采樣頻率和樣本精度的聲音數(shù)據(jù)，并支持聲音數(shù)據(jù)的壓縮。波形文件有許多不同類型的文件構(gòu)造塊組成，其中最主要的兩個文件構(gòu)造塊是Format Chunk(格式塊)和Sound Data Chunk(聲音數(shù)據(jù)塊)。格式塊包含有描述波形的重要參數(shù)，例如采樣頻率和樣本精度等，聲音數(shù)據(jù)塊則包含有實(shí)際的波形聲音數(shù)據(jù)。RIFF中的其他文件塊是可選擇的。它的簡化結(jié)構(gòu)如圖2–03所示。

_{圖2–03 WAVE文件結(jié)構(gòu)
　　如果讀者需要非常深入和詳細(xì)的文件格式的資料，請參看[3]。此外，為便于讀者辨認(rèn)文件的屬性，表2–02列出了部分聲音文件的后綴。
表2-02 常見的聲音文件擴(kuò)展名
_{文件的擴(kuò)展名

說明

au

Sun和NeXT公司的聲音文件存儲格式(8位m 律編碼或者16位線性編碼)

aif(Audio Interchange)

Apple計(jì)算機(jī)上的聲音文件存儲格式

cmf(Creative Music Format)

聲霸(SB)卡帶的MIDI文件存儲格式

mct

MIDI文件存儲格式

mff(MIDI Files Format)

MIDI文件存儲格式?

mid(MIDI)

Windows的MIDI文件存儲格式

mp2

MPEG Layer I , II

mp3

MPEG Layer III

mod(Module)

MIDI文件存儲格式

rm(RealMedia)

RealNetworks公司的流放式聲音文件格式

ra(RealAudio)

RealNetworks公司的流放式聲音文件格式

rol

Adlib聲音卡文件存儲格式

snd(sound)

Apple計(jì)算機(jī)上的聲音文件存儲格式

seq

MIDI文件存儲格式

sng

MIDI文件存儲格式

voc(Creative Voice)

聲霸卡存儲的聲音文件存儲格式

wav(Waveform)*

Windows采用的波形聲音文件存儲格式

wrk

Cakewalk Pro軟件采用的MIDI文件存儲格式
　　*支持PCM，ADPCM，m 率和A率波形(詳見第3章)
2.4 聲音工具
　　聲音工具(audio tools)用來錄放、編輯和分析聲音文件。聲音工具使用得相當(dāng)普遍，但它們的功能相差很大。下面列出了比較常見的幾種工具。
　　1. Windows 95/98本身帶的“Sound Recorder”
　　當(dāng)你在英文版Windows 95/98的界面上單擊：
　　Start→Programs→Accessories→Multimedia/Entertainment→單擊Sound Recorder 之后就調(diào)出如圖2–04所示的窗口。使用它可錄音，作簡單的聲音編輯(如插入、刪除等)。
_{圖2–04 Windows的錄音器
　　2. 買聲音卡時帶的工具
　　如果你的計(jì)算機(jī)安裝有聲音卡，一般來說都附帶有聲音工具。例如，聲霸(Sound Blaster)卡帶有幾種聲音工具，通常要由用戶自己安裝。其中，功能比較強(qiáng)的是WaveStudio,它的用戶界面如圖2–05所示。
_{圖2–05 Creative Wave Studio Version 4.00的用戶界面
　　3. 網(wǎng)絡(luò)上下載的工具
　　因特網(wǎng)上有許多站點(diǎn)提供試用的或者是免費(fèi)的聲音工具。圖2–06所示的就是從[4]上下載供試用的Cool　Edit工具，它很受聲音研究工作者的歡迎。類似的工具還有g(shù)oldwave公司的聲音工具，網(wǎng)址：
　　http://www. (瀏覽日期：1999年1月31日)，Cakewalk，Cubase等。

圖2–06 Cool　Edit 96的用戶界面
2.5 聲音質(zhì)量的度量
　　聲音質(zhì)量的評價(jià)是一個很困難的問題，目前還在繼續(xù)研究的課題。前面介紹了用聲音信號的帶寬來衡量聲音的質(zhì)量，等級由高到低依次是DAT，CD，F(xiàn)M，AM和數(shù)字電話。此外，聲音質(zhì)量的度量還有兩種基本的方法：一種是客觀質(zhì)量度量，另一種是主觀質(zhì)量度量。評價(jià)語音質(zhì)量時，有時同時采取兩種方法評估，有時以主觀質(zhì)量度量為主。
　　聲音客觀質(zhì)量的度量主要用信噪比(signal to niose ratio，SNR)，詳細(xì)計(jì)算可參看[2][3]。
　　與用SNR客觀質(zhì)量度量相比較，應(yīng)該可以說人的感覺(如聽覺、視覺等)更具有決定意義，感覺上的、主觀上的測試應(yīng)該成為評價(jià)聲音質(zhì)量和圖像質(zhì)量不可缺少的部分。而有的學(xué)者則認(rèn)為，在語音和圖像信號編碼中使用主觀質(zhì)量度量比使用客觀質(zhì)量度量更加恰當(dāng)，更有意義。可是一般來說，可靠的主觀度量值也是比較難獲得的，所獲得的值也是一個相對值。
　　主觀度量聲音質(zhì)量的方法類似于電視節(jié)目中的歌手比賽，由評委對每個歌手的表現(xiàn)進(jìn)行評分，然后求出平均值。對聲音質(zhì)量的度量也可以使用類似的方法，召集若干實(shí)驗(yàn)者，由他們對聲音質(zhì)量的好壞進(jìn)行評分，求出平均值作為對聲音質(zhì)量的評價(jià)。這種方法稱為主觀平均判分法，所得的分?jǐn)?shù)稱為主觀平均(mean opinion score，MOS)分。
　　現(xiàn)在，對聲音主觀質(zhì)量度量比較通用的標(biāo)準(zhǔn)是5分制，各檔次的評分標(biāo)準(zhǔn)見表2-03。
表2-03 聲音質(zhì)量評分標(biāo)準(zhǔn)
_{分?jǐn)?shù)

質(zhì)量級別

失真級別

5

　優(yōu)(Excellent)

　無察覺

4

　良(Good)

　(剛)察覺但不討厭

3

　中(Fair)

　(察覺)有點(diǎn)討厭

2

　差(Poor)

　討厭但不反感

1

　劣(Bad)

　極討厭(令人反感)

2.6 電子樂器數(shù)字接口(MIDI)系統(tǒng)
2.6.1 MIDI簡介
　　MIDI是Musical Instrument Digital Interface的首寫字母組合詞，可譯成“電子樂器數(shù)字接口”。用于在音樂合成器(music synthesizers)、樂器(musical instruments)和計(jì)算機(jī)之間交換音樂信息的一種標(biāo)準(zhǔn)協(xié)議。從20世紀(jì)80年代初期開始，MIDI已經(jīng)逐步被音樂家和作曲家廣泛接受和使用。MIDI是樂器和計(jì)算機(jī)使用的標(biāo)準(zhǔn)語言，是一套指令(即命令的約定)，它指示樂器即MIDI設(shè)備要做什么，怎么做，如演奏音符、加大音量、生成音響效果等。MIDI不是聲音信號，在MIDI電纜上傳送的不是聲音，而是發(fā)給MIDI設(shè)備或其它裝置讓它產(chǎn)生聲音或執(zhí)行某個動作的指令。
　　MIDI標(biāo)準(zhǔn)之所以受到歡迎，主要是它有下列幾個優(yōu)點(diǎn)：生成的文件比較小，因?yàn)镸IDI文件存儲的是命令，而不是聲音波形；容易編輯，因?yàn)榫庉嬅畋染庉嬄曇舨ㄐ我菀椎枚?；可以作背景音樂，因?yàn)镸IDI音樂可以和其它的媒體，如數(shù)字電視、圖形、動畫、話音等一起播放，這樣可以加強(qiáng)演示效果。
　　產(chǎn)生MIDI樂音的方法很多，現(xiàn)在用得較多的方法有兩種：一種是(frequency modulation，F(xiàn)M)合成法，另一種是樂音樣本合成法，也稱為波形表(Wavetable)合成法。這兩種方法目前主要用來生成音樂。在介紹MIDI之前先簡單介紹FM合成法，然后介紹樂音樣本合成法，再介紹MIDI系統(tǒng)。
2.6.2 FM合成聲音
　　音樂合成器的先驅(qū)Robert Moog采用了模擬電子器件生成了復(fù)雜的樂音。20世紀(jì)80年代初，美國斯坦福大學(xué)(Stanford University)的一名叫John Chowning的研究生發(fā)明了一種產(chǎn)生樂音的新方法，這種方法稱為數(shù)字式頻率調(diào)制合成法(digital frequency modulation synthesis)，簡稱為FM合成器。他把幾種樂音的波形用數(shù)字來表達(dá)，并且用數(shù)字計(jì)算機(jī)而不是用模擬電子器件把它們組合起來，通過數(shù)模轉(zhuǎn)換器(digital to analog convertor，DAC)來生成樂音。斯坦福大學(xué)得到了發(fā)明專利，并且把專利權(quán)授給Yamaha公司，該公司把這種技術(shù)做在集成電路芯片里，成了世界市場上的熱門產(chǎn)品。FM合成法的發(fā)明使合成音樂工業(yè)發(fā)生了一次革命。
　　FM合成器生成樂音的基本原理如圖2-07所示。它由5個基本模塊組成：數(shù)字載波器、調(diào)制器、聲音包絡(luò)發(fā)生器、數(shù)字運(yùn)算器和模數(shù)轉(zhuǎn)換器。數(shù)字載波器用了3個參數(shù)：音調(diào)(pitch)、音量(volume)和各種波形(wave)；調(diào)制器用了6個參數(shù)：頻率(frequency)、調(diào)制深度(depth)、波形的類型(type)、反饋量(feedback)、顫音(vibrato)和音效(effect)；樂器聲音除了有它自己的波形參數(shù)外，還有它自己的比較典型的聲音包絡(luò)線，聲音包絡(luò)發(fā)生器用來調(diào)制聲音的電平，這個過程也稱為幅度調(diào)制(amplitude modulation)，并且作為數(shù)字式音量控制旋鈕，它的4個參數(shù)寫成ADSR，這條包絡(luò)線也稱為音量升降維持靜音包絡(luò)線(Attack，decay，sustain，release，ADSR)包絡(luò)線。

圖2-07 FM聲音合成器的工作原理
　　在樂音合成器中，數(shù)字載波波形和調(diào)制波形有很多種，不同型號的FM合成器所選用的波形也不同。圖2-08是Yamaha OPL-III數(shù)字式FM合成器采用的波形。

圖2-08 聲音合成器的波形
　　各種不同樂音的產(chǎn)生是通過組合各種波形和各種波形參數(shù)并采用各種不同的方法實(shí)現(xiàn)的。用什么樣的波形作為數(shù)字載波波形、用什么樣的波形作為調(diào)制波形、用什么樣的波形參數(shù)去組合才能產(chǎn)生所希望的樂音，這就是FM合成器的算法。
　　●通過改變圖2-07中所示的參數(shù)，可以生成不同的樂音，例如：
　　●改變數(shù)字載波頻率可以改變樂音的音調(diào)，改變它的幅度可以改變它的音量。
　　●改變波形的類型，如用正弦波、半正弦波或其它波形，會影響基本音調(diào)的完整性。
　　●快速改變調(diào)制波形的頻率(即音調(diào)周期)可以改變顫音的特性。
　　●改變反饋量，就會改變正常的音調(diào)，產(chǎn)生刺耳的聲音。
　　選擇的算法不同，載波器和調(diào)制器的相互作用也不同，生成的音色也不同。
　　在多媒體計(jì)算機(jī)中，圖2-07中的13個聲音參數(shù)和算法共14個控制參數(shù)以字節(jié)的形式存儲在聲音卡的ROM中。播放某種樂音時，計(jì)算機(jī)就發(fā)送一個信號，這個信號被轉(zhuǎn)換成ROM的地址，從該地址中取出的數(shù)據(jù)就是用于產(chǎn)生樂音的數(shù)據(jù)。FM合成器利用這些數(shù)據(jù)產(chǎn)生的樂音是否真實(shí)，它的真實(shí)程度有多高，這就取決于可用的波形源的數(shù)目、算法和波形的類型。
2.6.3 樂音樣本合成聲音
　　使用FM合成法來產(chǎn)生各種逼真的樂音是相當(dāng)困難的，有些樂音幾乎不能產(chǎn)生，因此很自然地就轉(zhuǎn)向樂音樣本合成法。這種方法就是把真實(shí)樂器發(fā)出的聲音以數(shù)字的形式記錄下來，播放時改變播放速度，從而改變音調(diào)周期，生成各種音階的音符。
　　樂音樣本的采集相對比較直觀。音樂家在真實(shí)樂器上演奏不同的音符，選擇44.1 kHz的采樣頻率、16位的樂音樣本，這相當(dāng)于CD-DA的質(zhì)量，把不同音符的真實(shí)聲音記錄下來，這就完成了樂音樣本的采集。
　　樂音樣本通常放在ROM芯片上，ROM是超大規(guī)模集成電路(very large scale integrated，VLSI)芯片。使用樂音樣本合成器的原理框圖如圖2-09所示。

圖2-09 樂音樣本合成器的工作原理
　　樂音樣本合成器所需要的輸入控制參數(shù)比較少，可控的數(shù)字音效也不多，大多數(shù)采用這種合成方法的聲音設(shè)備都可以控制聲音包絡(luò)的ADSR參數(shù)，產(chǎn)生的聲音質(zhì)量比FM合成方法產(chǎn)生的聲音質(zhì)量要高。
2.6.4 電子樂器數(shù)字接口(MIDI)系統(tǒng)
　　MIDI協(xié)議提供了一種標(biāo)準(zhǔn)的和有效的方法，用來把演奏信息轉(zhuǎn)換成電子數(shù)據(jù)。MIDI信息是以“MIDI messages”傳輸?shù)?，它可以被認(rèn)為是告訴音樂合成器(music synthesizer)如何演奏一小段音樂的一種指令，而合成器把接收到的MIDI數(shù)據(jù)轉(zhuǎn)換成聲音。國際MIDI協(xié)會(International MIDI Association)出版的MIDI 1.0規(guī)范對MIDI協(xié)議作了完整的說明。
　　MIDI數(shù)據(jù)流是單向異步的數(shù)據(jù)位流(bit stream)，其速率為31.25 kbps，每個字節(jié)為10位(1位開始位，8位數(shù)據(jù)位和1位停止位)。MIDI樂器上的MIDI接口通常包含3種不同的MIDI連接器，用IN(輸入), OUT(輸出)和THRU(穿越)。MIDI數(shù)據(jù)流通常由MIDI控制器(MIDI controller)產(chǎn)生，如樂器鍵盤(musical instrument keyboard)，或者由MIDI音序器(MIDI sequencer)產(chǎn)生。MIDI控制器是當(dāng)作樂器使用的一種設(shè)備，在播放時把演奏轉(zhuǎn)換成實(shí)時的MIDI數(shù)據(jù)流，MIDI音序器是一種裝置，允許MIDI數(shù)據(jù)被捕獲、存儲、編輯、組合和重奏。來自MIDI控制器或者音序器的MIDI數(shù)據(jù)輸出通過該裝置的MIDI OUT連接器傳輸。
　　通常，MIDI數(shù)據(jù)流的接收設(shè)備是MIDI聲音發(fā)生器(MIDI sound generator)或者M(jìn)IDI聲音模塊(MIDI sound module)，它們在MIDI IN端口接收MIDI信息(MIDI messages)，然后播放聲音。圖2-10表示的是一個簡單的MIDI系統(tǒng)，它由一個MIDI鍵盤控制器和一個MIDI聲音模塊組成。許多MIDI鍵盤樂器在其內(nèi)部既包含鍵盤控制器，又包含MIDI聲音模塊功能。在這些單元中，鍵盤控制器和聲音模塊之間已經(jīng)有內(nèi)部鏈接，這個鏈接可以通過該設(shè)備中的控制功能(local control)對鏈接打開(ON)或者關(guān)閉(OFF)。
_{圖2-10 簡單的MIDI系統(tǒng)
　　單個物理MIDI通道(MIDI channel)分成16個邏輯通道，每個邏輯通道可指定一種樂器，如圖2-11所示。在MIDI信息(MIDI messages)中，用4個二進(jìn)制位來表示這16個邏輯通道。音樂鍵盤可設(shè)置在這16個通道之中的任何一個，而MIDI聲源或者聲音模塊可被設(shè)置在指定的MIDI通道上接收。
_{圖2-11 MIDI的通道概念[6]
　　在一個MIDI設(shè)備上的MIDI IN連接器接收到的信息可通過MIDI THRU連接器輸出到另一個MIDI設(shè)備，并可以菊花鏈的方式連接多個MIDI設(shè)備，這樣就組成了一個復(fù)雜的MIDI系統(tǒng)，如圖2-12所示。在這個例子中，MIDI鍵盤控制器對MIDI音序器(MIDI sequencer)來說是一個輸入設(shè)備，而音序器的MIDI OUT端口連接了幾個聲音模塊。作曲家可使用這樣的系統(tǒng)來創(chuàng)作幾種不同樂音組成的曲子，每次在鍵盤上演奏單獨(dú)的曲子。這些單獨(dú)曲子由音序器記錄下來，然后音序器通過幾個聲音模塊一起播放。每一曲子在不同的MIDI通道上播放，而聲音模塊可分別設(shè)置成接收不同的曲子。例如，聲音模塊＃1可設(shè)置成播放鋼琴聲并在通道1接收信息，模塊2設(shè)置成播放低音并在通道5接收信息，而模塊2設(shè)置成播放鼓樂器并在通道10上接收消息等。在圖2-12中使用了多個聲音模塊同時分別播放不同的聲音信息。這些模塊也可以做在一起構(gòu)成一個叫做多音色(multitimbral)的聲音模塊，它同樣可以起到同時接收和播放多種聲音的作用。
_{圖2-12 復(fù)雜MIDI系統(tǒng)[6]
　　圖2-13是用PC機(jī)構(gòu)造的MIDI系統(tǒng)，該系統(tǒng)使用的聲音模塊就是這樣一種單獨(dú)的多音色聲音模塊。在這個系統(tǒng)中，PC機(jī)使用內(nèi)置的MIDI接口卡，用來把MIDI數(shù)據(jù)發(fā)送到外部的多音色MIDI合成器模塊。像多媒體演示程序、教育軟件或者游戲等應(yīng)用軟件，它們把信息通過PC總線發(fā)送到MIDI接口卡。MIDI接口卡把信息轉(zhuǎn)換成MIDI消息(MIDI messages)，然后送到多音色聲音模塊同時播放出許多不同的樂音，例如鋼琴聲、低音和鼓聲。使用安裝在PC機(jī)上的高級的MIDI音序器軟件，用戶可把MIDI鍵盤控制器(MIDI keyboard controller)連接到MIDI接口卡的MIDI IN端口，也可以有相同的音樂創(chuàng)作功能。
_{圖2-13 使用PC機(jī)構(gòu)成的MIDI系統(tǒng)[6]
　　使用PC機(jī)構(gòu)造MIDI系統(tǒng)可以有不同的方案。例如，可把MIDI接口和MIDI聲音模塊組合在PC添加卡上。多媒體個人計(jì)算機(jī)MPC(Multimedia PC)規(guī)范就要求PC添加卡上必須有這樣的聲音模塊，稱為合成器(synthesizer)。通過已有的電子波形來產(chǎn)生聲音的合成器稱為FM合成器(FM synthesis)，而通過存儲的樂音樣本來產(chǎn)生聲音的合成器稱為波表合成器(wave table synthesis)。
　　MPC(Multimedia PC)規(guī)格需要聲音卡的合成器是多音色(muti-timbral)和多音調(diào)(polyphonic)的合成器。多音色是指合成器能夠同時播放幾種不同樂器的聲音，在英文文獻(xiàn)里常看到用voices和patches來表示，音色就是把一個人說話(或一種樂器)的聲音與另一個人說話(或另一種樂器)的聲音區(qū)分開來的音品；多音調(diào)是指合成器一次能夠播放的音符(note)數(shù)。MPC規(guī)格定義了兩種音樂合成器：基本合成器(Base-level synthesizer)和擴(kuò)展合成器(Extended synthesizer)，基本合成器和擴(kuò)展合成器之間的差別如表01所示。
表2-04 基本合成器和擴(kuò)展合成器之間的差別
_{合成器名稱

旋律樂器聲
(melodic instruments)

打擊樂器聲
(percussive instruments)

(synthesizer)

音色數(shù)
(timbres)

音調(diào)數(shù)
(polyphony)

音色數(shù)
(timbres)

音調(diào)數(shù)
(polyphony)

基本合成器

3種音色

6個音符

3種音色

3個音符

擴(kuò)展合成器

9種音色

16個音符

8種音色

16個音符}
　　基本合成器必須具有同時播放3種旋律音色和3種打擊音色(鼓樂)的能力，而且還必須具有同時播放6個旋律音符和3個打擊音符的能力，因此，基本合成器具有9種音調(diào)；擴(kuò)展合成器要能夠同時播放9種旋律音色和8種打擊音色。
2.6.5 MIDI消息
　　MIDI設(shè)備使用的一系列MIDI音符，可被認(rèn)為是告訴音樂合成器如何播放一小段音樂的指令。因?yàn)镸IDI數(shù)據(jù)是一套音樂符號的定義，而不是實(shí)際的音樂聲音，因此MIDI文件的內(nèi)容被稱為MIDI消息(MIDI messages)。一個MIDI消息由1個8位的狀態(tài)字節(jié)并通常跟著2個數(shù)據(jù)字節(jié)組成。在狀態(tài)字節(jié)中，最高有效位設(shè)置成“1”，低4位用來表示這個MIDI消息是屬于哪個通道，4位可表示16個可能的通道，其余3位的設(shè)置表示這個MIDI消息是什么類型的消息。MIDI消息可分成通道消息(Channel Messages)和系統(tǒng)消息(System Messages)兩大類，如圖12-14所示。
　　MIDI通道消息可分成通道聲源消息(Voice Messages)攜帶的演奏數(shù)據(jù)，和通道方式消息(Mode Messages)—表示合成器響應(yīng)MIDI數(shù)據(jù)的方式；MIDI系統(tǒng)消息分成公共消息(Common Messages)—標(biāo)識在系統(tǒng)中的所有接收器、實(shí)時消息(Real Time Messages)—用于MIDI部件之間的同步和獨(dú)占消息(Exclusive Messages)—廠商的標(biāo)識代碼。
_{圖2-14 MIDI信息
2.6.6 MIDI音序器和標(biāo)準(zhǔn)MIDI文件
　　MIDI合成器實(shí)時接收和處理MIDI消息(MIDI messages)。當(dāng)合成器接收到一個“note on (樂音開)”MIDI消息時就演奏相應(yīng)的聲音，當(dāng)接收到一個“note off (樂音關(guān))”MIDI消息時就停止演奏。如果MIDI數(shù)據(jù)源是樂器鍵盤，“note on”消息就實(shí)時產(chǎn)生，在像這樣的實(shí)時應(yīng)用中，就無需與MIDI消息一起發(fā)送一個定時信息。如果MIDI數(shù)據(jù)存儲成數(shù)據(jù)文件，或者使用音序器編輯的數(shù)據(jù)文件，MIDI消息就需要某種形式的定時標(biāo)記(time-stamping)。
　　國際MIDI協(xié)會(International MIDI Association)出版了標(biāo)準(zhǔn)MIDI文件(Standard MIDI Files)規(guī)范，該標(biāo)準(zhǔn)說明了處理定時標(biāo)記MIDI數(shù)據(jù)的一種標(biāo)準(zhǔn)化方法。這種方法適合各種應(yīng)用軟件共享MIDI數(shù)據(jù)文件，這些軟件包括音序器、樂譜軟件包和多媒體演示軟件。
　　標(biāo)準(zhǔn)MIDI文件(Standard MIDI File)規(guī)范定義了3種MIDI文件格式，MIDI音序器能夠管理文件標(biāo)準(zhǔn)規(guī)定的多個MIDI數(shù)據(jù)流，即聲軌(tracks)。MIDI文件格式0(Format 0)規(guī)定所有MIDI音序數(shù)據(jù)(MIDI sequence data)必須存儲在單個聲軌上，它僅用于簡單的單聲軌設(shè)備；MIDI文件格式1(Format 1)規(guī)定數(shù)據(jù)以一個聲軌集的方式存儲；MIDI文件格式2(Format 2)可用幾個獨(dú)立模式存儲數(shù)據(jù)。
2.6.7 合成器的多音調(diào)和多音色
　　合成器或者聲音發(fā)生器的多音調(diào)(polyphony)是一次演奏多個音符(note)的能力。大多數(shù)早期的音樂合成器是單音調(diào)的，即一次僅演奏一個音符。如果在裝配有單音調(diào)合成器(monophonic synthesizer)的鍵盤上同時按下5個鍵，只能聽到一個音符的聲音；如果在裝配有能支持4個音調(diào)的合成器的鍵盤上同時按下5個鍵，可產(chǎn)生4個音符的聲音。許多現(xiàn)代的聲音模塊有16，24或者32個音符的復(fù)調(diào)音。
　　合成器或者聲音發(fā)生器能夠產(chǎn)生的不同聲音一般用配音(patche)、指令(program)、算法(algorithm)、聲音(sound)或者音色(timbre)來表示?，F(xiàn)代合成器通常使用指令號(program number)來表示它們產(chǎn)生的不同聲音。使用指令號(program number)或者配音號(patch number)來指定想要獲得的聲音(sound)。例如，一個聲音模塊可使用配音＃1(patch number 1)來產(chǎn)生鋼琴聲，配音＃36(patch number 36)產(chǎn)生低音弦樂器聲。配音號和聲音之間的對關(guān)系稱為配音映射(patch map)。一個MIDI Program Change(MIDI指令變化)消息可用來告訴在給定通道上正在接收消息的設(shè)備要使用新的樂器聲。例如，使用指令號36的數(shù)據(jù)字節(jié)(見附錄1：General MIDI program number)并通過發(fā)送一個MIDI Program Change消息，音序器可在通道4上設(shè)置演奏低音弦樂器聲(fretless bass sounds)。
　　如果一個合成器或者聲音發(fā)生器能夠同時產(chǎn)生2個或者2個以上的不同樂音，就說這個合成器或者聲音發(fā)生器是多音色(multi-timbral)的。例如，如果一個合成器能夠同時演奏5個音調(diào)(notes)，就說它是多音調(diào)的(polyphonic)；如果一個合成器也能夠同時產(chǎn)生鋼琴聲(piano sound)和低音(bass sound)，就說它是一個多音色(multi-timbral)合成器。如果有24個音調(diào)(同時播放24個音符)并且是6種音色(同時產(chǎn)生6 種不同音色)的一種合成器或者聲音模塊，它可合成6種管弦樂隊(duì)的聲音。音序器可把鋼琴部分的MIDI消息發(fā)送給通道1，低音部分的MIDI消息發(fā)送給通道2，薩克斯管部分的MIDI消息發(fā)送給通道3，鼓聲部分的MIDI消息發(fā)送給通道10，等。一個多音色合成器(multi-timbral synthesizer)的多音調(diào)(polyphony)通常是動態(tài)分配的。在上面的例子中，例如5種聲源可用于鋼琴，2個聲源用于低音，一個用于薩克斯管，6個聲源用于鼓樂，剩下10沒有使用。
2.6.8 通用MIDI(GM)
　　通用MIDI規(guī)范(General MIDI Specification)是由國際MIDI協(xié)會(International MIDI Association)頒布的，用于通用MIDI樂器(General MIDI Instruments)。該規(guī)范包括通用MIDI聲音集(General MIDI Sound Set)即配音映射(patch map)、通用MIDI打擊樂音集(General MIDI Percussion Set)即打擊樂音與音符號之間的映射、以及一套通用MIDI演奏(General MIDI Performance)能力，包括聲音數(shù)目和MIDI消息類型等。
　　通用MIDI系統(tǒng)規(guī)定MIDI通道1～9和11～16用于旋律樂器聲，而通道10用于以鍵盤為基礎(chǔ)的打擊樂器聲。

練習(xí)與思考題

音頻信號的頻率范圍大約多少？話音信號頻率范圍大約多少？
什么叫做模擬信號？什么叫做數(shù)字信號？
什么叫做采樣？什么叫做量化？什么叫做線性量化？什么叫做非線性量化？
采樣頻率根據(jù)什么原則來確定？
樣本精度為8位的信噪比等于多少分貝？
聲音有哪幾種等級？它們的頻率范圍分別是什么？
選擇采樣頻率為22.050 kHz和樣本精度為16位的錄音參數(shù)。在不采用壓縮技術(shù)的情況下，計(jì)算錄制2分鐘的立體聲需要多少M(fèi)B(兆字節(jié))的存儲空間(1MB=1024×1024B)
什么叫做MIDI？它有什么特點(diǎn)？
用自己的語言說明FM合成聲音和樂音樣本合成聲音的思想。

參考文獻(xiàn)和站點(diǎn)

林福宗，陸達(dá) 編著. 多媒體與CD-ROM. 北京：清華大學(xué)出版社, 1995.3，171-173
各種文件存儲格式：http://www./ （瀏覽日期：1999年1月30日）
http://www./ （瀏覽日期：1999年1月31日）
http:///basics.htm(瀏覽日期：1999年9月30日（瀏覽日期：1999年9月30日）
http://www./～jglatt/tutr/whatmidi.htm(瀏覽日期：1999年9月30日?。g覽日期：1999年9月30日）
http://kingfisher.cms./　（瀏覽日期：1999年9月30日）}}}}}}}}}}

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：百眼通 > 《04多媒體（辦公）技術(shù)-108》

舉報(bào)/認(rèn)領(lǐng)