电竞比分网-中国电竞赛事及体育赛事平台

分享

多媒體技術(shù)教程(林福宗)第2章數(shù)字聲音及MIDI簡介

 百眼通 2014-09-29
聲音是攜帶信息的極其重要的媒體,是多媒體技術(shù)研究中的一個重要內(nèi)容。聲音的種類繁多,如人的話音、樂器聲、動物發(fā)出的聲音、機(jī)器產(chǎn)生的聲音以及自然界的雷聲、風(fēng)聲、雨聲、閃電聲等。這些聲音有許多共同的特性,也有它們各自的特性。在用計(jì)算機(jī)處理這些聲音時,既要考慮它們的共性,又要利用它們的各自的特性。本章將介紹聲音的基礎(chǔ)知識,重點(diǎn)掌握聲音數(shù)字化的兩個最基本的概念。此外,還介紹在上網(wǎng)瀏覽或者脫機(jī)工作時你會經(jīng)常遇到的聲音文件存儲格式和聲音工具。

2.1 聲音與聽覺器官

  聲音是通過空氣傳播的一種連續(xù)的波,叫聲波。聲音的強(qiáng)弱體現(xiàn)在聲波壓力的大小上,音調(diào)的高低體現(xiàn)在聲音的頻率上。聲音用電表示時,聲音信號在時間和幅度上都是連續(xù)的模擬信號,如圖2-01所示。聲波具有普通波所具有的特性,例如反射 (reflection)、折射 (refraction)和衍射 (diffraction)等。


圖2-01 聲音是一種連續(xù)的波

  對聲音信號的分析表明,聲音信號由許多頻率不同的信號組成,這類信號稱為復(fù)合信號,而單一頻率的信號稱為分量信號。聲音信號的一個重要參數(shù)就是帶寬,它用來描述組成復(fù)合信號的頻率范圍。如高保真音信號(high-fidelity audio)的頻率范圍為10 Hz~20 000 Hz,它的帶寬約為20 kHz,而視頻信號的帶寬是6 MHz。
  聲音信號的兩個基本參數(shù)是頻率和幅度。信號的頻率是指信號每秒鐘變化的次數(shù),用Hz表示。例如,大氣壓的變化周期很長,以小時或天數(shù)計(jì)算,一般人不容易感到這種氣壓信號的變化,更聽不到這種變化。對于頻率為幾Hz到20 Hz的空氣壓力信號,人們也聽不到,如果它的強(qiáng)度足夠大,也許可以感覺到。人們把頻率小于20 Hz的信號稱為亞音信號,或稱為次音信號(subsonic);頻率范圍為20 Hz~20 kHz的信號稱為音頻(Audio)信號;雖然人的發(fā)音器官發(fā)出的聲音頻率大約是80~3400 Hz,但人說話的信號頻率通常為300~3000 Hz,人們把在這種頻率范圍的信號稱為話音(speech)信號;高于20 kHz的信號稱為超音頻信號,或稱超聲波(ultrasonic)信號。超音頻信號具有很強(qiáng)的方向性,而且可以形成波束,在工業(yè)上得到廣泛的應(yīng)用,如超聲波探測儀,超聲波焊接設(shè)備等就是利用這種信號。在多媒體技術(shù)中,處理的信號主要是音頻信號,它包括音樂、話音、風(fēng)聲、雨聲、鳥叫聲、機(jī)器聲等。
  人們是否都能聽到音頻信號,這主要取決于各個人的年齡和耳朵的特性。一般來說,人的聽覺器官能感知的聲音頻率大約在20~20000 Hz之間,在這種頻率范圍里感知的聲音幅度大約在0~120 dB之間。除此之外,人的聽覺器官對聲音的感知還有一些重要特性,這些特性將在第9章中介紹,它們在聲音數(shù)據(jù)壓縮中已經(jīng)得到廣泛的應(yīng)用。

2.2 聲音信號數(shù)字化 2.2.1 從模擬過渡到數(shù)字

  回顧歷史,大多數(shù)電信號的處理一直是用模擬元部件(如晶體管、變壓器、電阻、電容等)對模擬信號進(jìn)行處理。但是,開發(fā)一個具有相當(dāng)精度、且?guī)缀醪皇墉h(huán)境變化影響的模擬信號處理元部件是相當(dāng)困難的,而且成本也很高。
  如果把模擬信號轉(zhuǎn)變成數(shù)字信號,用數(shù)字來表示模擬量,對數(shù)字信號做計(jì)算,那末難點(diǎn)就發(fā)生了轉(zhuǎn)移,把開發(fā)模擬運(yùn)算部件的問題轉(zhuǎn)變成開發(fā)數(shù)字運(yùn)算部件的問題,這就出現(xiàn)了數(shù)字信號處理器(digital signal processor,DSP)。DSP與通用微處理器相比,除了它們的結(jié)構(gòu)不同外,其基本差別是,DSP有能力響應(yīng)和處理采樣模擬信號得到的數(shù)據(jù)流,如做乘法和累加求和運(yùn)算。
  在數(shù)字域而不在模擬域中做信號處理的主要優(yōu)點(diǎn)是:首先,數(shù)字信號計(jì)算是一種精確的運(yùn)算方法,它不受時間和環(huán)境變化的影響;其次,表示部件功能的數(shù)學(xué)運(yùn)算不是物理上實(shí)現(xiàn)的功能部件,而是僅用數(shù)學(xué)運(yùn)算去模擬,其中的數(shù)學(xué)運(yùn)算也相對容易實(shí)現(xiàn);此外,可以對數(shù)字運(yùn)算部件進(jìn)行編程,如欲改變算法或改變某些功能,還可對數(shù)字部件進(jìn)行再編程。

2.2.2 模擬信號與數(shù)字信號

  話音信號是典型的連續(xù)信號,不僅在時間上是連續(xù)的,而且在幅度上也是連續(xù)的。在時間上“連續(xù)”是指在一個指定的時間范圍里聲音信號的幅值有無窮多個,在幅度上“連續(xù)”是指幅度的數(shù)值有無窮多個。我們把在時間和幅度上都是連續(xù)的信號稱為模擬信號。
  在某些特定的時刻對這種模擬信號進(jìn)行測量叫做采樣(sampling),由這些特定時刻采樣得到的信號稱為離散時間信號。采樣得到的幅值是無窮多個實(shí)數(shù)值中的一個,因此幅度還是連續(xù)的。如果把信號幅度取值的數(shù)目加以限定,這種由有限個數(shù)值組成的信號就稱為離散幅度信號。例如,假設(shè)輸入電壓的范圍是0.0V~0.7V,并假設(shè)它的取值只限定在0、0.1、0.2,…,0.7共8個值。如果采樣得到的幅度值是0.123V,它的取值就應(yīng)算作0.1V,如果采樣得到的幅度值是0.26V,它的取值就算作0.3,這種數(shù)值就稱為離散數(shù)值。我們把時間和幅度都用離散的數(shù)字表示的信號就稱為數(shù)字信號。

2.2.3 聲音信號數(shù)字化

   聲音進(jìn)入計(jì)算機(jī)的第一步就是數(shù)字化,數(shù)字化實(shí)際上就是采樣和量化。如前所述,連續(xù)時間的離散化通過采樣來實(shí)現(xiàn),就是每隔相等的一小段時間采樣一次,這種采樣稱為均勻采樣(uniform sampling);連續(xù)幅度的離散化通過量化(quantization)來實(shí)現(xiàn),就是把信號的強(qiáng)度劃分成一小段一小段,如果幅度的劃分是等間隔的,就稱為線性量化,否則就稱為非線性量化。圖2–02表示了聲音數(shù)字化的概念。


圖2-02 聲音的采樣和量化

  聲音數(shù)字化需要回答兩個問題:①每秒鐘需要采集多少個聲音樣本,也就是采樣頻率(fs)是多少,②每個聲音樣本的位數(shù)(bit per sample,bps)應(yīng)該是多少,也就是量化精度。

2.2.4 采樣頻率

  采樣頻率的高低是根據(jù)奈奎斯特理論(Nyquist theory)和聲音信號本身的最高頻率決定的。奈奎斯特理論指出,采樣頻率不應(yīng)低于聲音信號最高頻率的兩倍,這樣就能把以數(shù)字表達(dá)的聲音還原成原來的聲音,這叫做無損數(shù)字化(lossless digitization)。采樣定律用公式表示為
    fs
3 2f 或者 TsT/2
其中 f 為被采樣信號的最高頻率。
   你可以這樣來理解奈奎斯特理論:聲音信號可以看成由許許多多正弦波組成的,一個振幅為 A、頻率為 f 的正弦波至少需要兩個采樣樣本表示,因此,如果一個信號中的最高頻率為fmax,采樣頻率最低要選擇2。例如,電話話音的信號頻率約為3.4 kHz,采樣頻率就選為8 kHz。

2.2.5 采樣精度

  樣本大小是用每個聲音樣本的位數(shù) bit/s(即bps)表示的,它反映度量聲音波形幅度的精度。例如,每個聲音樣本用 16 位(2字節(jié))表示,測得的聲音樣本值是在 0~65536 的范圍里,它的精度就是輸入信號的 1/65536。樣本位數(shù)的大小影響到聲音的質(zhì)量,位數(shù)越多,聲音的質(zhì)量越高,而需要的存儲空間也越多;位數(shù)越少,聲音的質(zhì)量越低,需要的存儲空間越少。
  采樣精度的另一種表示方法是信號噪聲比,簡稱為信噪比(signal-to-noise ratio,SNR),并用下式計(jì)算:
    SNR=10log[(Vsignal)2/(Vnoise)2]=20log(Vsignal/Vnoise)
其中,Vsignal表示信號電壓,Vnoise表示噪聲電壓;SNR的單位為分貝(db)
  例1:假設(shè)Vnoise=1,采樣精度為1位表示Vsignal=21,它的信噪比SNR=6分貝。
  例2:假設(shè)Vnoise=1,采樣精度為16位表示Vsignal=216,它的信噪比SNR=96分貝。

2.2.6 聲音質(zhì)量與數(shù)據(jù)率

  根據(jù)聲音的頻帶,通常把聲音的質(zhì)量分成5個等級,由低到高分別是電話(telephone)、調(diào)幅(amplitude modulation,AM)廣播、調(diào)頻(frequency modulation,F(xiàn)M)廣播、激光唱盤(CD-Audio)和數(shù)字錄音帶(digital audio tape,DAT)的聲音。在這5個等級中,使用的采樣頻率、樣本精度、通道數(shù)和數(shù)據(jù)率列于表2–01。

表2–01 聲音質(zhì)量和數(shù)據(jù)率

質(zhì)量

采樣頻率
(kHz)

樣本精度
(bit/s)

單道聲/立體聲

數(shù)據(jù)率(kB/s)
(未壓縮)

頻率范圍

電話*

8

8

單道聲

8

200~3 400 Hz

AM

11.025

8

單道聲

11.0

20~15 000Hz

FM

22.050

16

立體聲

88.2

50~7 000Hz

CD

44.1

16

立體聲

176.4

20~20 000 Hz

DAT

48

16

立體聲

192.0

20~20 000 Hz

* 電話使用m律編碼,動態(tài)范圍為13位,而不是8位(詳見第3章)

2.3 聲音文件的存儲格式

  如同存儲文本文件一樣,存儲聲音數(shù)據(jù)也需要有存儲格式。在因特網(wǎng)上和各種機(jī)器上運(yùn)行的聲音文件格式很多,但目前比較流行的有以.wav (waveform),.au(audio),.aiff(Audio Interchangeable File Format)和.snd(sound)為擴(kuò)展名的文件格式。.wav格式主要用在PC上,.au主要用在Unix工作站上,.aiff和snd主要用在蘋果機(jī)和美國視算科技有限公司(Silicon Graphics,Inc.,SGI)的工作站上。
  用 .wav 為擴(kuò)展名的文件格式稱為波形文件格式(WAVE File Format),它在多媒體編程接口和數(shù)據(jù)規(guī)范1.0(Multimedia Programming Interface and Data Specifications 1.0)文檔中有詳細(xì)的描述。該文檔是由IBM和微軟公司于1991年8月聯(lián)合開發(fā)的,它是一種為交換多媒體資源而開發(fā)的資源交換文件格式(Resource Interchange File Format,RIFF)。
  波形文件格式支持存儲各種采樣頻率和樣本精度的聲音數(shù)據(jù),并支持聲音數(shù)據(jù)的壓縮。波形文件有許多不同類型的文件構(gòu)造塊組成,其中最主要的兩個文件構(gòu)造塊是Format Chunk(格式塊)和Sound Data Chunk(聲音數(shù)據(jù)塊)。格式塊包含有描述波形的重要參數(shù),例如采樣頻率和樣本精度等,聲音數(shù)據(jù)塊則包含有實(shí)際的波形聲音數(shù)據(jù)。RIFF中的其他文件塊是可選擇的。它的簡化結(jié)構(gòu)如圖2–03所示。


圖2–03 WAVE文件結(jié)構(gòu)

  如果讀者需要非常深入和詳細(xì)的文件格式的資料,請參看[3]。此外,為便于讀者辨認(rèn)文件的屬性,表2–02列出了部分聲音文件的后綴。

表2-02 常見的聲音文件擴(kuò)展名

文件的擴(kuò)展名

說明

au

Sun和NeXT公司的聲音文件存儲格式(8位m 律編碼或者16位線性編碼)

aif(Audio Interchange)

Apple計(jì)算機(jī)上的聲音文件存儲格式

cmf(Creative Music Format)

聲霸(SB)卡帶的MIDI文件存儲格式

mct

MIDI文件存儲格式

mff(MIDI Files Format)

MIDI文件存儲格式?

mid(MIDI)

Windows的MIDI文件存儲格式

mp2

MPEG Layer I , II

mp3

MPEG Layer III

mod(Module)

MIDI文件存儲格式

rm(RealMedia)

RealNetworks公司的流放式聲音文件格式

ra(RealAudio)

RealNetworks公司的流放式聲音文件格式

rol

Adlib聲音卡文件存儲格式

snd(sound)

Apple計(jì)算機(jī)上的聲音文件存儲格式

seq

MIDI文件存儲格式

sng

MIDI文件存儲格式

voc(Creative Voice)

聲霸卡存儲的聲音文件存儲格式

wav(Waveform)*

Windows采用的波形聲音文件存儲格式

wrk

Cakewalk Pro軟件采用的MIDI文件存儲格式

  *支持PCM,ADPCM,m 率和A率波形(詳見第3章)

2.4 聲音工具

  聲音工具(audio tools)用來錄放、編輯和分析聲音文件。聲音工具使用得相當(dāng)普遍,但它們的功能相差很大。下面列出了比較常見的幾種工具。
  1. Windows 95/98本身帶的“Sound Recorder”
  當(dāng)你在英文版Windows 95/98的界面上單擊:
  Start→Programs→Accessories→Multimedia/Entertainment→單擊Sound Recorder 之后就調(diào)出如圖2–04所示的窗口。使用它可錄音,作簡單的聲音編輯(如插入、刪除等)。


圖2–04 Windows的錄音器

  2. 買聲音卡時帶的工具
  如果你的計(jì)算機(jī)安裝有聲音卡,一般來說都附帶有聲音工具。例如,聲霸(Sound Blaster)卡帶有幾種聲音工具,通常要由用戶自己安裝。其中,功能比較強(qiáng)的是WaveStudio,它的用戶界面如圖2–05所示。


圖2–05 Creative Wave Studio Version 4.00的用戶界面

  3. 網(wǎng)絡(luò)上下載的工具
  因特網(wǎng)上有許多站點(diǎn)提供試用的或者是免費(fèi)的聲音工具。圖2–06所示的就是從[4]上下載供試用的Cool Edit工具,它很受聲音研究工作者的歡迎。類似的工具還有g(shù)oldwave公司的聲音工具,網(wǎng)址:
  http://www. (瀏覽日期:1999年1月31日),Cakewalk,Cubase等。


圖2–06 Cool Edit 96的用戶界面

2.5 聲音質(zhì)量的度量

  聲音質(zhì)量的評價(jià)是一個很困難的問題,目前還在繼續(xù)研究的課題。前面介紹了用聲音信號的帶寬來衡量聲音的質(zhì)量,等級由高到低依次是DAT,CD,F(xiàn)M,AM和數(shù)字電話。此外,聲音質(zhì)量的度量還有兩種基本的方法:一種是客觀質(zhì)量度量,另一種是主觀質(zhì)量度量。評價(jià)語音質(zhì)量時,有時同時采取兩種方法評估,有時以主觀質(zhì)量度量為主。
  聲音客觀質(zhì)量的度量主要用信噪比(signal to niose ratio,SNR),詳細(xì)計(jì)算可參看[2][3]。
  與用SNR客觀質(zhì)量度量相比較,應(yīng)該可以說人的感覺(如聽覺、視覺等)更具有決定意義,感覺上的、主觀上的測試應(yīng)該成為評價(jià)聲音質(zhì)量和圖像質(zhì)量不可缺少的部分。而有的學(xué)者則認(rèn)為,在語音和圖像信號編碼中使用主觀質(zhì)量度量比使用客觀質(zhì)量度量更加恰當(dāng),更有意義。可是一般來說,可靠的主觀度量值也是比較難獲得的,所獲得的值也是一個相對值。
  主觀度量聲音質(zhì)量的方法類似于電視節(jié)目中的歌手比賽,由評委對每個歌手的表現(xiàn)進(jìn)行評分,然后求出平均值。對聲音質(zhì)量的度量也可以使用類似的方法,召集若干實(shí)驗(yàn)者,由他們對聲音質(zhì)量的好壞進(jìn)行評分,求出平均值作為對聲音質(zhì)量的評價(jià)。這種方法稱為主觀平均判分法,所得的分?jǐn)?shù)稱為主觀平均(mean opinion score,MOS)分。
  現(xiàn)在,對聲音主觀質(zhì)量度量比較通用的標(biāo)準(zhǔn)是5分制,各檔次的評分標(biāo)準(zhǔn)見表2-03。

表2-03 聲音質(zhì)量評分標(biāo)準(zhǔn)

分?jǐn)?shù)

質(zhì)量級別

失真級別

5

 優(yōu)(Excellent)

 無察覺

4

 良(Good)

 (剛)察覺但不討厭

3

 中(Fair)

 (察覺)有點(diǎn)討厭

2

 差(Poor)

 討厭但不反感

1

 劣(Bad)

 極討厭(令人反感)

2.6 電子樂器數(shù)字接口(MIDI)系統(tǒng)

2.6.1 MIDI簡介

  MIDI是Musical Instrument Digital Interface的首寫字母組合詞,可譯成“電子樂器數(shù)字接口”。用于在音樂合成器(music synthesizers)、樂器(musical instruments)和計(jì)算機(jī)之間交換音樂信息的一種標(biāo)準(zhǔn)協(xié)議。從20世紀(jì)80年代初期開始,MIDI已經(jīng)逐步被音樂家和作曲家廣泛接受和使用。MIDI是樂器和計(jì)算機(jī)使用的標(biāo)準(zhǔn)語言,是一套指令(即命令的約定),它指示樂器即MIDI設(shè)備要做什么,怎么做,如演奏音符、加大音量、生成音響效果等。MIDI不是聲音信號,在MIDI電纜上傳送的不是聲音,而是發(fā)給MIDI設(shè)備或其它裝置讓它產(chǎn)生聲音或執(zhí)行某個動作的指令。
  MIDI標(biāo)準(zhǔn)之所以受到歡迎,主要是它有下列幾個優(yōu)點(diǎn):生成的文件比較小,因?yàn)镸IDI文件存儲的是命令,而不是聲音波形;容易編輯,因?yàn)榫庉嬅畋染庉嬄曇舨ㄐ我菀椎枚?;可以作背景音樂,因?yàn)镸IDI音樂可以和其它的媒體,如數(shù)字電視、圖形、動畫、話音等一起播放,這樣可以加強(qiáng)演示效果。
  產(chǎn)生MIDI樂音的方法很多,現(xiàn)在用得較多的方法有兩種:一種是(frequency modulation,F(xiàn)M)合成法,另一種是樂音樣本合成法,也稱為波形表(Wavetable)合成法。這兩種方法目前主要用來生成音樂。在介紹MIDI之前先簡單介紹FM合成法,然后介紹樂音樣本合成法,再介紹MIDI系統(tǒng)。

2.6.2 FM合成聲音

  音樂合成器的先驅(qū)Robert Moog采用了模擬電子器件生成了復(fù)雜的樂音。20世紀(jì)80年代初,美國斯坦福大學(xué)(Stanford University)的一名叫John Chowning的研究生發(fā)明了一種產(chǎn)生樂音的新方法,這種方法稱為數(shù)字式頻率調(diào)制合成法(digital frequency modulation synthesis),簡稱為FM合成器。他把幾種樂音的波形用數(shù)字來表達(dá),并且用數(shù)字計(jì)算機(jī)而不是用模擬電子器件把它們組合起來,通過數(shù)模轉(zhuǎn)換器(digital to analog convertor,DAC)來生成樂音。斯坦福大學(xué)得到了發(fā)明專利,并且把專利權(quán)授給Yamaha公司,該公司把這種技術(shù)做在集成電路芯片里,成了世界市場上的熱門產(chǎn)品。FM合成法的發(fā)明使合成音樂工業(yè)發(fā)生了一次革命。
  FM合成器生成樂音的基本原理如圖2-07所示。它由5個基本模塊組成:數(shù)字載波器、調(diào)制器、聲音包絡(luò)發(fā)生器、數(shù)字運(yùn)算器和模數(shù)轉(zhuǎn)換器。數(shù)字載波器用了3個參數(shù):音調(diào)(pitch)、音量(volume)和各種波形(wave);調(diào)制器用了6個參數(shù):頻率(frequency)、調(diào)制深度(depth)、波形的類型(type)、反饋量(feedback)、顫音(vibrato)和音效(effect);樂器聲音除了有它自己的波形參數(shù)外,還有它自己的比較典型的聲音包絡(luò)線,聲音包絡(luò)發(fā)生器用來調(diào)制聲音的電平,這個過程也稱為幅度調(diào)制(amplitude modulation),并且作為數(shù)字式音量控制旋鈕,它的4個參數(shù)寫成ADSR,這條包絡(luò)線也稱為音量升降維持靜音包絡(luò)線(Attack,decay,sustain,release,ADSR)包絡(luò)線。


圖2-07 FM聲音合成器的工作原理

  在樂音合成器中,數(shù)字載波波形和調(diào)制波形有很多種,不同型號的FM合成器所選用的波形也不同。圖2-08是Yamaha OPL-III數(shù)字式FM合成器采用的波形。


圖2-08 聲音合成器的波形

  各種不同樂音的產(chǎn)生是通過組合各種波形和各種波形參數(shù)并采用各種不同的方法實(shí)現(xiàn)的。用什么樣的波形作為數(shù)字載波波形、用什么樣的波形作為調(diào)制波形、用什么樣的波形參數(shù)去組合才能產(chǎn)生所希望的樂音,這就是FM合成器的算法。
  ●通過改變圖2-07中所示的參數(shù),可以生成不同的樂音,例如:
  ●改變數(shù)字載波頻率可以改變樂音的音調(diào),改變它的幅度可以改變它的音量。

  ●改變波形的類型,如用正弦波、半正弦波或其它波形,會影響基本音調(diào)的完整性。
  ●快速改變調(diào)制波形的頻率(即音調(diào)周期)可以改變顫音的特性。
  ●改變反饋量,就會改變正常的音調(diào),產(chǎn)生刺耳的聲音。
  選擇的算法不同,載波器和調(diào)制器的相互作用也不同,生成的音色也不同。
  在多媒體計(jì)算機(jī)中,圖2-07中的13個聲音參數(shù)和算法共14個控制參數(shù)以字節(jié)的形式存儲在聲音卡的ROM中。播放某種樂音時,計(jì)算機(jī)就發(fā)送一個信號,這個信號被轉(zhuǎn)換成ROM的地址,從該地址中取出的數(shù)據(jù)就是用于產(chǎn)生樂音的數(shù)據(jù)。FM合成器利用這些數(shù)據(jù)產(chǎn)生的樂音是否真實(shí),它的真實(shí)程度有多高,這就取決于可用的波形源的數(shù)目、算法和波形的類型。

2.6.3 樂音樣本合成聲音

  使用FM合成法來產(chǎn)生各種逼真的樂音是相當(dāng)困難的,有些樂音幾乎不能產(chǎn)生,因此很自然地就轉(zhuǎn)向樂音樣本合成法。這種方法就是把真實(shí)樂器發(fā)出的聲音以數(shù)字的形式記錄下來,播放時改變播放速度,從而改變音調(diào)周期,生成各種音階的音符。
  樂音樣本的采集相對比較直觀。音樂家在真實(shí)樂器上演奏不同的音符,選擇44.1 kHz的采樣頻率、16位的樂音樣本,這相當(dāng)于CD-DA的質(zhì)量,把不同音符的真實(shí)聲音記錄下來,這就完成了樂音樣本的采集。
  樂音樣本通常放在ROM芯片上,ROM是超大規(guī)模集成電路(very large scale integrated,VLSI)芯片。使用樂音樣本合成器的原理框圖如圖2-09所示。


圖2-09 樂音樣本合成器的工作原理

  樂音樣本合成器所需要的輸入控制參數(shù)比較少,可控的數(shù)字音效也不多,大多數(shù)采用這種合成方法的聲音設(shè)備都可以控制聲音包絡(luò)的ADSR參數(shù),產(chǎn)生的聲音質(zhì)量比FM合成方法產(chǎn)生的聲音質(zhì)量要高。

2.6.4 電子樂器數(shù)字接口(MIDI)系統(tǒng)

  MIDI協(xié)議提供了一種標(biāo)準(zhǔn)的和有效的方法,用來把演奏信息轉(zhuǎn)換成電子數(shù)據(jù)。MIDI信息是以“MIDI messages”傳輸?shù)?,它可以被認(rèn)為是告訴音樂合成器(music synthesizer)如何演奏一小段音樂的一種指令,而合成器把接收到的MIDI數(shù)據(jù)轉(zhuǎn)換成聲音。國際MIDI協(xié)會(International MIDI Association)出版的MIDI 1.0規(guī)范對MIDI協(xié)議作了完整的說明。
  MIDI數(shù)據(jù)流是單向異步的數(shù)據(jù)位流(bit stream),其速率為31.25 kbps,每個字節(jié)為10位(1位開始位,8位數(shù)據(jù)位和1位停止位)。MIDI樂器上的MIDI接口通常包含3種不同的MIDI連接器,用IN(輸入), OUT(輸出)和THRU(穿越)。MIDI數(shù)據(jù)流通常由MIDI控制器(MIDI controller)產(chǎn)生,如樂器鍵盤(musical instrument keyboard),或者由MIDI音序器(MIDI sequencer)產(chǎn)生。MIDI控制器是當(dāng)作樂器使用的一種設(shè)備,在播放時把演奏轉(zhuǎn)換成實(shí)時的MIDI數(shù)據(jù)流,MIDI音序器是一種裝置,允許MIDI數(shù)據(jù)被捕獲、存儲、編輯、組合和重奏。來自MIDI控制器或者音序器的MIDI數(shù)據(jù)輸出通過該裝置的MIDI OUT連接器傳輸。
  通常,MIDI數(shù)據(jù)流的接收設(shè)備是MIDI聲音發(fā)生器(MIDI sound generator)或者M(jìn)IDI聲音模塊(MIDI sound module),它們在MIDI IN端口接收MIDI信息(MIDI messages),然后播放聲音。圖2-10表示的是一個簡單的MIDI系統(tǒng),它由一個MIDI鍵盤控制器和一個MIDI聲音模塊組成。許多MIDI鍵盤樂器在其內(nèi)部既包含鍵盤控制器,又包含MIDI聲音模塊功能。在這些單元中,鍵盤控制器和聲音模塊之間已經(jīng)有內(nèi)部鏈接,這個鏈接可以通過該設(shè)備中的控制功能(local control)對鏈接打開(ON)或者關(guān)閉(OFF)。


圖2-10 簡單的MIDI系統(tǒng)

  單個物理MIDI通道(MIDI channel)分成16個邏輯通道,每個邏輯通道可指定一種樂器,如圖2-11所示。在MIDI信息(MIDI messages)中,用4個二進(jìn)制位來表示這16個邏輯通道。音樂鍵盤可設(shè)置在這16個通道之中的任何一個,而MIDI聲源或者聲音模塊可被設(shè)置在指定的MIDI通道上接收。


圖2-11 MIDI的通道概念[6]

  在一個MIDI設(shè)備上的MIDI IN連接器接收到的信息可通過MIDI THRU連接器輸出到另一個MIDI設(shè)備,并可以菊花鏈的方式連接多個MIDI設(shè)備,這樣就組成了一個復(fù)雜的MIDI系統(tǒng),如圖2-12所示。在這個例子中,MIDI鍵盤控制器對MIDI音序器(MIDI sequencer)來說是一個輸入設(shè)備,而音序器的MIDI OUT端口連接了幾個聲音模塊。作曲家可使用這樣的系統(tǒng)來創(chuàng)作幾種不同樂音組成的曲子,每次在鍵盤上演奏單獨(dú)的曲子。這些單獨(dú)曲子由音序器記錄下來,然后音序器通過幾個聲音模塊一起播放。每一曲子在不同的MIDI通道上播放,而聲音模塊可分別設(shè)置成接收不同的曲子。例如,聲音模塊#1可設(shè)置成播放鋼琴聲并在通道1接收信息,模塊2設(shè)置成播放低音并在通道5接收信息,而模塊2設(shè)置成播放鼓樂器并在通道10上接收消息等。在圖2-12中使用了多個聲音模塊同時分別播放不同的聲音信息。這些模塊也可以做在一起構(gòu)成一個叫做多音色(multitimbral)的聲音模塊,它同樣可以起到同時接收和播放多種聲音的作用。


圖2-12 復(fù)雜MIDI系統(tǒng)[6]

  圖2-13是用PC機(jī)構(gòu)造的MIDI系統(tǒng),該系統(tǒng)使用的聲音模塊就是這樣一種單獨(dú)的多音色聲音模塊。在這個系統(tǒng)中,PC機(jī)使用內(nèi)置的MIDI接口卡,用來把MIDI數(shù)據(jù)發(fā)送到外部的多音色MIDI合成器模塊。像多媒體演示程序、教育軟件或者游戲等應(yīng)用軟件,它們把信息通過PC總線發(fā)送到MIDI接口卡。MIDI接口卡把信息轉(zhuǎn)換成MIDI消息(MIDI messages),然后送到多音色聲音模塊同時播放出許多不同的樂音,例如鋼琴聲、低音和鼓聲。使用安裝在PC機(jī)上的高級的MIDI音序器軟件,用戶可把MIDI鍵盤控制器(MIDI keyboard controller)連接到MIDI接口卡的MIDI IN端口,也可以有相同的音樂創(chuàng)作功能。


圖2-13 使用PC機(jī)構(gòu)成的MIDI系統(tǒng)[6]

  使用PC機(jī)構(gòu)造MIDI系統(tǒng)可以有不同的方案。例如,可把MIDI接口和MIDI聲音模塊組合在PC添加卡上。多媒體個人計(jì)算機(jī)MPC(Multimedia PC)規(guī)范就要求PC添加卡上必須有這樣的聲音模塊,稱為合成器(synthesizer)。通過已有的電子波形來產(chǎn)生聲音的合成器稱為FM合成器(FM synthesis),而通過存儲的樂音樣本來產(chǎn)生聲音的合成器稱為波表合成器(wave table synthesis)。
  MPC(Multimedia PC)規(guī)格需要聲音卡的合成器是多音色(muti-timbral)和多音調(diào)(polyphonic)的合成器。多音色是指合成器能夠同時播放幾種不同樂器的聲音,在英文文獻(xiàn)里常看到用voices和patches來表示,音色就是把一個人說話(或一種樂器)的聲音與另一個人說話(或另一種樂器)的聲音區(qū)分開來的音品;多音調(diào)是指合成器一次能夠播放的音符(note)數(shù)。MPC規(guī)格定義了兩種音樂合成器:基本合成器(Base-level synthesizer)和擴(kuò)展合成器(Extended synthesizer),基本合成器和擴(kuò)展合成器之間的差別如表01所示。

表2-04 基本合成器和擴(kuò)展合成器之間的差別

合成器名稱

旋律樂器聲
(melodic instruments)

打擊樂器聲
(percussive instruments)

(synthesizer)

音色數(shù)
(timbres)

音調(diào)數(shù)
(polyphony)

音色數(shù)
(timbres)

音調(diào)數(shù)
(polyphony)

基本合成器

3種音色

6個音符

3種音色

3個音符

擴(kuò)展合成器

9種音色

16個音符

8種音色

16個音符

  基本合成器必須具有同時播放3種旋律音色和3種打擊音色(鼓樂)的能力,而且還必須具有同時播放6個旋律音符和3個打擊音符的能力,因此,基本合成器具有9種音調(diào);擴(kuò)展合成器要能夠同時播放9種旋律音色和8種打擊音色。

2.6.5 MIDI消息

  MIDI設(shè)備使用的一系列MIDI音符,可被認(rèn)為是告訴音樂合成器如何播放一小段音樂的指令。因?yàn)镸IDI數(shù)據(jù)是一套音樂符號的定義,而不是實(shí)際的音樂聲音,因此MIDI文件的內(nèi)容被稱為MIDI消息(MIDI messages)。一個MIDI消息由1個8位的狀態(tài)字節(jié)并通常跟著2個數(shù)據(jù)字節(jié)組成。在狀態(tài)字節(jié)中,最高有效位設(shè)置成“1”,低4位用來表示這個MIDI消息是屬于哪個通道,4位可表示16個可能的通道,其余3位的設(shè)置表示這個MIDI消息是什么類型的消息。MIDI消息可分成通道消息(Channel Messages)和系統(tǒng)消息(System Messages)兩大類,如圖12-14所示。
  MIDI通道消息可分成通道聲源消息(Voice Messages)�攜帶的演奏數(shù)據(jù),和通道方式消息(Mode Messages)—表示合成器響應(yīng)MIDI數(shù)據(jù)的方式;MIDI系統(tǒng)消息分成公共消息(Common Messages)—標(biāo)識在系統(tǒng)中的所有接收器、實(shí)時消息(Real Time Messages)—用于MIDI部件之間的同步和獨(dú)占消息(Exclusive Messages)—廠商的標(biāo)識代碼。


圖2-14 MIDI信息

2.6.6 MIDI音序器和標(biāo)準(zhǔn)MIDI文件

  MIDI合成器實(shí)時接收和處理MIDI消息(MIDI messages)。當(dāng)合成器接收到一個“note on (樂音開)”MIDI消息時就演奏相應(yīng)的聲音,當(dāng)接收到一個“note off (樂音關(guān))”MIDI消息時就停止演奏。如果MIDI數(shù)據(jù)源是樂器鍵盤,“note on”消息就實(shí)時產(chǎn)生,在像這樣的實(shí)時應(yīng)用中,就無需與MIDI消息一起發(fā)送一個定時信息。如果MIDI數(shù)據(jù)存儲成數(shù)據(jù)文件,或者使用音序器編輯的數(shù)據(jù)文件,MIDI消息就需要某種形式的定時標(biāo)記(time-stamping)。
  國際MIDI協(xié)會(International MIDI Association)出版了標(biāo)準(zhǔn)MIDI文件(Standard MIDI Files)規(guī)范,該標(biāo)準(zhǔn)說明了處理定時標(biāo)記MIDI數(shù)據(jù)的一種標(biāo)準(zhǔn)化方法。這種方法適合各種應(yīng)用軟件共享MIDI數(shù)據(jù)文件,這些軟件包括音序器、樂譜軟件包和多媒體演示軟件。
  標(biāo)準(zhǔn)MIDI文件(Standard MIDI File)規(guī)范定義了3種MIDI文件格式,MIDI音序器能夠管理文件標(biāo)準(zhǔn)規(guī)定的多個MIDI數(shù)據(jù)流,即聲軌(tracks)。MIDI文件格式0(Format 0)規(guī)定所有MIDI音序數(shù)據(jù)(MIDI sequence data)必須存儲在單個聲軌上,它僅用于簡單的單聲軌設(shè)備;MIDI文件格式1(Format 1)規(guī)定數(shù)據(jù)以一個聲軌集的方式存儲;MIDI文件格式2(Format 2)可用幾個獨(dú)立模式存儲數(shù)據(jù)。

2.6.7 合成器的多音調(diào)和多音色

  合成器或者聲音發(fā)生器的多音調(diào)(polyphony)是一次演奏多個音符(note)的能力。大多數(shù)早期的音樂合成器是單音調(diào)的,即一次僅演奏一個音符。如果在裝配有單音調(diào)合成器(monophonic synthesizer)的鍵盤上同時按下5個鍵,只能聽到一個音符的聲音;如果在裝配有能支持4個音調(diào)的合成器的鍵盤上同時按下5個鍵,可產(chǎn)生4個音符的聲音。許多現(xiàn)代的聲音模塊有16,24或者32個音符的復(fù)調(diào)音。
  合成器或者聲音發(fā)生器能夠產(chǎn)生的不同聲音一般用配音(patche)、指令(program)、算法(algorithm)、聲音(sound)或者音色(timbre)來表示?,F(xiàn)代合成器通常使用指令號(program number)來表示它們產(chǎn)生的不同聲音。使用指令號(program number)或者配音號(patch number)來指定想要獲得的聲音(sound)。例如,一個聲音模塊可使用配音#1(patch number 1)來產(chǎn)生鋼琴聲,配音#36(patch number 36)產(chǎn)生低音弦樂器聲。配音號和聲音之間的對關(guān)系稱為配音映射(patch map)。一個MIDI Program Change(MIDI指令變化)消息可用來告訴在給定通道上正在接收消息的設(shè)備要使用新的樂器聲。例如,使用指令號36的數(shù)據(jù)字節(jié)(見附錄1:General MIDI program number)并通過發(fā)送一個MIDI Program Change消息,音序器可在通道4上設(shè)置演奏低音弦樂器聲(fretless bass sounds)。
  如果一個合成器或者聲音發(fā)生器能夠同時產(chǎn)生2個或者2個以上的不同樂音,就說這個合成器或者聲音發(fā)生器是多音色(multi-timbral)的。例如,如果一個合成器能夠同時演奏5個音調(diào)(notes),就說它是多音調(diào)的(polyphonic);如果一個合成器也能夠同時產(chǎn)生鋼琴聲(piano sound)和低音(bass sound),就說它是一個多音色(multi-timbral)合成器。如果有24個音調(diào)(同時播放24個音符)并且是6種音色(同時產(chǎn)生6 種不同音色)的一種合成器或者聲音模塊,它可合成6種管弦樂隊(duì)的聲音。音序器可把鋼琴部分的MIDI消息發(fā)送給通道1,低音部分的MIDI消息發(fā)送給通道2,薩克斯管部分的MIDI消息發(fā)送給通道3,鼓聲部分的MIDI消息發(fā)送給通道10,等。一個多音色合成器(multi-timbral synthesizer)的多音調(diào)(polyphony)通常是動態(tài)分配的。在上面的例子中,例如5種聲源可用于鋼琴,2個聲源用于低音,一個用于薩克斯管,6個聲源用于鼓樂,剩下10沒有使用。

2.6.8 通用MIDI(GM)

  通用MIDI規(guī)范(General MIDI Specification)是由國際MIDI協(xié)會(International MIDI Association)頒布的,用于通用MIDI樂器(General MIDI Instruments)。該規(guī)范包括通用MIDI聲音集(General MIDI Sound Set)即配音映射(patch map)、通用MIDI打擊樂音集(General MIDI Percussion Set)即打擊樂音與音符號之間的映射、以及一套通用MIDI演奏(General MIDI Performance)能力,包括聲音數(shù)目和MIDI消息類型等。
  通用MIDI系統(tǒng)規(guī)定MIDI通道1~9和11~16用于旋律樂器聲,而通道10用于以鍵盤為基礎(chǔ)的打擊樂器聲。

練習(xí)與思考題

  • 音頻信號的頻率范圍大約多少?話音信號頻率范圍大約多少?
  • 什么叫做模擬信號?什么叫做數(shù)字信號?
  • 什么叫做采樣?什么叫做量化?什么叫做線性量化?什么叫做非線性量化?
  • 采樣頻率根據(jù)什么原則來確定?
  • 樣本精度為8位的信噪比等于多少分貝?
  • 聲音有哪幾種等級?它們的頻率范圍分別是什么?
  • 選擇采樣頻率為22.050 kHz和樣本精度為16位的錄音參數(shù)。在不采用壓縮技術(shù)的情況下,計(jì)算錄制2分鐘的立體聲需要多少M(fèi)B(兆字節(jié))的存儲空間(1MB=1024×1024B)
  • 什么叫做MIDI?它有什么特點(diǎn)?
  • 用自己的語言說明FM合成聲音和樂音樣本合成聲音的思想。

參考文獻(xiàn)和站點(diǎn)

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多