小小的測試....AAC/AC3/MP2/MP3

b4283 · 文章由 **b4283** » 2002-01-19 13:03

找到一篇文章
討論 mp3,mpc,ogg 及 aac 的未來發展
可以看看 (現在我又從 mpc 被誘向 ogg 了)

http://www.hydrogenaudio.org/forums/sho ... 3#post6743

TMNEXT · 文章由 **TMNEXT** » 2002-01-24 21:04

重新整理了一次資料，換了圖形的表達方式，重貼一次：

今天下午自己作了一次盲目測試，用 Psytel AAC encoder Ver. 2.02
壓 AAC，mppenc-windows-0.90s 壓 MPC，Lame 3.91 壓 MP3。
AAC 用 VBR 最高品質 -ultra，MPC 用最高品質 --insane，
MP3 用 VBR 最高品質 Quality 0，Stereo，允許左右聲道使用不同的\r
block type。
播放時，AAC 用 Freeware AAC Decoder:Jan 5 2002，
MPC 用 in_mpc(0.90c)，MP3 用 MAD plug-in 0.14.1b。
把這三種壓縮後的版本和原始 WAVE 檔各聽幾遍，
在知道自己聽的是哪一種版本的情況下，結論是 MPC 最好聽，
AAC 最正確，MP3 最爛。
然後把播放清單用紙遮起來，亂數打散，距離喇叭一段距離，
一邊上網一邊聽。

聽完以後猜猜看，依序各是哪個版本的聲音。
我是沒指望能分辦出 AAC/MPC/MP3 的不同，不過應該可以把原始
WAVE 給找出來吧。
結果....
猜了四次，四次全猜錯，連原始 WAVE 也認不出來....

可惡，好吧這次不上網了，專心聽....
很用力的聽了三次，還是猜錯三次....

如果去記憶某些"特徵"點的話，可以勉強猜得出來原始 WAVE
是哪一個，不過有時還是會錯，而且平時聽音樂沒人這樣聽的，
就算能分辨出來，意義也不大。

我自己是聽不出來了，有許有人可以聽出來吧。\r

....到底聲音差在哪裡呢？
我禁不住好奇，決定用 WaveLab 提供的 File Comparer 功能來一探究竟。\r
File Comparer 是用來比較兩個 WAVE 檔的差異，並且將兩的"差"（Delta）
輸出成一個 Delta Wave File。聽這個 Delta Wave File，你就可以很清楚的
聽到，這兩個 WAVE 檔不同的地方聲音是什麼樣子。
這個功能原來是設計用來讓你比較，加了效果器，和沒加效果器之前的\r
WAVE 檔兩者有什麼細微差異，剛好很適合用來在這裡使用。
我用的曲子是 I've 的「freak of nature」，取前面 2:32 的片段，
結尾的地方作個 fade out。
將壓縮的檔案 Decode 還原成 WAVE，對齊 sample 以後，作 File Compare。
聽聽看輸出的 Delta File，結果...差異真明顯！差異的音量很大，
不必開得很大聲就可以聽得到！

將差異的 Delta File 作頻譜分析
橫軸是頻率，從 20Hz 到 20KHz，刻度採 Log 分佈，低頻的部分
比較寬一點，越高頻越窄，這種圖比較好觀察比較重要的低頻。
縱軸是音量，單位是 dB，範圍是 -45~-80dB 之間。
差異量（曲線）越低越好。
各種 Encoder 最高品質時的比較

一般品質時的比較

AAC 對 MPC

AAC 對 MP3

本來是想貼原本 WAVE 的頻譜分析，而不是 Delta File 的頻譜分析，
不過我發現一旦平均下去（整首曲子 scan 一遍），三種 Encoder 的頻譜
就會非常趨近原始波形，很難比較。
而且整首曲子的頻譜是有時間變化的，可能前一秒鐘曲線在原始波形的上方，
下一秒鐘變到原始波形的下方，從來沒有對齊過的，結果平均以後，
反而變成剛剛好對齊，這樣就看不出來到底一不一樣了。
所以最後就改貼這種差異量的頻譜，這樣有一個好處是，
比較直接，免去一些曖昧的心理因素，
聽到的就是差異不一樣的地方，看到的就是相差的音量。

3D Frequency Analysis
橫軸（X 軸）是頻率，從 20Hz 到 20KHz，縱軸（Y 軸）是時間，
從 0 ms 到 2:32，豎起來的（Z 軸）則是音量，山峰越高，
差異的音量就越大。
不同顏色代表不同音量差異，
差異量小的用紅色 --> 差異量大的用紫色。
這種圖比較好看出不同時間的變化。
AAC -ultra

MPC --insane

MP3 -V 0

AAC 的頻譜看起來很嚴重，但是實際上聽的時候，這些 Distortion
都剛剛好在可聽聞的臨界值（threshold）以下，所以這些失真都被
"藏起來"了，根本聽不到！實際上聆聽 AAC 的 Delta File 時，
可聽聞的差異音量很小聲，而且都是在人耳較不敏感的區域範圍內。
而 MPC 的差異最為明顯，它剛好有一段差異量落在這首歌女聲高頻的部分
我當初聽的時候有種感覺，MPC 的音色和原來的 WAVE 有很明顯的不一樣，
可能就是因為這最為突出的女聲 vocal 的變化所致。
另外 MPC 還很倒楣的，有一段高頻的差異量剛好落在人耳很敏感的區域，
所以它的 Delta File，聽起來是三者中最為明顯的。
至於 MP3，出乎意料之外的，竟然非常好

在知道播放的是哪一個版本的情況下時，我原來主觀的認定，
MP3 是最爛的（大概是因為它開發的最早，技術過時，加上以前不好的
印象...），結果它的頻譜非常漂亮，雖然高頻在 19KHz 以上就被砍光，
不過人耳比較敏感的低頻的部分差異量極小，實際上聆聽 Delta File
果然也如同頻譜顯示，差異的聲音大部分集中在人耳非常不敏感的區域。

ps:有一個陷阱是，這些 Delta File 被獨立拿出來聽，
就忽略了原本 WAVE 檔中，其他頻率聲音的遮蔽效應。
獨立聽很明顯，也許混進去聽就聽不出來了。\r
總之這些圖形和 Delta File 多少代表了一些 Encoder 的特性。

ps2:sample 對齊時，前段、中段、後段各檢查一次，以 sample 為單位，
比較鄰近波形的特徵點，尤其是選擇 zero crossing（穿越 0 軸）
的地方作為比對的基準，比對了三次，而且如果沒有對準，Delta File
放起來不會是局部片段、欠缺的聲音，而是整首歌重複，類似回音的聲音，
很好判斷，所以應該是都對齊了。

ps3:
pre-echo: AAC 有，不過很輕微。MPC 還是和以前一樣，幾乎沒有 pre-echo。
MP3 老樣子，有可以"看"得到的 pre-echo。

AAC 不知道是 bug 還是怎樣，有可聽聞（單獨聽 Delta File 時）的 artifact。


[ 這篇文章在 2002-01-24 21:09 被 TMNEXT 編輯過 ]

Xcycl · 文章由 **Xcycl** » 2002-01-24 21:38

嗯...如果用圖形來分析的話，我覺得應該用CBR會
比較合適，不然這樣就有點不公平了。難道沒發現
圖形大致上都是流量大的比較漂亮嗎...

[ 這篇文章在 2002-01-24 21:40 被 Xcycl 編輯過 ]

kouyoumin · 文章由 **kouyoumin** » 2002-01-25 08:58

好漂亮的圖...

要不要再來個相同Bitrate下的公平決鬥?

TMNEXT · 文章由 **TMNEXT** » 2002-01-26 02:57

當然有注意到

真的要拼 Encoder，看看 Encoder 的能耐的話：
因為 MPC/AAC/Ogg 三者其實都是 VBR，所以 MP3 也用 ABR 下去拼
MPC/MP3/AAC(-production)/Ogg(RC3)

縱軸的音量範圍是 -45~-72dB
圖形很複雜 ^^;
線性頻譜，每個 narrowband 的寬度都一樣，這種圖比較好觀察高頻

MP3 從 14KHz 以後就全部砍光，所有的 Encoder 在 16KHz 以後
也全都砍光（這首歌很難壓？）。
（20KHz 以後差異量減小，這是因為原始 WAVE 在 20KHz 以後訊號就小，
因此即使全砍光了，差異也不大）
光看這樣的頻譜，實在很難了解差異的部分聽起來到底是怎樣。
我只能說，如果實際聽的話，絕大部分的人應該都會同意 MP3 是最爛的。

補上 Ogg 的高品質比較，鎖定的目標是 MPC

線性頻譜

結果 Ogg/MPC 的特性是南轅北轍

這個圖也很複雜 ^^;
不用聽的光用看的實在很難想像...
可是原始檔案和 Delta File 都很大，不可能給大家下載回去試聽...
可以參考這個 ATH 的曲線，猜測一下各個頻率的影響力
http://www.iis.ee.ic.ac.uk/~frank/surp9 ... htm#Psycho
http://home.tir.com/~ms/concepts/concepts.html#levels
http://home.tir.com/~ms/concepts/concepts.html
equal loudness curves
http://fridge.arch.uwa.edu.au/topics/ac ... tours.html
http://www.jimprice.com/prosound/db.htm#spl

Ogg 在 16KHz 以後並不是全砍光，而是隨著時間不停變化，作選擇性的刪除。
有時候刪得多，有時候刪得少。
（這個從上面的平均圖就看不出來，所以說光看圖形是有陷阱的，
遇到有劇烈變化的情形，這個靜態圖就不準了）
3D Frequency Analysis

高頻的部分紅黃色（差異量小）和藍紫色（差異量大）交替著出現，
不像低頻的部分，變化比較平緩。
（這個 3D 圖請不要拿來和上面其他 Encoder 的 3D 圖作比較，
為了方便讓大家看見高頻變化的情形，我旋轉了座標，
又把 Z 軸的音量單位改為 Linear，不是原來的 Log，
所以不能拿來和上面的 3D 圖比較）

四者的 Delta File 在音效卡輸出音量低於一定以下就聽不太到了，
數值分別是：
Ogg -40dB
AAC -46dB
MP3 -46dB
MPC -48dB
例如 Ogg 的 Delta File，一定要開得比較大聲，大於 -40dB 以上，
我才聽得到，換句話說，Ogg 的差異量比較不明顯。
至於好不好聽，我個人一直認為，MPC 聽起來是比較好聽的 ^^;

xexex · 文章由 **xexex** » 2002-01-26 10:33

不好意思，吐槽一下，您的測試參考價值很低。

對encoder做數學分析的話，只取樣一首絕對不夠的。
當然你上面也提到這個分析頂多只能代表encoder對每
個頻段的特性，不能代表好聽或還原能力。實際上，這個
測試只做到各個encoder對 "這一首歌" 的特性分析而已。

不過還是讓我大大開了眼界！

另外，請問你做blind測試時，找的到所謂 "MPC好聽" 的wav 檔嗎？


[ 這篇文章在 2002-01-26 10:36 被 xexex 編輯過 ]

TMNEXT · 文章由 **TMNEXT** » 2002-01-26 12:18

不好意思，吐槽一下，您的測試參考價值很低。

對encoder做數學分析的話，只取樣一首絕對不夠的。
當然你上面也提到這個分析頂多只能代表encoder對每
個頻段的特性，不能代表好聽或還原能力。實際上，這個
測試只做到各個encoder對 "這一首歌" 的特性分析而已。

不過還是讓我大大開了眼界！

另外，請問你做blind測試時，找的到所謂 "MPC好聽" 的wav 檔嗎？


嗯，我了解您的意思，我也有想到這些測試只能代表這首歌曲的性質，
不能涵蓋全部所有的情況，所以本來還想多找幾種類型的曲子，\r
如久石讓的交響曲組「大樹」來作測試，不過實在沒力 ^^;
（我前面一直忘了註明，這是一首電子舞曲，高頻很多，而且很重要，
是故意挑的；I've 作的，算電玩音樂吧

）

甚至連前面這些頻譜特性，都有可能是在這首歌曲的特質下，
心理音響模型所作的特殊判斷也說不一定，也許換了一首曲子，\r
情況會差很多。

不過這些測試，還是代表了一些，這個 Encoder 在這種輸入的情形下，
會有什麼反應和表現。
所以還是要聽過原曲之後比較有參考價值

「做盲目測試時，找得到所謂 "MPC好聽" 的wav 檔嗎？」
有啊，就是這一首

不過這是個人主觀意識，更不值得參考

前面忘了總結

結論是 1.2KHz 以前，MPC 打遍天下無敵手，1.2KHz 到 15.2KHz
Ogg 打遍天下無敵手，15.2KHz 以後，又換 MPC 無敵....
....這是什麼比法....

呃..總之就是這樣啦...，MP3 在低 bitrate 時狂爛，
到了 VBR -V 0 時則可以和 AAC 拼，雙方在中低頻表現十分接近，
高頻 MP3 是 19KHz 以後就全數刪除，AAC 則是予以保留。
AAC 確實比較厲害，可以在保留高頻的情況下顧及到低頻的表現，
不過 19KHz 以上是否有必要保留？這個問題則見人見智...
（r3mix 網站是直接建議把 19KHz 以上刪除的...）

3D Frequency Analysis
可以顯示兩者隨著時間變化幅度的情形，不過當然還是要親耳聽過
才能實際了解這些變化有什麼意義
橫軸（X 軸）是時間，左邊是 0 秒到右邊的 2:32。
縱軸（Y 軸）是頻率，線性分佈，從 20~20KHz。
越靠近我們的是低頻，離我們越遠的是高頻。
豎起來的（Z 軸）是差異音量大小。
橫著連成一條線，代表的是那個頻率點隨時間的變化。
縱著連成一條線，代表的是那個時間點所有頻譜的狀態。
不同顏色代表不同頻率，由低頻到高頻，顏色也由紅黃色 --> 藍紫色。
AAC -br256 (251.5kbps)

MP3 -V 0 (255kbps)

兩張圖的山峰高低（音量大小）請不要比較，因為顯示的是相對大小，
MP3 在 19KHz 以後因為全數砍光（紫色的地方），有一個很大的高峰，
連帶的其他頻率的山峰就被壓下去了，看起來比較低平。
所以怎麼 MP3 的圖看起來低很多，其實兩者的差異量是差不多的。
可以比較的是，"變化"程度的部分。
結論是兩者在中低頻的變化幅度都差不多，沒有極端特別的情況，
相信聽起來應該也是差不多的。
大家在 28000ms 的時候都有一個全頻域，差異量極小的情況出現
（山谷，整個凹陷下去），這是因為這首歌到那個時候，
只有幾件樂器 solo，頻譜比較不複雜，所以大家都壓得很好，
差異量都很小。

上面那個 MPC -insane+，圖形表現比原來的 -insane 好，
因為我改了一些參數，所以表現比較好，但是流量也比較高。
尤其是 600Hz 以前，差異量都在 -75dB 左右，非常可怕，
沒有一個 Encoder 比得上，而且是遠遠落後。
不過 MPC 的致命傷，從 1.2KHz 以後，到 6.2KHz 之間，
有一段極大的差異量，這也是其他 Encoder 遠遠比不上的

尤其是 3KHz ~ 5KHz 這段，是人耳最敏感的頻率區段，
很細微的音量就可以聽得很清楚（請參照 ATH 曲線）。
差異量最大的 1.4KHz ~ 2KHz，也是許多樂器基音所在的地方，\r
在這段頻帶裡有這麼大差異量，實在是很奇怪的設計。
也許這段差異，混在一起聽的時候，剛好會被遮蓋\過去，
我不知道，不過其他 Encoder 都沒有這樣的設計，
我直接聽 MPC 時也覺得音色有變化，所以就想法子想要減少這段的差異。
MPC 有提供四個參數：
--tmn Tone-is-Masking-Noise
--nmt Noise-is-Masking-Tone
Measured by Signal-to-Mask Ratio (SMR)
單位是 dB
預設值
TMN 是 18 dB
NMT 是 6 dB

--minSMR
設定 SMR 的最小值
單位是 dB
預設值是 0 dB

--ans
設定 Adaptive Noise Shaping 使用的 Filter 的 Order
0: off, 1~5: on
預設值是 5

MPC 在 Profile "Xtreme" 時的設定值
SV 7, Profile 'Xtreme'
=============================
maximum bandwidth: 22050 Hz
ANS: max. 5th order
CVD: enabled
MS : enhanced
Ltq: fil (offset: +0.0 dB, max: 83.0 dB)
NMT: 8.00 dB
TMN: 20.00 dB

MPC 在 Profile "Insane" 時的設定值
SV 7, Profile 'Insane'
=============================
maximum bandwidth: 22050 Hz
ANS: max. 2nd order
CVD: enabled
MS : enhanced
Ltq: fil (offset: -6.0 dB, max: 77.0 dB)
NMT: 9.00 dB
TMN: 24.00 dB
minimum SMR of 3.0 dB

呃..去吃飯，回來再寫....

kouyoumin · 文章由 **kouyoumin** » 2002-01-26 12:49

我前面一直忘了註明，這是一首電子舞曲，高頻很多，而且很重要，
是故意挑的；I've 作的，算電玩音樂吧

I've....這個團還真不是普通的冷門
原版難買也就罷了,竟然連盜版都不盜

TMNEXT · 文章由 **TMNEXT** » 2002-01-26 16:50

我前面一直忘了註明，這是一首電子舞曲，高頻很多，而且很重要，
是故意挑的；I've 作的，算電玩音樂吧

I've....這個團還真不是普通的冷門
原版難買也就罷了,竟然連盜版都不盜

呃，冷門嗎...

那看來我選了一首不好的示範曲

I've 將來應該會越來越紅才對，因為最近的人氣 TV 動畫新番組
「おねがい☆ティーチャ」片頭曲就是 I've 作的，主唱還是王牌 KOTOKO 姬，
可見 I've 想要跨足一般音樂領域市場的企圖心。

只是如果大家要去音樂店買這首曲子回來聽作比對，可能會很尷尬...
「老闆，我要買"愛撫"的曲子，你們有沒有？」.....

補充說明幾點：
一. 上面說這首測試用的曲子，是"故意"挑的，所謂的"故意"，有下面四個原因
1. 這首曲子運用了大量的電子樂器，其中有一種 Synth Lead（Saw）的音色，
充滿了大量的高頻泛音，和古典樂器的銅管很像，但是這種 Synth Lead 的音色
characteristic 更強，而且這首曲子用的時候，不停的改變 LPF（低通濾波器）
和 Resonace 的參數，使得音色更有特色，變化更豐富。
我想聽聽看，在面對這種涵蓋全高頻領域的樂器音色時，Encoder 是怎麼判斷
和處理的，各個 subband 砍掉的是哪些東西。
2. 這首曲子雖然有豐富的高頻，但是整體平衡感很好，聽起來不會很不舒服，
長時間大音量的聆聽下來聽覺也不會很容易覺得疲倦，這對盲目測試時有利。
3. 這首曲子不是從頭吵到尾，開頭十幾秒，只有單純的 Vocal，
之後打擊樂器才出現，然後中間又有一段單獨的 solo，編排很有層次感。
我想知道 Encoder 在聲音是什麼樣的情況下壓的會比較好。
以前我們說聲音越複雜時越難壓，波形越複雜時越難壓，
什麼樣的聲音叫複雜？什麼樣的波形叫複雜？我想測試這點。
4. 因為這首曲子好聽，所以選這首作測試.....

.......
呃.... 第二點.
我說 MPC 聽起來比較好聽，是因為我覺得 MPC 聽起來 "細節" 比較多，
聲音比較溫潤豐富，而 AAC 聽起來就冰冰冷冷的，感覺很生硬。
這是我個人的主觀感受。

第三點.
還是我個人的主觀感受，前面 AAC/MP3 ~256kbps 時，圖形看起來 MP3 似乎
比較好一點點，不過我聽的時候，還是覺得 AAC 比較正確。
為什麼？
不知道，沒研究出來

補充完畢~~

關於 MPC 的參數，等喝完下午茶之後再寫...

好累...

TMNEXT · 文章由 **TMNEXT** » 2002-01-27 09:42

從課堂的投影片抄來的
Perceptual Coding of Digital Audio
===== Masking principles =====
• Three basic types of masking
– Noise-is-Masking-Tone (NMT)
– Tone-is-Masking-Noise (TMN)
– Noise-is-Masking-Noise (NMN)
==============================
–Tone-is-Masking-Noise (TMN)
• Tone is masking narrowband noise
• Typical SMR threshold of 21 - 28 dB
• => Tones must have fairly high intensity to mask noise

–Noise-is-Masking-Tone (NMT)
• Narrowband noise is masking a tone
• Typical SMR threshold is around -5 - +5 dB
• => Noise easily masks a tone

MPC 的 Tonality Detection Algorithm 的表現
-insane
在這個例子中，剛好 TMN 每增加 4dB，前 600Hz 的 difference
就降低 4dB

如果增加 NMT，高頻的 difference 就會跟著降低，
在 2KHz 附近剛好每增加 1dB，difference 就降低差不多 1dB。
（不過 NMT 要付出很慘痛的代價，bitrate 會向上狂飆）

如果把 minimum SMR 降為 0dB，就無法達到 full bandwidth，
但是可以省 10kbps
（以這個例子來說，有許多細微的差異，不知道算不算值得）\r

Adaptive Noise Shaping
這個原作者的說明網頁是德文，看不懂，不知道是不是和 AAC 的
Temporal Noise Shaping 一樣？
TNS 是用來對付很短暫，瞬間的強烈訊號（如鼓聲的 attack），
這種瞬間的強烈訊號經過 quantize 以後，quantization noise
會擴散到整個 block，嚴重被人耳察覺的就是 pre-echo 瑕疵。
對付的方法 filter bank 可以用兩種不同的 window size，
對於一般持續穩定的訊號用 Long window size (2048 samples)，
而 attack 訊號則切換到 short window size (256 samples)。
或者是用 TNS，讓 attack 訊號的 quantization noise
剛好被 masking 而聽不到。
原作者網頁的簡短英文說明
http://www.stud.uni-hannover.de/~andbus ... ml#mp2plus
如果把 filter order 改為 1st，difference 會再下降，不過這樣的變化
究竟是好還是不好，我就不知道了。

最後，終於把 MPC 的圖形弄得比較漂亮了.....
（真空虛.....

）

-ltq 參數大概是 Listening Threshold in Quiet 的縮寫，
ISO 是用 ISO 的模型，原作者不建議，因為他說 ISO 對高頻不夠靈敏，
可是他卻可以聽得出來，所以改用 ank，高品質模式時會自動使用更為敏銳
的 fil 模型。
這點 PsyTEL 也有提到，說他們改進了 ISO 的這個缺點。
另外 PsyTEL 還說，感覺上最好的情況是平均的 distortion 在每個頻帶
都差不多相等，這樣是最好的。
（不會有特別突出的 distortion，以致於被察覺而破功？）\r
觀察 PsyTEL AAC 的 difference 頻譜，果然 distortion 是最平均的，
沒有大起大落的現象，而且也吻合 ATH 曲線，這大概是它聽起來最為正確的原因吧。

以上的推測可有誤，僅供大家參考 ^^;，如果有人知道確實的原因，
請幫忙小弟解惑，感激不盡...