我自己做的MP3 OGG頻譜分析

emukim · 文章由 **emukim** » 2006-01-23 01:45

至頂的那篇文章由於WaveSpectra使用的設定是Log 根本很難直接看出頻譜差異
http://forums.dearhoney.idv.tw/viewtopic.php?t=19810
因此我自己另外做了MP3 Ogg的比較
http://0rz.net/6811h

或許有人認定頻譜不能代表聽到的一切
但換個方向想頻譜都差了聽到的聲音一定差
單獨聽高頻聽不出來但高低頻的合成波少了高頻絕對會影響品質至少20kHz前保持不刪除音域是重點

舉個例子雷射的繞射、干涉干涉圖形是會影響到繞射圖形的
(去除掉間隔較細干涉圖形只留繞射那表現出來的絕對不是雷射)

-----------------------------------------------------------------------------------------------
更新測試
1.使用WaveSpectra內的重疊比較紅色是原始頻譜紫色是編碼後頻譜
2.MP3編碼採用-alt preset CBR (之前那次CBR使用的是Very High Quality) MP3表現有些許提昇
-----------------------------------------------------------------------------------------------
最近沒什麼大新聞 (Mame的相關新聞在這個blog是不會去討論它的我不認為他是模擬器而是一個開發計畫)

所以我就繼續3年前未完成的測試
這個測試起源於看到 MD 的ATRAC3 plus編碼比較
讓我突發一想把耳朵聽到的感覺用圖形表示出來 (感覺很難拿來比較但是可以看到的圖說服力就很大畢竟有圖有證
據!!)

採樣方式
MP3 編碼方式皆使用CBR(固定位元流率)
因為VBR(變動位元流率)在MP3裡面有很多方式
但不管用哪個方式都對MP3音質造成蠻大的損失

OGG編碼方式則是使用VBR方式, 畢竟OGG生來就具備VBR的特性
而使用CBR跟使用VBR對OGG的音質幾乎沒有任何影響
使用的音樂是Vivian 唱的Moment (Gundam Seed OP2) 截圖時間是開始後10秒

人耳能聽到的頻率是從15 Hz 至 20000 Hz 能聽到的音量是 10dB 至 130 dB
最敏感的區域是2000 Hz 至 3000 Hz
人耳對聲音有無的感覺遠比聲音大小來的強烈

首先是 128 kbps 測試中間沒有標示的圖是Original

可以很清楚的看到MP3 128kbps編碼下在16096 Hz後聲音就被截斷而截斷的那部份還是屬於人耳可以清晰辨識的部份
而OGG128kbps編碼下到了16376 Hz後音波改變成失真較大的方式而不截斷直到20241 Hz後才完全被截斷

再來是192 kbps 測試中間沒有標示的圖是Original

MP3 192kbps編碼下在16322 Hz後聲音有些許起伏在19207 Hz 聲音被截斷
OGG 192kbps編碼下到了21500 Hz後音波就被截斷而之後的部份幾乎算是人耳的極限是很難被聽到的部份

最後是 320 kbps 測試中間沒有標示的圖是Original

MP3 320kbps編碼下在20682 Hz後聲音就被截斷
OGG 320kbps編碼則看不出有截斷的趨向不過因為已經超出人耳極限有沒有截斷已經不重要了

看圖的重點是紅色部份被紫色遮蔽越多(紅色越少) 表示越接近來源品質
因為MP3 Ogg 因為本身的編碼不同可能造成與來源時間上的差距(即使是很小的時間差距都會對結果造成影響 )
因此本測試請將注意力集中於被截斷音域及OGG MP3高頻上不同的處理方式

這個階段可以很明顯的看出聲音截斷與編碼是有很大的關係而這部份嚴重的影響到聽的感受

還有一個部份是很難從圖上辨認出來但對聽覺可能有影響
那就是在可以聽的到的區段音質好壞 聲音是由各種不同頻率音波合成的
而這個部份很難被分析
不過就我自己的推論 0,1差異遠比 1,2差異大的多 只能說音域涵蓋最廣
與來源重疊越多的越可能接近來源
結論: MP3 還是敗給OGG 不管是音質還是編碼後的大小

(OGG中位元流率品質甚至比MP3高位元流率還好)
結論2:
mp3
1.在低位元流率會直接截斷
2.中位元流率不會直接截斷會有一小部份緩衝的高失真區域
3.高位元流率則直接截斷聽不到的高頻
ogg
1.在低位元流率不會直接截斷會有長音域高失真緩衝區
2.中位元流率會直接截斷聽不到的高頻
3.高位元流率則已經破表超過人耳能聽到的極限

上面是我最近做的測試
但以我三年前的測試 160kbps的ogg可以剛好把品質控管到20kHz 在音質、檔案大小上取得平衡
補上一張160kbps的ogg (紫) 對上320kbps MP3 (紅)的圖

falex · 文章由 **falex** » 2006-01-24 16:32

emukim 寫:至頂的那篇文章由於WaveSpectra使用的設定是Log 根本很難直接看出頻譜差異
http://forums.dearhoney.idv.tw/viewtopic.php?t=19810
因此我自己另外做了MP3 Ogg的比較
http://0rz.net/6811h
...

Hi~~ 您在 http://0rz.net/6811h 的網頁的排版怪怪的，太向左偏了，左邊的字和圖都被截掉了，我用 IE6 來看的。

emukim · 文章由 **emukim** » 2006-01-25 11:53

falex 寫:
emukim 寫:至頂的那篇文章由於WaveSpectra使用的設定是Log 根本很難直接看出頻譜差異
http://forums.dearhoney.idv.tw/viewtopic.php?t=19810
因此我自己另外做了MP3 Ogg的比較
http://0rz.net/6811h
...
Hi~~ 您在 http://0rz.net/6811h 的網頁的排版怪怪的，太向左偏了，左邊的字和圖都被截掉了，我用 IE6 來看的。

你可能沒注意到上面的"招呼語"
是Yahoo Blog beta的問題因為圖有點大(長?)的關係會很怪
可以把圖片下載回去看

如果要正常看建議使用1280x1204 或者等Yahoo blog修正版面問題
(blog內容顯示序應該是最優先的左右兩欄在解析度不夠的狀態應該是要被犧牲掉的)
圖縮小整個結果細節的部份感覺上不是很好辨識

晚一點再把那個blog轉到這裡
下面那個圖是Firefox解析度不夠看到的狀況

emukim · 文章由 **emukim** » 2006-01-26 15:13

之前高品質MP3與OGG大對決分析後
這次的分析是來證實很久以前MP3pro 號稱他的64kbps比得上128kbps是不是真的? 綠色：來源

除了在5600Hz前後有稍微失真其他的部份可以說跟MP3(128kbps)很接近(整體來說MP3pro音量偏離來源比較多)
->證實了MP3pro格式的確與MP3(128kbps)相當的接近

除了這一點外在MP3pro概念提出前後 MS也出個Wma 號稱有類似的效果
這次順便也測試看看 64kbps的Wma 是不是有同樣的結果

結果一目了然吧在1000Hz Wma就敗下陣來
->Wma果然是虎爛的

接下來把高品質表現優秀的OGG拿來跟MP3pro比較

OGG全音域 dB值高低失真大截斷音域比Wma好趨近於MP3pro的
MP3pro勝出

講到低品質音樂就不能不提到RM 因此把RM抓過來比較(RM因使用64kbps會降地採樣率成32000Hz 不能比較所以這裡是用96kbps)

96kbps 的RM還是比不上MP3 Pro 跟64kbps 的OGG蠻類似的
RM在位元流率上設定本來就與64kbps的OGG不同所以 OGG勝出

低品質MP3pro 全勝關於檔案大小
MP3pro：1.92 MB Wma：1.95 MB OGG：1.95 MB RM：2.94 MB

結論: MP3pro>OGG 而RM跟WMA暫時無法比較(不過都比OGG差)

喔對了忘了附註一件事
我不認為encoder會隨著不同類型音樂使用不同演算法
而是encoder有各自的特性依據他的特性在不同類型音樂上人耳聽覺上會有不一樣的感覺但其encoder的特性並沒有任何改變

什麼encoder適合什麼音樂類型這種想法是有問題的
只是剛好encoder的失真那個音樂類型聽不出來

不能期待人耳對各頻率都有相同的敏感度能同時感受到各種細節
但是越接近來源頻譜失真特性越少的encoder 表現出的絕對越接近於來源這個結論並不會受限於音樂類型

基於這個前提下找個高低頻越複雜的來源比對頻譜越接近來源頻譜的就越好
不是找音樂去配合encoder 特性做測試
^^^^^^^^^^^這就好比路上找個人說他身高比總統高那他的權利一定比總統大

不過我這個測試也是有缺失的地方
只能看那瞬間各頻率dB表現不能看出前後時間頻率表現狀況

lwb · 文章由 **lwb** » 2006-01-30 02:33

因為這一篇文章中我認為錯誤的地方實在太多（即使我所知的也不一定正確），所以忍不住想要討論：

或許有人認定頻譜不能代表聽到的一切
但換個方向想頻譜都差了聽到的聲音一定差
單獨聽高頻聽不出來但高低頻的合成波少了高頻絕對會影響品質至少20kHz前保持不刪除音域是重點

總和的頻譜（不論是取平均或是極值）或是某一瞬間的頻譜相不相似與品質沒有一定的相關性，做出頻譜完全不相似但聽起來相似的聲音是可能的；做出頻譜相同但聽起來完全不同的聲音也是可能的。所以lossy encoder的品質比較應該依靠double blind test，而不是頻譜。這與RMAA音效卡的測試不同，因為RMAA用的是人工產生的特定測試訊號（而且是可以由程式分析結果的訊號）而不是整首都在變動的音樂；而且RMAA測試的是儀器的準確度，並不仔細探討訊號失真是否能被人耳察覺。
把lowpass filter強制開在20kHz以上並不一定能提高聲音品質，在中低位元率的時候反而可能降低品質（依照encoder與檔案格式特性而定，例如MP3壓縮16kHz以上的聲音時效率不佳）；各個lossy encoder選擇lowpass filter的頻率是由encoder的開發人員經由研究與實驗決定的，正常情況來說強制改變參數並不會造成品質變好。

舉個例子雷射的繞射、干涉干涉圖形是會影響到繞射圖形的
(去除掉間隔較細干涉圖形只留繞射那表現出來的絕對不是雷射)

我們討論的是聲音，與光學有不同的特性…而且這個比喻與剛剛討論的頻譜沒有相關性（如果你是討論聲音的反射與折射造成的回音也許就可以比較）

讓我突發一想把耳朵聽到的感覺用圖形表示出來 (感覺很難拿來比較但是可以看到的圖說服力就很大畢竟有圖有證據!!)

這樣用圖誤導人的機會很大，因為圖形就與聽到的感覺不太相關了，比如來說，人耳在各個頻段的解析度是不同的，這在頻譜圖形中表現不出來；人耳在不同頻段中所能聽見的最低音量是不同的，這在頻譜圖形中表現不出來；人耳對於不同聲音之間的相互影響（例如音量大的聲音可以掩蓋音量小的聲音，讓音量小的聲音聽不見）在頻譜中表現不出來；而一些lossy encoder的壓縮瑕疵，例如ringing effect、pre echo等等，在頻譜圖形中也表現不出來。一個好的lossy encoder的任務就是盡可能移除人耳不容易察覺的聲音，保留人耳可以聽到的部分，雖然頻譜有時可以發現encoder的bug（例如以前的Vorbis encoder有high frequency boost的bug），但卻不能用來判斷encoder的品質。

MP3 編碼方式皆使用CBR(固定位元流率)
因為VBR(變動位元流率)在MP3裡面有很多方式
但不管用哪個方式都對MP3音質造成蠻大的損失

你沒有說明是使用哪個MP3 encoder，我假定你是用LAME（從使用的壓縮選項猜測）；LAME的開發人員從沒說過VBR會對音質造成損失這種事（除了尚未經過嚴格調較的低位元率（<96kbps）模式使用VBR品質會比較不穩定以外）；並鼓勵我們在LAME裡面使用VBR

OGG編碼方式則是使用VBR方式, 畢竟OGG生來就具備VBR的特性
而使用CBR跟使用VBR對OGG的音質幾乎沒有任何影響
使用的音樂是Vivian 唱的Moment (Gundam Seed OP2) 截圖時間是開始後10秒

你想說的是Vorbis(Codec)而不是Ogg(Container)；Vorbis的開發人員表示在Vorbis中使用CBR會降低Vorbis的音質，所以完全不鼓勵開啟bitrate management mode使用ABR或CBR；另外，你沒有標示使用的Vorbis encoder版本

人耳能聽到的頻率是從15 Hz 至 20000 Hz 能聽到的音量是 10dB 至 130 dB
最敏感的區域是2000 Hz 至 3000 Hz

既然你知道人耳對某些頻率較為敏感（數值是否正確我沒有查證，好像也是錯的），也就是知道人耳對某些頻率較為不敏感——那麼對於失真就不能用圖形的差距來表現了，因為對人耳不敏感的頻率（例如高頻的區域）失真較大是可以允許的，而對於人耳敏感的區域則較不能允許失真

可以很清楚的看到MP3 128kbps編碼下在16096 Hz後聲音就被截斷而截斷的那部份還是屬於人耳可以清晰辨識的部份
而OGG128kbps編碼下到了16376 Hz後音波改變成失真較大的方式而不截斷直到20241 Hz後才完全被截斷

LAME選擇在128kBps不保留16kHz以上的頻率是有技術上的考量（sfb21 problem），刻意保留高頻也許頻譜會更好看，但是對音質反而會有負面的影響（所以LAME的開發者選擇不這麼做）；而缺少的高頻的部分是否人耳可以清晰辨識；我想並不盡然
至少在最近的double blind listening test之中，就有不少人無法分辨VBR的LAME壓縮的版本與原始版本的差別

看圖的重點是紅色部份被紫色遮蔽越多(紅色越少) 表示越接近來源品質
因為MP3 Ogg 因為本身的編碼不同可能造成與來源時間上的差距(即使是很小的時間差距都會對結果造成影響 )
因此本測試請將注意力集中於被截斷音域及OGG MP3高頻上不同的處理方式

遮蔽的區域多寡與聽覺的感受沒有一定的關係；另外時間上的差距如果你是指encoder offset的話，Ogg Vorbis內部就會處理掉，而LAME壓縮的MP3在遇到支援的decoder的時候也會處理掉。而把注意力集中在被截斷音域與高頻的處理方式上完全不能表現encoder整體的品質。

這個階段可以很明顯的看出聲音截斷與編碼是有很大的關係而這部份嚴重的影響到聽的感受

lowpass filter的頻率設定與不只與編碼方式有關，使用不同的encoder、或是同一encoder的不同版本、或是同一encoder版本使用不同參數都可能不同，這部分雖然影響聽的感受但也不見得保留越多高頻越好。

還有一個部份是很難從圖上辨認出來但對聽覺可能有影響
那就是在可以聽的到的區段音質好壞聲音是由各種不同頻率音波合成的
而這個部份很難被分析

所以我們使用listening test（或其它方法）來比較壓縮方式的好壞，而不是頻譜

不過就我自己的推論 0,1差異遠比 1,2差異大的多只能說音域涵蓋最廣
與來源重疊越多的越可能接近來源
結論: MP3 還是敗給OGG 不管是音質還是編碼後的大小

(OGG中位元流率品質甚至比MP3高位元流率還好)

這個結論（Vorbis優於MP3）看不出與上面的推論的關係（上面推論只是說可能，結論卻是確定的），你能解釋得更清楚嗎？

結論2:
mp3
1.在低位元流率會直接截斷
2.中位元流率不會直接截斷會有一小部份緩衝的高失真區域
3.高位元流率則直接截斷聽不到的高頻
ogg
1.在低位元流率不會直接截斷會有長音域高失真緩衝區
2.中位元流率會直接截斷聽不到的高頻
3.高位元流率則已經破表超過人耳能聽到的極限

事實上lowpass filter的參數無論是在LAME或是Vorbis encoder裡面都是可調的，你測的只是預設值，要調整到頻譜更好看完全是可行的；只是encoder的開發人員認為這樣反而會降低音質

除了在5600Hz前後有稍微失真其他的部份可以說跟MP3(128kbps)很接近(整體來說MP3pro音量偏離來源比較多)
->證實了MP3pro格式的確與MP3(128kbps)相當的接近

MP3Pro對於高頻的壓縮處理方式與MP3完全不同，遇到某些情況例如高頻區段聲音與低頻區段沒有相關性時；或是某些高頻特別突出的樂器如三角鐵時壓縮瑕疵將會變得明顯；所以無法藉由單一情況比較出整體的品質
另外，這個測試的參與人員一點也不認為64kBps的MP3Pro與128kBps的LAME MP3品質相近

除了這一點外在MP3pro概念提出前後 MS也出個Wma 號稱有類似的效果
這次順便也測試看看 64kbps的Wma 是不是有同樣的結果

這裡有歷史錯亂的問題，WMA Std比MP3Pro早很多發表，而WMA Pro目前沒有64kbps的壓縮模式

OGG全音域 dB值高低失真大截斷音域比Wma好趨近於MP3pro的
MP3pro勝出

即使在大部分情況下你的結論是對的（i.e. 沒有遇到對MP3Pro特別不利的上述兩個情況時）；原因也是錯的，Vorbis在64kbps時品質不比MP3Pro決不是因為少掉那一點高頻（如果你要把lowpass filter調到一樣高也是可以），其它的壓縮瑕疵才是影響品質的關鍵

喔對了忘了附註一件事
我不認為encoder會隨著不同類型音樂使用不同演算法
而是encoder有各自的特性依據他的特性在不同類型音樂上人耳聽覺上會有不一樣的感覺但其encoder的特性並沒有任何改變

雖然encoder不能分辨音樂類型，但encoder當然很可能會依據聲音特性的不同選擇使用不同的演算法…例如Ogg Vorbis encoder會依據左右聲道間的關係選擇不同的channel coupling，會依據聲音特性選擇使用short block或是long block，會依據頻率分佈選擇要在Floor或是Residue區域壓縮內容…結果可能導致encoder對不同音樂類型會有不同結果

什麼encoder適合什麼音樂類型這種想法是有問題的
只是剛好encoder的失真那個音樂類型聽不出來

不能期待人耳對各頻率都有相同的敏感度能同時感受到各種細節
但是越接近來源頻譜失真特性越少的encoder 表現出的絕對越接近於來源這個結論並不會受限於音樂類型
基於這個前提下找個高低頻越複雜的來源比對頻譜越接近來源頻譜的就越好
不是找音樂去配合encoder 特性做測試
^^^^^^^^^^^這就好比路上找個人說他身高比總統高那他的權利一定比總統大

就因為人耳對各頻率都有不同的敏感度，所以encoder的目的是在人耳不敏感的部分捨去資訊讓人耳能聽出的失真越少越好，而不是頻譜上能看出的失真越少越好。所以只要人耳無法聽出，頻譜是否接近根本無所謂。
而為了減少各種音樂不同特性對測試結果的影響所要做的事是盡量選擇各種不同種類的音樂分別測試（所以我上面提到的listening test都不只測一首），而不是刻意找複雜的音樂（即使要測遍所有的音樂類型是不可能的，但也不能因此只測一首就假定其它音樂結果會相近）。

不過我這個測試也是有缺失的地方
只能看那瞬間各頻率dB表現不能看出前後時間頻率表現狀況

這個缺失很明顯
1) 你只測了整首歌的一小部分（而且是非常小的部分），而這一小部分並不能代表整首歌，更不能代表其它歌。
2) 在這一部分音樂中，你無法由頻譜中看出哪些差異是人耳能夠分辨的，哪些是人耳難以察覺的。
3) 你也提到了，不能看出聲音隨著時間變化的情形；但這對人的聽覺來說是很重要的一部份（例如講話的語調變化）。
--
因為我沒有Yahoo帳號所以就沒貼那邊了。

emukim · 文章由 **emukim** » 2006-01-30 12:50

lwb 寫:因為這一篇文章中我認為錯誤的地方實在太多（即使我所知的也不一定正確），所以忍不住想要討論：
或許有人認定頻譜不能代表聽到的一切
但換個方向想頻譜都差了聽到的聲音一定差
單獨聽高頻聽不出來但高低頻的合成波少了高頻絕對會影響品質至少20kHz前保持不刪除音域是重點
總和的頻譜（不論是取平均或是極值）或是某一瞬間的頻譜相不相似與品質沒有一定的相關性，做出頻譜完全不相似但聽起來相似的聲音是可能的；做出頻譜相同但聽起來完全不同的聲音也是可能的。所以lossy encoder的品質比較應該依靠double blind test，而不是頻譜。這與RMAA音效卡的測試不同，因為RMAA用的是人工產生的特定測試訊號（而且是可以由程式分析結果的訊號）而不是整首都在變動的音樂；而且RMAA測試的是儀器的準確度，並不仔細探討訊號失真是否能被人耳察覺。

瞬間頻譜失真變動的確很大(尤其是MP3)
我想你可以換個方向想當聲音滿足每一瞬間頻譜它總和頻譜一定也滿足
(第一篇主要的訴求就是失真變動都不大)
瞬間頻譜不相同很難相信它總和的效果頻譜是探討瞬間最好的方式
各頻率音量相同在最基本的原理上就是一樣的聲音

把lowpass filter強制開在20kHz以上並不一定能提高聲音品質，在中低位元率的時候反而可能降低品質（依照encoder與檔案格式特性而定，例如MP3壓縮16kHz以上的聲音時效率不佳）；各個lossy encoder選擇lowpass filter的頻率是由encoder的開發人員經由研究與實驗決定的，正常情況來說強制改變參數並不會造成品質變好。

你可以很清楚的看到我第一篇強調的是高品質的互相比較編碼的特性
(目的是要看 20kHz以下各encoder表現出的失真狀況)
而不是在各coder強制將lowpass filter開在20kHz頻譜的差異(硬將音域提高到20kHz 不管低頻失真度)
品質要好就要保留最多的細節(不管低頻高頻都要滿足)

舉個例子雷射的繞射、干涉干涉圖形是會影響到繞射圖形的
(去除掉間隔較細干涉圖形只留繞射那表現出來的絕對不是雷射)
我們討論的是聲音，與光學有不同的特性…而且這個比喻與剛剛討論的頻譜沒有相關性（如果你是討論聲音的反射與折射造成的回音也許就可以比較)

這你可錯了繞射、干涉都是光的波動性只要是波都會有的特性尤其是聲音的音波
(這不是幾何光學這是波動光學)
如果不相信的話翻一下高中普通物理
我要強調的是保留所有能被察覺的因素(雖然他們的表現出的東西跟我要說得保留細節不太相同只是個比喻)

讓我突發一想把耳朵聽到的感覺用圖形表示出來 (感覺很難拿來比較但是可以看到的圖說服力就很大畢竟有圖有證據!!)
這樣用圖誤導人的機會很大，因為圖形就與聽到的感覺不太相關了，比如來說，人耳在各個頻段的解析度是不同的，這在頻譜圖形中表現不出來；人耳在不同頻段中所能聽見的最低音量是不同的，這在頻譜圖形中表現不出來；人耳對於不同聲音之間的相互影響（例如音量大的聲音可以掩蓋音量小的聲音，讓音量小的聲音聽不見）在頻譜中表現不出來；而一些lossy encoder的壓縮瑕疵，例如ringing effect、pre echo等等，在頻譜圖形中也表現不出來。一個好的lossy encoder的任務就是盡可能移除人耳不容易察覺的聲音，保留人耳可以聽到的部分，雖然頻譜有時可以發現encoder的bug（例如以前的Vorbis encoder有high frequency boost的bug），但卻不能用來判斷encoder的品質。

這就是我們看法不同的地方保留所有細節(最大解析度最接近原始的音量) 接下來就交給耳朵自己去判斷
不需要針對各頻率的特性做失真而是對聽不到的頻率做失真

尤其在現在、未來不像過去要求檔案size要小(因為現在硬碟夠大整個環境也允許)
針對人耳還可以察覺到的區域(察覺到的程度還不一樣)做一樣程度的失真不是個明智的決定

當encoder瑕疵特性大到聽的出來沒理由頻譜沒有變化 (人耳的敏感度沒有到那麼好的程度)
如果你需要的話我再補用log設定貼圖出來
不過我可以先跟你說高、中品質下幾乎相同 128kbps以下低品質才會犧牲掉最敏感的區域
(開發encoder的人絕對不會白痴到不注意到這個部份而輕易失真)

MP3 編碼方式皆使用CBR(固定位元流率)
因為VBR(變動位元流率)在MP3裡面有很多方式
但不管用哪個方式都對MP3音質造成蠻大的損失
你沒有說明是使用哪個MP3 encoder，我假定你是用LAME（從使用的壓縮選項猜測）；LAME的開發人員從沒說過VBR會對音質造成損失這種事（除了尚未經過嚴格調較的低位元率（<96kbps）模式使用VBR品質會比較不穩定以外）；並鼓勵我們在LAME裡面使用VBR

沒錯是Lame 不過我跟LAME開發人員不熟不知道他的說法但依據我私下測試有差異性
在同樣的設定用lame encoder 一個CBR 另一個開128kbps~320kbps
或許你可以試試看告訴大家你的看法結果或許會與我不同

OGG編碼方式則是使用VBR方式, 畢竟OGG生來就具備VBR的特性
而使用CBR跟使用VBR對OGG的音質幾乎沒有任何影響
使用的音樂是Vivian 唱的Moment (Gundam Seed OP2) 截圖時間是開始後10秒
你想說的是Vorbis(Codec)而不是Ogg(Container)；Vorbis的開發人員表示在Vorbis中使用CBR會降低Vorbis的音質，所以完全不鼓勵開啟bitrate management mode使用ABR或CBR；另外，你沒有標示使用的Vorbis encoder版本

CDex 1.51的Ogg Vorbis encoder版本只有一個(我blog裡有回覆說明) 我使用的就是那個
CBR品質會比VBR來的差我倒是蠻想看那個開發人員的說法
該不會是下面那種情形吧
當用Ogg VBR 320kbps 用播放器播放出的kbps顯示值是平均值(假設是220kbps) 它大概是在敘述用平均值 220kbps CBR 品質會比VBR 320kbps 來的差

Ogg的CBR VBR 音質沒有差異也是我自己測試的結果
你也可以自己測試看看或許你可以得出跟我不同的結果

人耳能聽到的頻率是從15 Hz 至 20000 Hz 能聽到的音量是 10dB 至 130 dB
最敏感的區域是2000 Hz 至 3000 Hz
既然你知道人耳對某些頻率較為敏感（數值是否正確我沒有查證，好像也是錯的），也就是知道人耳對某些頻率較為不敏感——那麼對於失真就不能用圖形的差距來表現了，因為對人耳不敏感的頻率（例如高頻的區域）失真較大是可以允許的，而對於人耳敏感的區域則較不能允許失真

如果你覺得數值是錯誤的你可以去查證一下(我也建議幫我查證一下因為我只查資料沒有實際去體驗)
1.聽不到的頻率在頻譜上你也看不到
2.最敏感的區域在頻譜上你可以看的到
只不過沒有像置頂的那篇文章採用的設定明顯因為我測試的主要目的是看全區域失真情形而log的設定很難看出高頻的表現
(需要的話可以Po出來他們的資料我還有留著)

第一篇測試就是在看頻譜各頻率在不同encoder下的的表現狀況
要求的是20kHz以下失真最少

可以很清楚的看到MP3 128kbps編碼下在16096 Hz後聲音就被截斷而截斷的那部份還是屬於人耳可以清晰辨識的部份
而OGG128kbps編碼下到了16376 Hz後音波改變成失真較大的方式而不截斷直到20241 Hz後才完全被截斷
LAME選擇在128kBps不保留16kHz以上的頻率是有技術上的考量（sfb21 problem），刻意保留高頻也許頻譜會更好看，但是對音質反而會有負面的影響（所以LAME的開發者選擇不這麼做）；而缺少的高頻的部分是否人耳可以清晰辨識；我想並不盡然
至少在最近的double blind listening test之中，就有不少人無法分辨VBR的LAME壓縮的版本與原始版本的差別

128kbps的MP3刻意保留20kHz並不會讓頻譜好看 (這是你我看法不同的地方) 反而低頻失真更大既然頻譜不同品質自然不同
在相同的kbps下相同encoder 保留較大音域的那個一定會有較大的失真(而這個失真可能遍佈於整個音域中)
每秒固定的資料流率會因為要記憶的區域變廣導致記憶的細節越少
舉例就像Jpeg 固定20KB 但是解析度640x480 1024x768 的狀況
為了記住更大的解析度反而顏色失真雜訊變多

看圖的重點是紅色部份被紫色遮蔽越多(紅色越少) 表示越接近來源品質
因為MP3 Ogg 因為本身的編碼不同可能造成與來源時間上的差距(即使是很小的時間差距都會對結果造成影響 )
因此本測試請將注意力集中於被截斷音域及OGG MP3高頻上不同的處理方式
遮蔽的區域多寡與聽覺的感受沒有一定的關係；另外時間上的差距如果你是指encoder offset的話，Ogg Vorbis內部就會處理掉，而LAME壓縮的MP3在遇到支援的decoder的時候也會處理掉。而把注意力集中在被截斷音域與高頻的處理方式上完全不能表現encoder整體的品質。

1.你必須要證明encoder offset 在有支援的decoder下可以被去除
2.且又要證明轉換用的程式不會對不同的encoder做不同的事(wav->???->wav)
把時間分散到各sample數上你知道前後sample的時間差距是多少?可是10^-5秒
即便是開發人員保證offset可以被去除但是你相信轉換程式對於不同encoder 轉換時保證沒有10^-5的差距嗎?
這是前人沒辦法證實的事
不過假設一切符合理想狀態 (offset可以被去除與來源的差異是人耳敏感的察覺到的)
那你應該可以清楚的聽出來 MP3 各種不同設定下的320kbps音樂的差異
但事實上不能不是人耳太鈍、要不然就是有offset 不然就是兩個都有
所以我認為頻譜重複性越大就代表越接近來源

這個階段可以很明顯的看出聲音截斷與編碼是有很大的關係而這部份嚴重的影響到聽的感受
lowpass filter的頻率設定與不只與編碼方式有關，使用不同的encoder、或是同一encoder的不同版本、或是同一encoder版本使用不同參數都可能不同，這部分雖然影響聽的感受但也不見得保留越多高頻越好。

音域當然不是越寬越好我要說得是頻譜越相同的越好(當音域寬了低頻卻失真頻譜並不會好看)
在低頻幾乎全部符合追求高頻不失真不是一件壞事吧

還有一個部份是很難從圖上辨認出來但對聽覺可能有影響
那就是在可以聽的到的區段音質好壞聲音是由各種不同頻率音波合成的
而這個部份很難被分析
所以我們使用listening test（或其它方法）來比較壓縮方式的好壞，而不是頻譜

而這種方式就是被我認定不科學的方式 listening test 誰會相信
或許有人說它聽的無線電的聲音聽到X-ray的聲音不過誰會相信
所以主張頻譜相同 (目前最科學的方式)

不過就我自己的推論 0,1差異遠比 1,2差異大的多只能說音域涵蓋最廣
與來源重疊越多的越可能接近來源
結論: MP3 還是敗給OGG 不管是音質還是編碼後的大小

(OGG中位元流率品質甚至比MP3高位元流率還好)
這個結論（Vorbis優於MP3）看不出與上面的推論的關係（上面推論只是說可能，結論卻是確定的），你能解釋得更清楚嗎？

"越可能"總比"不可能"好截斷是不可能與原音源類似這是結論是確定性的原因
這說法其實來自人類對於各種類比的感覺
人對色彩灰階深淺感覺不會比黑白來的強烈人對聲音大小不會比有無來的強烈

結論2:
mp3
1.在低位元流率會直接截斷
2.中位元流率不會直接截斷會有一小部份緩衝的高失真區域
3.高位元流率則直接截斷聽不到的高頻
ogg
1.在低位元流率不會直接截斷會有長音域高失真緩衝區
2.中位元流率會直接截斷聽不到的高頻
3.高位元流率則已經破表超過人耳能聽到的極限
事實上lowpass filter的參數無論是在LAME或是Vorbis encoder裡面都是可調的，你測的只是預設值，要調整到頻譜更好看完全是可行的；只是encoder的開發人員認為這樣反而會降低音質

在同樣的kbps下
A encoder保留住所有低頻訊號但高頻失真
B encoder保留住所有低頻訊號但高頻失真卻比A少很多(且更接近於來源) 你認為會是設定的問題嗎
同樣的kbps 頻譜上B可以做到比A好但是A說他的頻譜可以做的跟B一樣好但是它不做因為會影響音質你相信嗎
我想它不做的原因是 A顧不了那麼多如果要把高頻納入編碼範圍它低頻失真會很大這才是音質差的原因

下篇待續
雖然你回覆一開頭就批觀念錯誤不過我認為你對頻譜的認知有小問題
頻譜好看並不是音域寬就好還要符合來源可以聽到的範圍(20kHz以下) 不應該被失真
即使那個人耳對那個頻率(20kHz以下)敏感度不大但那個頻率會影響到其他頻率的表現狀況(單獨的去除是有問題的)

edit: 不打算繼續回覆後半段了後半段大致上我的回覆跟這一段相同
主要在於頻譜認知有差異聲音只要在可辨識頻譜範圍符合一致它就可以被稱為相同

就像是[判斷物質組合用質譜儀]、分析DNA、辨識聲紋、驗血(尿)
只要符合相關特性它就是那個東西總和符合並沒有瞬間符合那樣有證據力
(總和符合瞬間不符合是很難相信的一件事畢竟總和必須由瞬間累積起來的)
再來是人的聽覺並無敏銳到聽的出來瑕疵但頻譜顯示不出來那個瑕疵
最後聲音中低頻(人最敏感的區域)帶來最主要音階高低但是品質則要靠高頻區域附加上去

記得高中物理有提到我記得那個東西叫做諧波(或許會記錯) ->而它是高頻的
諧波是決定音階的來源的特性(譬如Do可以由小提琴、鋼琴、喇叭...發出來的)
人類是依據諧波去判斷音階是什麼樂器發出來的對諧波做失真不會影響到音階高低變化但會影響到音階的品質
聽起來就不會像是來源的小提琴、鋼琴、喇叭... 而會變成大類別的弦樂器、管樂器....
如果高頻失真更大甚至失真到中低頻會聽到很奇怪的聲音但它還是可以被辨識的
(日本部份有用人聲的flash 就有這種現象聽的出來是什麼字但很怪)
因此追求高音質除了中低頻不失真高頻的保留還是必須的

lwb · 文章由 **lwb** » 2006-02-01 01:33

雖然很累又很浪費時間，可是我還是不得不回你回應中的錯誤與弱點，不然感覺很像我不負責任地搗亂了就跑。
補注:回頭來看這篇，因為我的耐心不夠所以有些地方我寫得有點酸請一笑置之。你的blog中關於模擬器的部分還蠻豐富的，只是我現在都沒有玩它們的慾望……

瞬間頻譜失真變動的確很大(尤其是MP3)
我想你可以換個方向想當聲音滿足每一瞬間頻譜它總和頻譜一定也滿足
(第一篇主要的訴求就是失真變動都不大)
瞬間頻譜不相同很難相信它總和的效果頻譜是探討瞬間最好的方式
各頻率音量相同在最基本的原理上就是一樣的聲音

雖然所有的片段頻譜就能組成整首歌全部的頻譜，但是就你貼出的一個微小片段並不能代表整體；但這不是重點。
重點是頻譜與聽起來的歌曲品質之間沒有保證相關性；頻譜看得到的，不見得聽得見；頻譜沒看到的，不見得聽不出。
而且沒聽人說過頻譜是探討瞬間最好的方式；既然你說你是用WaveSpectra產生圖形的，那應該知道裡面有FFT Sample數量的設定——也就是說頻譜是由一小段波型產生的根本不是瞬間，如果（理論上）真的要探討瞬間的話，就該以sample為單位比較。（雖然這樣比較對現代的失真壓縮也沒有意義）。
各頻率音量相同在最基本的原理上就是一樣的聲音——這句話本身是對的沒錯；但是我們要求的不是真正一樣的聲音，而是聽起來一樣的聲音。雖然一樣的聲音（頻譜相同）聽起來一定一樣；但聽起來一樣的聲音實際上不一定需要完全相同（所以頻譜不一定相同）。

你可以很清楚的看到我第一篇強調的是高品質的互相比較編碼的特性
(目的是要看 20kHz以下各encoder表現出的失真狀況)
而不是在各coder強制將lowpass filter開在20kHz頻譜的差異(硬將音域提高到20kHz 不管低頻失真度)
品質要好就要保留最多的細節(不管低頻高頻都要滿足)

我看不出這篇哪裡強調出高品質……如果你只是要看各個encoder預設的lowpass filter數值的話，LAME與Vorbis encoder都是開放原始碼的，你可以在原始碼裡面直接看到確實的數值，不必這麼辛苦地看spectrum。
品質要好，就要保留最多的細節——但是在容量有限的情形下，encoder就得做出取捨，儘可能保留對人聽覺最有意義的細節。而哪些細節對人有意義則是由encoder的開發者與encoder的psycho-acoustic model來推測的，而psycho-acoustic model並沒有被賦予讓頻譜好看的任務。
而你頻譜分析的精確度，在中低頻下根本不及人耳能夠察覺的細節（所以即使重疊也不能保證人耳聽不出，何況這部分只要人耳不會察覺，也沒有重疊的必要性；例如經過ATH與masking effect＊處理過之後的頻譜就與原本的不同了），在高頻上又有一段對人耳不重要的超音波（即使有一部分人能夠聽到20kHz的聲音，不代表能夠聽出經過18kHz lowpass-filter的音樂，因為音樂中18kHz以下的部分的音量很可能足以掩蓋過18kHz以上的部分，讓人聽不見18kHz以上的部分）。
另外既然你已經知道lowpass filter是可調的，你可以實驗看看在128kbps MP3中即使把lowpass filter調高，你也知道這樣會導致中低頻的部分準確度降低（不論這些降低能不能被你聽到）——你仍然不一定能從頻譜中明顯看出差別，至少我實驗了以後是看不出啦（我是用LAME 3.97b2，使用的參數是lame -b 128 01.wav 01b128.mp3與lame -b 128 --lowpass 20 01.wav 01b128l20.mp3，實驗的歌曲是r.o.r/s的《dazzle》專輯的第一首《感傷不感情》）。
＊ATH與masking effect：兩者都是目前失真聲音壓縮中常用的技術，目前常見的MP3、AAC 與Vorbis encoder都有使用。

這你可錯了繞射、干涉都是光的波動性只要是波都會有的特性尤其是聲音的音波
(這不是幾何光學這是波動光學)
如果不相信的話翻一下高中普通物理
我要強調的是保留所有能被察覺的因素(雖然他們的表現出的東西跟我要說得保留細節不太相同只是個比喻)

我有唸過高中物理，謝謝你的提醒。不過我也提醒你這個「比喻」如果和被比喻的東西沒有相關性的話就不叫比喻了（我該說這是國中國文的範圍嗎？還是國小國語的？）。
「我要強調的是保留所有能被察覺的因素」——encoder的目標是保留能被人耳聽到的因素，然後你用頻譜分析看並擅自認為頻譜分析看起來難看的就會難聽就是你的錯誤之一。

這就是我們看法不同的地方保留所有細節(最大解析度最接近原始的音量) 接下來就交給耳朵自己去判斷
不需要針對各頻率的特性做失真而是對聽不到的頻率做失真

現代的lossy encoder都會對各頻率的特性作不同的處理（例如ATH curve或其它參數），各個頻率允許的壓縮瑕疵大小與種類是不同的。

尤其在現在、未來不像過去要求檔案size要小(因為現在硬碟夠大整個環境也允許)

所以我們應該用無失真壓縮還是提高bitrate？這一句與這個討論無關。

針對人耳還可以察覺到的區域(察覺到的程度還不一樣)做一樣程度的失真不是個明智的決定

你的這一句話與上上句話是矛盾的喔，既然對各個區域做一樣程度的失真是不明智的決定，當然要針對各種頻率不同的特性作處理吧。

當encoder瑕疵特性大到聽的出來沒理由頻譜沒有變化 (人耳的敏感度沒有到那麼好的程度)

頻譜也許有變化，但你的頻譜的解析度太低看不出（把140db的動態範圍放在不到104 pixel以內？）。何況有些壓縮瑕疵難以從頻譜上看出，例如pre-echo。

如果你需要的話我再補用log設定貼圖出來

拜託你不要再貼…我寧可自己實驗。

不過我可以先跟你說高、中品質下幾乎相同 128kbps以下低品質才會犧牲掉最敏感的區域
(開發encoder的人絕對不會白痴到不注意到這個部份而輕易失真)

高、中品質的範圍是哪裡？為什麼128kbps以下是低品質？（哪個encoder？哪個版本？）最敏感的區域是哪裡？（明明每首歌的每個時間點都不一樣不是嗎？）這幾句話模糊到讓我難以回答。

沒錯是Lame 不過我跟LAME開發人員不熟不知道他的說法但依據我私下測試有差異性
在同樣的設定用lame encoder 一個CBR 另一個開128kbps~320kbps
或許你可以試試看告訴大家你的看法結果或許會與我不同

我和LAME的開發人員也不熟，但是我有仔細閱讀文件並在這個討論區上面注意各個encoder開發人員發表的文章。
CBR多少和128kbps~320kbps比較？如果你連這點都沒有寫的話我要試甚麼？你私下測試是用甚麼方法？double-blind listening test嗎？
LAME在之前的版本是推薦--preset參數，而現在則是推薦-V參數，而且都不要限制位元率能達到開發人員認為的最佳品質。
http://wiki.hydrogenaudio.org/index.php ... r_Settings

CDex 1.51的Ogg Vorbis encoder版本只有一個(我blog裡有回覆說明) 我使用的就是那個

那麼你沒有使用目前品質最好的Ogg Vorbis encoder，建議使用aoTuV Beta 4.51
http://www.geocities.jp/aoyoume/aotuv/
或衍生的高速版Lancer

CBR品質會比VBR來的差我倒是蠻想看那個開發人員的說法

引述自Vorbis官方網站
Monty, lead developer of the Ogg Project：「Ogg always performs best in its native VBR mode. CBR and ABR are lower quality techniques, but useful for streaming.」這個是Vorbis壓縮格式的開發者與制訂者說的，夠有公信力了吧？

該不會是下面那種情形吧
當用Ogg VBR 320kbps 用播放器播放出的kbps顯示值是平均值(假設是220kbps) 它大概是在敘述用平均值 220kbps CBR 品質會比VBR 320kbps 來的差

Ogg Vorbis用VBR的時候壓縮參數是-q-2到-q10，哪來的VBR 320kbps？聽不懂你的問題。

Ogg的CBR VBR 音質沒有差異也是我自己測試的結果
你也可以自己測試看看或許你可以得出跟我不同的結果

你聽不出來不代表沒有差異，我自己在低位元率的情況下早已測過；與其請我測試看看，我也請你多利用搜尋引擎（例如Google）並多閱讀說明文件。

如果你覺得數值是錯誤的你可以去查證一下(我也建議幫我查證一下因為我只查資料沒有實際去體驗)
1.聽不到的頻率在頻譜上你也看不到

頻譜上明明就可以顯示出聽不到的頻率

2.最敏感的區域在頻譜上你可以看的到

但是最敏感的區域卻不會特別明顯，而且因為精確度的問題可能因此看不到。

只不過沒有像置頂的那篇文章採用的設定明顯因為我測試的主要目的是看全區域失真情形而log的設定很難看出高頻的表現
(需要的話可以Po出來他們的資料我還有留著)

採用log的原因就是因為高頻真的比較不重要。不過請不要繼續貼圖——那沒有意義。

第一篇測試就是在看頻譜各頻率在不同encoder下的的表現狀況
要求的是20kHz以下失真最少

可惜的是，在你的測試中看不太出哪一個聽起來失真最少。

128kbps的MP3刻意保留20kHz並不會讓頻譜好看 (這是你我看法不同的地方) 反而低頻失真更大既然頻譜不同品質自然不同

請實驗，我已經實驗過。如果你嫌ATH讓高頻沒辦法緊貼頻譜也可以調整ATH參數。

在相同的kbps下相同encoder 保留較大音域的那個一定會有較大的失真(而這個失真可能遍佈於整個音域中)
每秒固定的資料流率會因為要記憶的區域變廣導致記憶的細節越少
舉例就像Jpeg 固定20KB 但是解析度640x480 1024x768 的狀況
為了記住更大的解析度反而顏色失真雜訊變多

這是對的，而且這個比喻也適當。

1.你必須要證明encoder offset 在有支援的decoder下可以被去除

一定要我證明嗎？encoder與decoder的開發者的證明不行嗎？
Vorbis在制訂規格的初期就已經有可以去除encoder offset的設計，詳見Vorbis I規格書
The granule (PCM) position of the first page need not indicate that the stream started at position zero. Although the granule position belongs to the last completed packet on the page and a valid granule position must be positive, by inference it may indicate that the PCM position of the beginning of audio is positive or negative.

* A positive starting value simply indicates that this stream begins at some positive time offset, potentially within a larger program. This is a common case when connecting to the middle of broadcast stream.
* A negative value indicates that output samples preceeding time zero should be discarded during decoding; this technique is used to allow sample-granularity editing of the stream start time of already-encoded Vorbis streams. The number of samples to be discarded must not exceed the overlap-add span of the first two audio packets.
雖然因為這是規格書所以很難懂，重點是第二點的A negative value...的內容，總之這是一個可以用來移除encoder offset的設計；並且官方的encoder與decoder都有實做。
而LAME tag就不是官方規格了，但是LAME與foobar2000有實做。

2.且又要證明轉換用的程式不會對不同的encoder做不同的事(wav->???->wav)
把時間分散到各sample數上你知道前後sample的時間差距是多少?可是10^-5秒
即便是開發人員保證offset可以被去除但是你相信轉換程式對於不同encoder 轉換時保證沒有10^-5的差距嗎?
這是前人沒辦法證實的事

在encoder與decoder內部並不是用時間來表示長度的，而是sample數，foobar2000可以做到sample precision，而且在幾年前就可以做到了。如果你不相信轉換程式，你可以檢查oggenc與lame的原始碼以確定可以做到sample precision然後再用它來做實驗，我是沒有自己檢查過程式碼啦，不過我相信開發人員沒必要在開放原始碼的程式裡公然說謊。
至於「把時間分散到各sample數上」這件事，我相信沒有decoder閒著沒事在做這種東西的。

不過假設一切符合理想狀態 (offset可以被去除與來源的差異是人耳敏感的察覺到的)

我沒說「來源的差異是人耳敏感的察覺到的」，我只說用適當的工具offset可以被去除。

那你應該可以清楚的聽出來 MP3 各種不同設定下的320kbps音樂的差異

因為我沒說「來源的差異是人耳敏感的察覺到的」，如果你是用64kbps CBR MP3，我就比較有把握聽得出…如果是Vorbis -q 4 我就幾乎沒把握。如果是Vorbis -q 5我就放棄不必試了。

但事實上不能不是人耳太鈍、要不然就是有offset 不然就是兩個都有
所以我認為頻譜重複性越大就代表越接近來源

所以因為我木耳不能分辨320kbps的（某種Encoder壓縮過的聲音），頻譜就是對的？這個推論怎麼能成立？

音域當然不是越寬越好我要說得是頻譜越相同的越好(當音域寬了低頻卻失真頻譜並不會好看)
在低頻幾乎全部符合追求高頻不失真不是一件壞事吧

頻譜越相同也並不一定越好（尤其在低位元率的情況下），而且你所謂的符合只是表面上的，沒有考慮精確度的問題也沒有考慮人的聽覺與頻譜表現的差異。

而這種方式就是被我認定不科學的方式 listening test 誰會相信
或許有人說它聽的無線電的聲音聽到X-ray的聲音不過誰會相信
所以主張頻譜相同 (目前最科學的方式)

所以你不知道doube blind listening test是怎麼進行的；在double blind listening test中，受測者並不知道哪一個sample是由哪一個encoder產生的，並被要求分辨原始來源與壓縮過的聲音的差別；甚至被要求使用ABX測試以避免使用者用猜測蒙混過去。
以一個常見的listening test測試程式abchr為例：
使用者會被給予多組測試單位，每一單位有一個聲音確定是原始聲音(ref:reference)，另外有兩個評分對象，這兩個評分對象中有一個是原始聲音，另一個是壓縮過的聲音（但是由程式亂數決定，受測者並不知道哪一個是原始的）；如果使用者無法正確聽出差別，則應給兩個評分對象5.0，如果使用者可以聽出其中有一個不是原始的，則對那個聲音評分，另一個維持5.0（但是如果使用者判斷錯誤，則表示使用者測試失敗，應給5.0）。在這樣的情況下使用者無法作弊謊稱聽得到實際聽不到的東西——因為就算他用猜的也沒辦法在測試結果公布前看到他是不是猜對。而且為了讓測試者的評分有依據，在被測的多組對象中可能會安排low anchor與high anchor，這完全不是你所認定的「不科學方式」
而在我之前的文章中提到的幾個listening test都是用這種方法產生的（你應該要閱讀我在上面提供的連結，上面有提到測試方法），並依此統計多人的結果，並以統計學估計可能的分數誤差範圍。
相較之下，頻譜完全不能反應人耳的聽覺，對比較壓縮失真沒有幫助。

"越可能"總比"不可能"好截斷是不可能與原音源類似這是結論是確定性的原因
這說法其實來自人類對於各種類比的感覺
人對色彩灰階深淺感覺不會比黑白來的強烈人對聲音大小不會比有無來的強烈

但你不能證明過濾掉高頻以後對低頻的幫助不會導致整體上音質的增進（事實上在中低位元率的情況下是會）。

在同樣的kbps下
A encoder保留住所有低頻訊號但高頻失真
B encoder保留住所有低頻訊號但高頻失真卻比A少很多(且更接近於來源) 你認為會是設定的問題嗎

但是無論是Ogg Vorbis或是MP3，他們實際上都沒有保留所有低頻訊號（都有不等量的失真），所以你的推論不成立。而且各個encoder對中低頻區域品質也是不同的，事實上在很早期很早期的Vorbis encoder就有出現過高頻保留得很多但低頻品質不足的版本，雖然從頻譜上看不出來，卻明顯聽得出來，所以才在後來的版本修改lowpass的數值。

同樣的kbps 頻譜上B可以做到比A好但是A說他的頻譜可以做的跟B一樣好但是它不做因為會影響音質你相信嗎

我當然相信，因為如果刻意調整LAME的參數讓頻譜變好看，音質就被影響了。

我想它不做的原因是 A顧不了那麼多如果要把高頻納入編碼範圍它低頻失真會很大這才是音質差的原因

的確以MP3來說，刻意納入高頻會造成中低頻的失真變大，這是音質差的原因。
所以你也同意音質差的原因不在被過濾掉的高頻囉？
雖然在這次的測試結果中Ogg Vorbis的確在品質上勝過MP3（與listening test結果符合），但那不能證明你的推論方法是對的。

雖然你回覆一開頭就批觀念錯誤不過我認為你對頻譜的認知有小問題
頻譜好看並不是音域寬就好還要符合來源可以聽到的範圍(20kHz以下) 不應該被失真
即使那個人耳對那個頻率(20kHz以下)敏感度不大但那個頻率會影響到其他頻率的表現狀況(單獨的去除是有問題的)

我不認為我對頻譜的認知有問題，倒是你誤用了不適當的工具（頻譜）來衡量音質。對人耳聽覺的原理也不夠瞭解——建議瞭解以下名詞以瞭解現代的聲音編碼原理與方式（複習上面提到過的東西）：
ATH
masking effects
瞭解以上兩點的運作原理就知道為什麼頻譜對衡量音質沒有甚麼幫助。
double blind listening test：瞭解實際準確可靠的音質衡量法
另外你說的「可以聽到的範圍(20kHz以下)」其實也不是每個人都能聽到，尤其是與中低頻合併在一起之後就更難聽到

主要在於頻譜認知有差異聲音只要在可辨識頻譜範圍符合一致它就可以被稱為相同

聲音的確頻譜符合就可以被稱為相同，但是我一再強調我們在lossy encoder中為了提高編碼效率並不要求聲音實際上相同，只要聽起來相同即可。而在現代的lossy encoder編碼過程中，頻譜是會被修改的。

就像是[判斷物質組合用質譜儀]、分析DNA、辨識聲紋、驗血(尿)
只要符合相關特性它就是那個東西總和符合並沒有瞬間符合那樣有證據力
(總和符合瞬間不符合是很難相信的一件事畢竟總和必須由瞬間累積起來的)
再來是人的聽覺並無敏銳到聽的出來瑕疵但頻譜顯示不出來那個瑕疵

你提供的頻譜解析度在某些區域遠低於人的聽覺。而且前面已經提到，有些壓縮瑕疵不是由瞬間頻譜可以輕易看出的（而且我已經舉例）。

最後聲音中低頻(人最敏感的區域)帶來最主要音階高低但是品質則要靠高頻區域附加上去

「品質則要靠高頻區域附加上去」這句話是錯的，品質不能單靠附加高頻區域就達成。

記得高中物理有提到我記得那個東西叫做諧波(或許會記錯) ->而它是高頻的
諧波是決定音階的來源的特性(譬如Do可以由小提琴、鋼琴、喇叭...發出來的)
人類是依據諧波去判斷音階是什麼樂器發出來的對諧波做失真不會影響到音階高低變化但會影響到音階的品質
聽起來就不會像是來源的小提琴、鋼琴、喇叭... 而會變成大類別的弦樂器、管樂器....
如果高頻失真更大甚至失真到中低頻會聽到很奇怪的聲音但它還是可以被辨識的

這一段是對的，但是刻意保留高頻而讓中低頻的失真增加會對音質減損這一點卻難以從頻譜中看出。

(日本部份有用人聲的flash 就有這種現象聽的出來是什麼字但很怪)

那通常是sampling rate太低造成的，與本篇討論無關。

因此追求高音質除了中低頻不失真高頻的保留還是必須的

問題在於中低頻本身就確定是有失真的（無論你是否能由那低精確度的頻譜中看出），對於各個頻率間品質的取捨並不是這麼簡單的問題。
--
我竟然浪費了三小時在寫這篇——請emukim不要假定我對頻譜一無所知（就目前看來，我可能比你瞭解），並請仔細閱讀我提供的各個網址並瞭解我提的幾個重點關鍵字，我相信對我們的溝通會有幫助的。

emukim · 文章由 **emukim** » 2006-02-01 16:18

lwb 寫: 雖然所有的片段頻譜就能組成整首歌全部的頻譜，但是就你貼出的一個微小片段並不能代表整體；但這不是重點。
重點是頻譜與聽起來的歌曲品質之間沒有保證相關性；頻譜看得到的，不見得聽得見；頻譜沒看到的，不見得聽不出。

這點我們看法還是不同我不認為人耳敏銳到可以聽出頻譜上顯示不出的東西
你如果可以提出與我不同說法的證據我會很感謝

我看不出這篇哪裡強調出高品質……如果你只是要看各個encoder預設的lowpass filter數值的話，LAME與Vorbis encoder都是開放原始碼的

看法還是不同
為什麼不同kbps下同樣encoder lowpass filter不同 ?
這很明顯的表示出一件事在那樣設定的kbps下
如果將lowpass 提高於那個kbps預設的lowpass很多會造成其他區域的失真度提高(而這部份失真頻譜上絕對看的出來)
kbps的意思是每秒的使用多少位元紀錄
當要紀錄的區域變大但可使用的紀錄數據卻沒變大 kbps不夠用那就代表一件事有些東西要被犧牲掉這就代表失真
有兩個encoder (A.B)
同樣kbps下 A紀錄的音域比B 少且A也比較不符合來源頻譜重要的檔案大小A也比B大
B可以用較少的kbps紀錄較多資訊也較接近來源這就是我第一次測試要證明的事

你可以在原始碼裡面直接看到確實的數值，不必這麼辛苦地看spectrum。
品質要好，就要保留最多的細節——但是在容量有限的情形下，encoder就得做出取捨，儘可能保留對人聽覺最有意義的細節。

沒錯這就是我要說的
encoder A 中低頻符合來源但高頻並不能保留,encoder B 中低頻高頻表現出的都比encoder A 好
而且用encoder B 出的音樂檔還比encoder A小很多你認為是哪個好 ?

如果你堅持 "A表現在敏感區域更精確 B則是敏感區域不精確這點是頻譜上看不出來"的說法我也沒辦法
或許你可以舉個例子 A.B 中低頻類似相同頻譜上沒辨識不過B還有高頻較接近來源
來證實A聽起來比B較接近來源重點不在高頻而是A在頻譜沒辦法顯示的精確性佔優勢

psycho-acoustic model來推測的，而psycho-acoustic model並沒有被賦予讓頻譜好看的任務。

但是頻譜更好看就意味著它更接近於來源(如果你想法與我不同你可以很直接的否認掉這點)

而你頻譜分析的精確度，在中低頻下根本不及人耳能夠察覺的細節（所以即使重疊也不能保證人耳聽不出，何況這部分只要人耳不會察覺，也沒有重疊的必要性；例如經過ATH與masking effect＊處理過之後的頻譜就與原本的不同了），在高頻上又有一段對人耳不重要的超音波（即使有一部分人能夠聽到20kHz的聲音，不代表能夠聽出經過18kHz lowpass-filter的音樂，因為音樂中18kHz以下的部分的音量很可能足以掩蓋過18kHz以上的部分，讓人聽不見18kHz以上的部分）。

還是回到那點上人耳辨識度到底比頻譜高(你的觀點) 還是人耳辨識度比頻譜低(我的觀點)

另外既然你已經知道lowpass filter是可調的，你可以實驗看看在128kbps MP3中即使把lowpass filter調高，你也知道這樣會導致中低頻的部分準確度降低（不論這些降低能不能被你聽到）——你仍然不一定能從頻譜中明顯看出差別，至少我實驗了以後是看不出啦

或許你可以把頻譜貼出來證明一下我的想法錯誤的
encoder 把lowpass提高下可以保持著頻譜不失真然後卻聽的出來差別

我有唸過高中物理，謝謝你的提醒。不過我也提醒你這個「比喻」如果和被比喻的東西沒有相關性的話就不叫比喻了（我該說這是國中國文的範圍嗎？還是國小國語的？）。

相關性在都具有波的特性沒錯這就是我比喻的地方的依據
在人耳能察覺到的範圍內要保留最原始的波動性即便他要特殊狀況才可以表現的出來

所以我們應該用無失真壓縮還是提高bitrate？這一句與這個討論無關。

所以我們需要能保留可察覺範圍內所有的細節逼近於無失真壓縮的表現可察覺範圍外的一律刪除的encoder

我不認為這跟討論串無關

你的這一句話與上上句話是矛盾的喔，既然對各個區域做一樣程度的失真是不明智的決定，當然要針對各種頻率不同的特性作處理吧。

不矛盾我想你是看錯意思誤解了
我不是說針對各頻率不同做處理而是針對聽不到的頻率做處理
對聽的見的頻率做任何處理不是明智的決定 <-我要說的意思

頻譜也許有變化，但你的頻譜的解析度太低看不出（把140db的動態範圍放在不到104 pixel以內？）。何況有些壓縮瑕疵難以從頻譜上看出，例如pre-echo。

沒錯不過我說過之前那些頻譜是為了看出高頻差異做的設定
也說過我還有log頻譜可以貼出來可更精確顯示出敏感音域
但你說不用貼出來了那到底要不要貼?
(我看過那些圖結論沒有明顯差異如果你認為要貼出來我就貼認為不需要貼我就不貼)

拜託你不要再貼…我寧可自己實驗。

不貼沒辦法證實你的疑慮但你又不要我貼

高、中品質的範圍是哪裡？為什麼128kbps以下是低品質？（哪個encoder？哪個版本？）最敏感的區域是哪裡？（明明每首歌的每個時間點都不一樣不是嗎？）這幾句話模糊到讓我難以回答。

高、中、低分別對應著 320、192、128 kbps
為什麼會是這樣咧？因為我們是在這個討論串內其他你要我回答的問題討論串都有

我和LAME的開發人員也不熟，但是我有仔細閱讀文件並在這個討論區上面注意各個encoder開發人員發表的文章。
CBR多少和128kbps~320kbps比較？如果你連這點都沒有寫的話我要試甚麼？你私下測試是用甚麼方法？double-blind listening test嗎？

一樣的測試方式只是沒貼圖出來你要我貼我可以貼但似乎你很不希望我貼圖

另外文件上的敘述跟實際上的表現如果有差異要怎麼解釋
歷史上可以很常見文件與事實不符的敘述在各理論區域都有

你或許可以貼出VBR CBR mp3的頻譜是沒有差異來證實我的結論是錯誤的
這個可以直接的反駁我之前做的結果不需要用理論、文件

那麼你沒有使用目前品質最好的Ogg Vorbis encoder，建議使用aoTuV Beta 4.51
http://www.geocities.jp/aoyoume/aotuv/
或衍生的高速版Lancer

謝謝你的建議
不過一個同樣是Ogg encoder 較差的encoder都可以比較優秀更好的encoder 表現會不會更好我會去嘗試看看

CBR品質會比VBR來的差我倒是蠻想看那個開發人員的說法

引述自Vorbis官方網站

Monty, lead developer of the Ogg Project：「Ogg always performs best in its native VBR mode. CBR and ABR are lower quality techniques, but useful for streaming.」這個是Vorbis壓縮格式的開發者與制訂者說的，夠有公信力了吧？

說法是這樣啊不過還是沒有我要的證據尤其沒有指明CBR的狀況
會不會出現我上一篇回覆的狀況

Ogg Vorbis用VBR的時候壓縮參數是-q-2到-q10，哪來的VBR 320kbps？聽不懂你的問題。

我編碼採用的是CDEX 而-Q6相當於192kbps -Q9相當於320kbps(當然這只是CDex的推測 )
因為我不能用兩個基準不同的方式比較 (MP3以kbps Ogg是用-QX)
整個單位都不同根本不能比因此採用CDex的推測方式(應該也只能採用這個)

你聽不出來不代表沒有差異，我自己在低位元率的情況下早已測過；與其請我測試看看，我也請你多利用搜尋引擎（例如Google）並多閱讀說明文件。

我沒有聽，基本上我不認為人的感覺有那麼敏銳. 一切依據還是頻譜
你也可以提出ogg VBR CBR頻譜不同的證據出來

頻譜上明明就可以顯示出聽不到的頻率

如果你是說18kHz以上的到22kHz的部份我想你太吹毛求疵
因為那部份還有沒被證實到底聽不聽的見

但是最敏感的區域卻不會特別明顯，而且因為精確度的問題可能因此看不到。
採用log的原因就是因為高頻真的比較不重要。不過請不要繼續貼圖——那沒有意義。

我可以貼log圖出來精確度可以明顯提高雖然還是沒有差別
不過你認為沒有意義 log圖精確度還是低人耳的敏感度還是高過於頻譜
高頻較敏感音域不重要這點我當然認同但追求高品質音樂高頻是必須的至少在人能聽的見的範圍內

可惜的是，在你的測試中看不太出哪一個聽起來失真最少。

還是回到那點人耳敏銳度高到頻譜顯示不出來?

請實驗，我已經實驗過。如果你嫌ATH讓高頻沒辦法緊貼頻譜也可以調整ATH參數。

那可以使用你的參數貼圖出來證實設定正確下可以在CBR的狀況下表現出更接近於頻譜

這是對的，而且這個比喻也適當。

如果你認為我的比喻是適當的我想你已經間接的承認同樣的CBR下提高lowpass 會導致中低頻失真
而我認為那個失真頻譜可以很明顯的看出來

一定要我證明嗎？encoder與decoder的開發者的證明不行嗎？

不是喔因為這個觀點可能連開發者都沒辦法保證畢竟10^-5秒的時間間距實在太小了
開發者能保證的區域會不會小到10^-5秒可能還要確認
你認為可以做到我也不否認,只不過我更相信它是做不到的
尤其是你認為人耳敏銳度可以高到察覺到頻譜顯示不出的瑕疵
如果沒有offset的問題那應該可以很明顯的聽出其中的差異因為頻譜有明顯的細微差異(而我自己是聽不出來的這種差距)

我沒說「來源的差異是人耳敏感的察覺到的」，我只說用適當的工具offset可以被去除。

我的說法其實是順著你的說法去推論的
因為你認為人耳可以察覺到頻譜顯示不出的瑕疵
假設沒有offset的狀況下頻譜差異一定就是encoder的瑕疵囉
那頻譜能顯示出的瑕疵人耳是不是能聽的更清楚呢?(畢竟它連頻譜顯示不出的瑕疵都可以聽的到)

所以因為我木耳不能分辨320kbps的（某種Encoder壓縮過的聲音），頻譜就是對的？這個推論怎麼能成立？

應該說因為你前面的兩個敘述 1.offset已經被去除 2.人耳可以感受到頻譜顯示不出的瑕疵(換言之頻譜能顯示的瑕疵人耳更能聽的見)
1.堅持offset以去除那就代表人耳並沒有那麼敏銳
2.堅持人耳敏銳就代表offset有可能存在
3.有offset 但人耳沒那麼敏銳、無offset 人耳還是沒那麼敏銳

頻譜越相同也並不一定越好（尤其在低位元率的情況下），而且你所謂的符合只是表面上的，沒有考慮精確度的問題也沒有考慮人的聽覺與頻譜表現的差異。

同樣的位元率意味著檔案大小類似檔案大小類似下追求更接近於來源沒有壞處吧
你說的第二點還是回覆到之前提到的人耳敏銳度問題

所以你不知道doube blind listening test是怎麼進行的；在double blind listening test中，受測者並不知道哪一個sample是由哪一個encoder產生的，並被要求分辨原始來源與壓縮過的聲音的差別；甚至被要求使用ABX測試以避免使用者用猜測蒙混過去。

我不知道實際是怎麼測試的但你的說法跟我從字面上瞭解到的意思相同
我提出的看法是能相信人的感受嗎
你前面也敘述到在320kbps下你自己也很難辨識出些微差異(offset那段)
同樣encoder的128->192倒是聽的出來但是不同encoder的128->192 能聽的出來嗎?
我提出一個疑問就是那你怎麼能相信別人的感受?
這個測試唯一的敗筆就在它採用"人"做測試的樣本 (一個前提錯誤的狀況下做出的結論很難被認同)
人會被很多因素影響那天的心情那天的溫度、壓力、濕氣狀況....甚至於當天出門踩到狗屎
當然這部份屬於心理學偏離主題但用一個有疑慮的東西作為測試主體做出來的結論是不是可以相信還是個問題

但你不能證明過濾掉高頻以後對低頻的幫助不會導致整體上音質的增進（事實上在中低位元率的情況下是會）。

我證明的都是在低頻不失真的狀況下高頻過濾情形
不過你認為他不是不失真而是頻譜顯示不出來

但是無論是Ogg Vorbis或是MP3，他們實際上都沒有保留所有低頻訊號（都有不等量的失真），所以你的推論不成立。而且各個encoder對中低頻區域品質也是不同的，事實上在很早期很早期的Vorbis encoder就有出現過高頻保留得很多但低頻品質不足的版本，雖然從頻譜上看不出來，卻明顯聽得出來，所以才在後來的版本修改lowpass的數值。

依舊回到那點人耳頻譜.....不多說了

我當然相信，因為如果刻意調整LAME的參數讓頻譜變好看，音質就被影響了。

上面有回覆相關問題或許可以提出頻譜好看音質被影響的例子

的確以MP3來說，刻意納入高頻會造成中低頻的失真變大，這是音質差的原因。
所以你也同意音質差的原因不在被過濾掉的高頻囉？

不能這樣說吧因為你說mp3可以把losspass提高音質變差但頻譜變好
我說得是頻譜沒有變好而是為了納入高頻訊號的紀錄反而對人耳最敏感的區域造成嚴重失真

ATH
masking effects
瞭解以上兩點的運作原理就知道為什麼頻譜對衡量音質沒有甚麼幫助。

還是回到人耳的感官問題我主張可聽到的範圍內維持原來源品質聽不到的頻率刪除之後就交給人的感官
而你認為可以進一步依據效應去除不需要的部份

double blind listening test：瞭解實際準確可靠的音質衡量法
另外你說的「可以聽到的範圍(20kHz以下)」其實也不是每個人都能聽到，尤其是與中低頻合併在一起之後就更難聽到

沒錯不是每個人都可以聽見但那只是依據我查出到的資料做出的判斷
當然這個定義值認為不夠可以繼續沿伸到22kHz 如果認為太多那18kHz也可以
不過我是認為20kHz 是個很合理的範圍

聲音的確頻譜符合就可以被稱為相同，但是我一再強調我們在lossy encoder中為了提高編碼效率並不要求聲音實際上相同，只要聽起來相同即可。而在現代的lossy encoder編碼過程中，頻譜是會被修改的。

頻譜一定會被修改修改部份以聽不出來為主這點我當然同意
因此才有我的測試來看 encoder到底對頻譜做了什麼程度的失真
結論是中低頻幾乎沒有大失真到可以被察覺得程度主要的地方在高頻
既然中低頻各encoder表現類似相同kbps下不同encoder 高頻將是決勝負的區域

你提供的頻譜解析度在某些區域遠低於人的聽覺。而且前面已經提到，有些壓縮瑕疵不是由瞬間頻譜可以輕易看出的（而且我已經舉例）。

這點還是回覆到人耳...頻譜的問題
壓縮瑕疵不是瞬間頻譜可以看出這點我也同意
瞬間能看到的東西當然是有限這點第一篇測試我就提出來過
瑕疵可能那瞬間剛好消失我也認同
但我不是因為那瞬間某encoder瑕疵會消失而去選那瞬間來做比對
這也是為什麼我用複雜音樂去做比對
因為我的看法是瑕疵在越複雜的音樂越容易出現瑕疵但是在越單純的音樂才越能被察覺(周圍干擾因素消失)
你也可以不認同我的看法我也不會有太大的意外因為這只是我的假設
不過這也是為什麼我相信頻譜多過於人耳的原因
人感官辨識力很脆弱越複雜的環境辨識率越低但頻譜可以很直接反應出聽的到或聽不到的東西
你也可以常常看到電視劇集、電影要用到分析聲音(影像)
常把不需要的複雜環境因素去除最後顯示需要的部份但那部份從一開始就存在

頻譜還是分析聲音最好的方式

「品質則要靠高頻區域附加上去」這句話是錯的，品質不能單靠附加高頻區域就達成。

我沒說可以單靠而是說在中低頻不失真高頻區域的附加是品質的提昇

這一段是對的，但是刻意保留高頻而讓中低頻的失真增加會對音質減損這一點卻難以從頻譜中看出。

這一點依舊回到人耳頻譜的問題你認同就同意不認同就不同意

那通常是sampling rate太低造成的，與本篇討論無關。

也許吧我只知道它失真太多我辨識不出來

問題在於中低頻本身就確定是有失真的（無論你是否能由那低精確度的頻譜中看出），對於各個頻率間品質的取捨並不是這麼簡單的問題。

可以提供較高精確度的頻譜不過你認為人耳可辨識的精確度更高而頻譜是顯示不出來的

我竟然浪費了三小時在寫這篇——請emukim不要假定我對頻譜一無所知（就目前看來，我可能比你瞭解），並請仔細閱讀我提供的各個網址並瞭解我提的幾個重點關鍵字，我相信對我們的溝通會有幫助的。

不是無知而是基本認知不同你提供的網址有時間會看我回文的現在還沒看
畢竟他的想法(理論)必需要是正確的,而不會出現blind test那種我認為爭議的方式
如果要一一詳細去看它理論原理我想可能要花很久不過你擁有很多可以直接反駁我的可能性當反駁成立那些東西看不看也無所謂了

我想我花的時間可能也差不多 (引言好難用所以這次我把你引言我的部份都刪除)
其實就在於基本看法不同
1.人耳.頻譜的精確度問題(人的感官是不是可以被相信？)
2.提高頻譜符合性就意味著品質提昇？
頻譜可以符合但聽起來感受品質可能變差？

主要就這兩點其他問題幾乎都是這兩點的延伸出來的

如果這兩點沒得到突破可能會變成紙上談兵的狀況
我是沒辦法證實

但人可以很明顯分辨出品質差異的音樂在頻譜上都可以看得出來差異
而比較難分辨品質差異的頻譜還是可以看得出來
似乎我的觀點還沒得到致命的一擊
致命的一擊其實就是
1.找到一個頻譜表現類似的兩個音樂卻有明顯的音質差異
2.或者B頻譜明顯比A好(中低高皆是) 但A的音質卻比B好
3.A.B中低頻失真類似 B高頻較類似來源 A高頻失真大但A音質比B好
當然這都要人耳可明顯辨識的範圍不明顯能辨識譬如320kbps MP3 跟320kbps Ogg 192kbps Ogg很難用人耳辨識優劣
這樣會變成人耳大考驗 (到底聽不聽的出來可能兩方都堅持自己的立場)
也就是你認為最好的blind test 我認為很受爭議的地方

pkdavid · 文章由 **pkdavid** » 2006-02-01 18:54

現在基本用flac
就算是lame 3.90.3壓出來的320kbp,對高頻,透明度,細節動態仍有可聞的損失,聲音變的有點乾和平.
喇叭/耳機越好越明顯

emukim · 文章由 **emukim** » 2006-02-02 12:37

pkdavid 網友又提到另一個問題
就是環境因素音響擴大器電源...放出音源的系統
類比訊號->數位訊號->encoder->decoder->輸出類比(數位)訊號->播放系統
中間會經過多少訊號失真(衰減)、雜訊、播放系統帶來的特性

DearHoney 數位音樂工作室討論區

我自己做的MP3 OGG頻譜分析

我自己做的MP3 OGG頻譜分析

Re: 我自己做的MP3 OGG頻譜分析

Re: 我自己做的MP3 OGG頻譜分析

低品質音樂大血殺