目次へ戻る

音声圧縮

インターネットラジオ 投稿者:KM 投稿日:2006年1月31日(火)12時33分48秒

実は先日、インターネットラジオをいい音で聞こうと、USBオーディオの光インターフェースなるものを購入し、これを今使用しているCDプレーヤの外部入力でDA変換して聞いてみました。が、やはりとてもCDには足元も及ばない感じでした。(128kbpsとうたっているソースで)圧縮と言うことでは、AAC音声との比較がいいのかもしれませんが、WOWWOWの映画と比べてもだいぶ聞き劣りするようです。

このあたりは、理論的な考察とかはどんな感じなのでしょう?

補足 投稿者:KM 投稿日: 1月31日(火)12時50分40秒
すみません、下の「光インターフェース」のところ、正確には「USB接続の外付けオーディオインターフェース」です。光出力とデジタルスルー機能をもち、おそらくMP3データをそのままCDプレーヤに入力し
てることになってると思うのですが。

Re インターネットラジオ 投稿者:志賀 投稿日: 1月31日(火)21時46分24秒
KM さん

<インターネットラジオをいい音で聞こうと、USBオーディオの光インターフェースなるものを購入し、これを今使用しているCDプレーヤの>外部入力でDA変換して聞いてみましたが、やはりとてもCDには足元も及ばない感じでした。(128kbpsとうたっているソースで)圧縮と言うことでは、AAC音声との比較がいいのかもしれませんが、WOWWOWの映画と比べてもだいぶ聞き劣りするようです。

このあたりは、理論的な考察とかはどんな感じなのでしょう?過去このような話題はあったでしょうか?>

昨年11月14日前後に圧縮音源の話が出ていました。その時紹介した

http://plusd.itmedia.co.jp/lifestyle/articles/0504/14/news003_2.html

このサイトによると、192kbps で転送するとCDとほとんど変わらないとのことです。ただし、デコーダの性能にもよるらしいです。

所で、USB オーディオインターフェースなる物がもう一つよくわかりません。MP3 のデータをそのままCDプレーヤーに入力しても音になるとは思えないんですが? MP3 のデコードはどこでやっているんですか?


Re: Re インターネットラジオ 投稿者:KM 投稿日: 2月 1日(水)00時07分12秒

志賀さん、

<所で、USB オーディオインターフェースなる物がもう一つよくわかりません。MP3 のデータをそのままCDプレーヤーに入力しても音になるとは思えないんですが? MP3 のデコードはどこでやっているんですか?>

お恥ずかしいことに、どういう理屈で音になってるかは理解できてません;;;

http://jp.creative.com/products/product.asp?category=1&subcategory=207&product=10246&nav=2

このページの製品の光デジタル出力を、CDプレーヤーの外部入力に接続したら音が
出ています。

ご紹介のページ、そういえば見たことがありました。ということは、128kだと微妙なところですね。あくまでイメージの話で申し訳ないですが、このHPのニュアンスだともう少し音質が望めそうです。ご指摘のように、デコードをどこでどうやっているかが問題かも知れませんね。そのあたりを調べてみます。

非可逆オーディオ圧縮について 投稿者:TG 投稿日: 2月 1日(水)05時05分14秒

非可逆オーディオ圧縮音源の音質はほとんどエンコーダだけで決まってしまいます。デコーダは数学的に仕様が決まっているので十分正確に作られたデコーダであれば人間にとって音質の違いは生じません。

オーディオ圧縮の専門家が集まっている Hydrogenaudio Forums では十分正確であることがわかっている異なる MP3 デコーダの ABX に挑戦することは"MAD CHALLENGE" と呼ばれ冗談のネタのひとつになっています。
http://anonymousriver.hp.infoseek.co.jp/Audio-Codecs.html#MP3_decoders

非可逆オーディオ圧縮一般の常識については
http://anonymousriver.hp.infoseek.co.jp/Audio-Codecs.html
http://web.archive.org/web/20060427091158/http://anonymousriver.hp.infoseek.co.jp/Audio-Codecs.html

を見て下さい。

非可逆オーディオ圧縮に関しては例外的にABXテストが易しいので、科学的に十分信頼できる結果が多数知られています。
ABXテストのやり方 → http://anonymousriver.hp.infoseek.co.jp/ABX_and_ABCHR/index.html

十分に優れたエンコーダーと十分に高いビットレートで圧縮された音源は次のような特徴を持っています。

1. ほとんどの曲のほとんどの部分の音は圧縮前と区別できない(ABXできない)。
2. しかし一部の曲の特別な部分では圧縮前と容易に区別できる(ABXできる)。

後者の特別な音源は「キラーサンプル」と呼ばれています。
優秀なエンコーダーではキラーサンプルの存在が特に問題になります。

しかし質の悪いエンコーダーで圧縮したり、ビットレートが十分高くない場合には大抵の音源で圧縮前よりも明らかに音質が悪くなります。

最新のエンコーダーはかなり優秀でオーディオ圧縮による独特の音質劣化を聴き取る訓練をしていない人であれば平均 130〜135kbps 程度 (VBR なので上下は激しい) でほとんどの場合に圧縮前と区別が付かなくなるようです。
http://anonymousriver.hp.infoseek.co.jp/#20060115-1
(公開されたログを見ると評価点 5.0 が続出!)
しかし聴き取りの訓練が十分な人にはそういうわけでもないようです。(この場合は周波数特性を聴き取るというやり方をする人は全然ダメだと思う。)

オーディオ圧縮について科学的な知見を気軽に得たければHydrogenaudio Forums を覗くのが最も手っ取り早いと思います。
http://www.hydrogenaudio.org/forums/
http://anonymousriver.hp.infoseek.co.jp/

デコードはパソコンの再生ソフトが行っている 投稿者:TG 投稿日: 2月 1日(水)05時15分55秒

MP3のストリームのデコードはそれを再生するソフトが行なっています。しかしすでに述べたようにろくでもないデコーダを使っていない限り、MP3デコーダはどれを使っても音質は同じです。

決定的に重要なのは圧縮に使用されたエンコーダの方です。エンコーダの質が圧縮音源の音質を決定します。

最新の優れたエンコーダはどれも VBR を採用しています。VBR では音質を保ったままの圧縮が難しい部分では大きくビットレートを上げ、簡単な部分ではビットレートを下げます。圧縮時に音質をできるだけ保つにはこの方法が合理的です。

しかしストリーミングではビットレートが激しい変動は好ましくないのでVBR ではなく、CBR や ABR が使用されています。この点でストリーミングは音質的には少し不利になります。

しかし十分優れたエンコーダを使えば CBR であっても192kbps 程度までビットレートを上げれば圧縮前の音との区別がほとんどできなくなるはずです。ただしキラーサンプルの問題は残る。
http://anonymousriver.hp.infoseek.co.jp/

Re 非可逆オーディオ圧縮について 投稿者:志賀 投稿日: 2月 1日(水)09時11分20秒
TG  さん

詳しいレス有り難うございます。
HPもざっと読まして頂きました。おおいに賛同するところです。

圧縮音についてはエンコーダーの方が問題だということは一応理解しているつもりですが、デコーダーの違いに触れたサイトでFFTのデータを出していたところもあるので全く無関係ではないと思ったのですが、DAC 後のアナログ信号の比較のようでしたのでデコーダーのせいではないかもしれません。

そこで質問ですが、MP3のソースが同じでかつ正確に動作しているデコーダーを使えば、デコード後のディジタル信号はビット単位で一致するんでしょうか?


Re: 非可逆オーディオ圧縮について 投稿者:KM 投稿日: 2月 1日(水)12時36分37秒
TG さん

私もHPのぞかせていただきましたが、非常に簡潔・的確に表現なさっており、ここのHP同様驚きました。

つまり、インターネットラジオを良い音で聞けるかどうかは、そもそもが送り手の品質次第、と言うことですね。(と、まとめる必要も無いか)そういう目(耳)ですこし局をサーチしてみようと思います。

前述のUSBインターフェース、安いものを買ってしまったのでそこも問題か、と思ったのですが、結局そこはパススルーしてるだけなので、ほとんど影響ない、と言う認識で間違いないでしょうか。

※ところで、現在のインターネットラジオでは転送レート128kが最高のようですが、これは著作権などのからみなのでしょうか?ご存知ですか?

ロスレスオーディオ圧縮 投稿者:TG 投稿日: 2月 1日(水)18時20分3秒
NSさん

NS <別の話題 早く下の圧縮技術が出ていれば、良かったのに。http://ascii24.com/news/i/tech/article/2005/12/27/659771-000.html>

ロスレスオーディオ圧縮はすでにフリーソフトでは存在していて便利な道具として結構使われていると思います。Hydrogenaudio Forums でもパソコンでの音楽のアーカイブにはロスレス圧縮を使うのが常識になっています。

私が普段使っているロスレス圧縮は WavPack です。ウェブサイト
http://www.wavpack.com/
を見ると32bit float, 192kHz, multichannel にも対応しているようです。MPEG-4 ALS の宣伝によればフリーソフトより優れているとのことですが、私が試した範囲内では実際にはそうでも無さそうでした。
しかし速度的にはチューニングの余地があるよなのでその辺がどうなるかに注目しています。今のところ大きな動きは無し。

あと標準化されたのと特許がらみがクリアになったのは良いことかもしれません。そもそも特許制度自体が新技術の開発と普及を遅らせてしまっていることが大問題なのですが。音楽もDRMやCCCDやDVD-AやSACDのせいで自分自身のリスニングスタイルに合わせて音楽を自由に変換できなくなって来ている。
http://anonymousriver.hp.infoseek.co.jp/#20051231-1

MP3デコーダーの精度 投稿者:TG 投稿日: 2月 1日(水)18時22分1秒
志賀さん

<デコード後のディジタル信号はビット単位で一致するんでしょうか?>

無限精度の計算ができる純粋数学の世界ではデコーダは一つしかありません。
デコーダ = inverse modified discrete cosine transform

しかし、現実には 16bit linear PCM などにデコードすることになるのでデコーダごとにデコード結果に最下位 1bit の違いが生じてしまう可能性があって、現実のデコーダもそうなっています。しかしこれは FFT で容易に確認できるような違いではありません。

問題はその最下位 1bit の違いを人間が認識可能かどうかです。

私自身も遊びで何度か試してみたのですが ABX 不可能でした。最下位 1bit の違いが生じている部分を集中的に聴き比べてみたのですが、音楽の大きな音にかき消されて違いがわからなくなってしまっています。

Hydrogenaudio でも通常の試聴環境では異なるデコーダを ABX できないということが常識になっているようです。(ジョークのネタになっているくらい常識になっている。)

極めて静かな音源をMP3でエンコードして複数のデコーダでデコードした後に通常ではありえないほどボリュームを上げて再生すればデコーダの違いを聴き取ることができるという結果ならばあります。

以上に書いたことに関するより詳しい情報へのポインタが次の場所にあります。

http://anonymousriver.hp.infoseek.co.jp/Audio-Codecs.html#MP3_decoders

USBオーディオインターフェース、インターネットラジオ 投稿者:TG 投稿日: 2月 1日(水)18時24分47秒
KM さん

<結局そこ[USBインターフェース]はパススルーしてるだけなので、ほとんど影響ない>

厳密には難しい問題だと思います。再生ソフトが何をやっているか、USBオーディオインターフェースのドライバが何をやっているか、USBオーディオインターフェース側で勝手にリサンプルしていないか、
などなどの問題があります。リサンプラの質が悪いとそこで音質が劣化し、クリッピングが発生する場合があります。しかし MP3 128kbps による圧縮で生じる音質劣化の大きさと比較すればそれらの問題はほとんど無視できると思います。

私も超安物(5000円未満!)のUSBオーディオインターフェースを使っています。ノートパソコンのヘッドホン端子のSN比が悲惨なほど悪かったので耐えられなくなって試しに購入してみました。そのおかげでSN比はかなり改善しました。(もとが悪過ぎる。)

パソコンのサウンドカードやUSBオーディオインターフェースの類に関する非常に面白いテスト音源があるので紹介しておきましょう。クリッピングが起こっているとエイリアンのささやき声が聴こえます。
http://www.hydrogenaudio.org/forums/index.php?showtopic=9772
から udial.zip をダウンロードしてその中の udial.ape をデコードして使用して下さい。 ape ファイルのデコードができない人は
http://anonymousriver.hp.infoseek.co.jp/tmp/udial48.zip
をダウンロードしてその中の udial.wav を利用して下さい。udial48.wav は SSRC で 48kHz にリサンプルしたものです。私が購入したUSBオーディオインターフェース経由でイヤホンで再生する場合にはソフトの側で 48kHz にリサンプルしないとクリッピングが発生してしまいます。

<現在のインターネットラジオでは転送レート128kが最高のようですが>

いえ、Winamp で受信できるインターネットラジオの中にはMP3 160kbps 〜 320kbps のところが結構あります。Icecast streaming の中にも Ogg Vorbis quality 5 (nominal 160kbps)以上のところが幾つかあります。Winamp で聴けるインターネットラジオやIcecast などについては次の場所に解説があります。
http://anonymousriver.hp.infoseek.co.jp/Winamp.html#Streamripper

Re: USBオーディオインターフェース、インターネットラジオ 投稿者:KI 投稿日: 2月 1日(水)20時19分21秒
TG さん

面白い話題が出ていたので、少しコメントを

TGさんの話は、「厳密には」ということですから、そう理解しています。アナログ出力するならDACに通すときにリサンプリングすることは十分考えられるものの、今回の機種で通常のSP/DIFのTOSLINKで出力ということなので、まず THRUと考えてよいものと思います。DSPを通していれば当然バイナリも変わってくるのでしょうが、それは簡単に検証できますし用途から考えてあまり可能性がないようにも思います

ソフトウェアでリサンプリングといえば、
http://www.frieve.com/frieveaudio/download.html
があります
ちなみに、これを使って44.1kHz音源をうちのProDigy192VEでデジタル出力してみたところ、96kHzまではリサンプリングされたデジタル出力で普通に聞こえるものの、無理やり192kHz固定で(SP/DIFの規格を超えている)出力してみたらぶちぶちと音が切れました
http://www.geocities.jp/sida0301/

Re MP3デコーダーの精度 投稿者:志賀 投稿日: 2月 1日(水)20時28分33秒
TG さん

<<デコーダーの違いに触れたサイトでFFTのデータを出していたところもある>>

<そのサイトを私も覗いてみたいので可能ならば場所を教えて下さい。>

実は、TGさんがHP内で最も参考にしてはいけないと言っておられるサイトの何処かにありました。このサイト、私のような素人には分かりやすくていいんですが、確かに音質判断はかなり主観的ですね。

<<デコード後のディジタル信号はビット単位で一致するんでしょか?>>

<無限精度の計算ができる純粋数学の世界ではデコーダは一つしかありません。しかし、現実には 16bit linear PCM などにデコードすることになるのでデコーダごとにデコード結果に最下位 1bit の違いが生じてしまう可能性があって、現実のデコーダもそうなっています。>


分かりました。ディジタル−ディジタル変換だからユニークソリューションかなと思ったもので。

<しかしこれは FFT で容易に確認できるような違いではありません。問題はその最下位 1bit の違いを人間が認識可能かどうかです。私自身も遊びで何度か試してみたのですが ABX 不可能でした。
>最下位 1bit の違いが生じている部分を集中的に聴き比べてみたのですが、音楽の大きな音にかき消されて違いがわからなくなってしまっ>ています。>


私も最下位1bitの違いが聴き分けられるとは思っていません。

最後にもう一つお聞きしたいのですが、ディタル(BS)TV に使われているAACの転送bit rate はいくらなんでしょうか? ご存知なら教えて下さい。


Re:ロスレスオーディオ圧縮 投稿者:NS 投稿日: 2月 1日(水)20時39分2秒
TGさん。
WavPackを含めて2〜3種のロスレス圧縮の導入を考えましたが、圧縮率が低いのでやめました。これならば、わざわざ圧縮で時間を割くくらいならば、そのままのWAVファイルで焼けば済むと思いました。今現在は192kHz32bit2chで1公演で約8GBの消費量ですのでDVDを2枚焼けば済むということで圧縮は行っていません。この世に一つしか無いマスターは、加工せずに保存するのが原則と思っています。しかしながら、マルチをする場合、マスターの保存となると収拾がつかなくなると感じていましたから、既存のロスレス圧縮よりも圧縮率の高いMPEG-4 ALSに魅力を感じております。

ところで、
<MPEG-4 ALS の宣伝によればフリーソフトより優れているとのことですが、私が試した範囲内では実際にはそうでも無さそうでした。しかし速度的にはチューニングの余地があるよなのでその辺がどうなるかに注目しています。>

もうお試しになっているようですが、速度(変換速度ですか?)以外にも何が「そうでも無さそう」でしたか?

ロスレスでの圧縮率について 投稿者:TG 投稿日: 2月 2日(木)07時29分14秒

NSさんは私よりもスキルがあるのですから御自分でテストをやってみた方が納得し易いと思います。特に 192kHz 音源でテストをやって下さると「第三者による192kHzでの再検証」として大きな価値が出ると思います。もしも圧縮率の劇的な改善があれば意外でかつ非常に嬉しい結果なので是非ともテスト結果を公開して欲しいと思います。

16bit/44.1kHz 2ch の音源ではMonkey's Audio よりも圧縮率では劣っているように見えました。WavPack と比較してもせいぜい1〜2%程度圧縮率が上がる程度です。そのことはすでに紹介したリンク先を読めばわかります。
http://anonymousriver.hp.infoseek.co.jp/#20051231-1
圧縮率でその程度の違いしかないのであればすでに十分使われておりスピードが速い WavPack を使い続けた方が得です。そして圧縮率を優先したい場合には Monkey's Audio を使いたくなります。

Hydrogenaudio のどこかでひろった clip44,1khz という 24bit/44.1kHz 2ch の音源をそれぞれのデフォルトの設定で圧縮すると、

clip_44,1khz.wav 1560KB [100%] (圧縮前)
clip_44,1khz.als 1261KB [80.3%] (MPEG-4 ALS)
clip_44,1khz.ape 1261KB [80.3%] (Monkey's Audio)
clip_44,1khz.wv 1269KB [81.3%] (WavPack)

この音源はあまり縮んでくれませんでした。

同様に clip_96khz という 24bit/96kHz 2ch の音源を圧縮すると

clip_96khz.wav 3395KB [100%] (圧縮前)
clip_96khz.als 2164KB [63.7%] (MPEG-4 ALS)
clip_96khz.ape 2159KB [63.6%] (Monkey's Audio)
clip_96khz.wv 2397KB [70.6%] (WavPack)

MPEG-4 ALS と Monkey's Audio (ape) の圧縮率はほど同じで、WavPack よりは圧縮率が高くなっています。

デフォルト以外の設定を使ったり、他の音源を圧縮すれば、圧縮率の順位が変わるかもしれません。

しかし、ロスレス圧縮では情報量を完全に保つ必要があるので劇的な圧縮率改善はおそらく不可能だと思います。しかしスピードに関してはまだかなり改善の余地が残っています。

個人的な意見では MPEG-4 ALS の宣伝の仕方はフェアではないと思います。特にこのグラフ → http://ascii24.com/news/i/tech/article/2005/12/27/imageview/images795318.jpg.html
(しかしこのグラフを見ると圧縮率の劇的な改善が望めそうもないことは十分にわかる。)具体的にどのソフトのどのバイナリのどの設定とどのように比較したかを大雑把でも良いから公開してくれないと再検証が不可能になってしまいます。再検証を阻害するような情報の公開の仕方自体が私は問題だと思いました

Re: USBオーディオインターフェース、インターネットラジオ 投稿者:KM 投稿日: 2月 2日(木)12時24分32秒

KI さん

< アナログ出力するならDACに通すときにリサンプリングすることは十分考えられるものの、今回の機種で通常のSP/DIFのTOSLINKで出力ということなので、まず THRUと考えてよいものと思います>

この投稿の「今回の機種」とは、私の提示した機種↓のことですか?
http://jp.creative.com/products/product.asp?category=1&subcategory=207&product=10246&nav=2

BSデジタルの音声ビットレート 投稿者:NS 投稿日: 2月 2日(木)16時13分7秒
志賀先生へ
どうも128kbps/2chですねえ。(↓2002・08・03)
http://www.nhk.or.jp/strl/open98/1-2/1-2index.htm#(3)
こういうのもありました。(↓NHK技研R&D No.57 1999年 8月)
http://www.nhk.or.jp/strl/publica/rd/rd57-j.html#i3
また、(↓2002・08・03)
http://www.nhk.or.jp/strl/open99/happyo/c2/index-j.html

Re BSデジタルの音声ビットレート 投稿者:志賀 投稿日: 2月 2日(木)17時33分12秒
NS  さん

<どうも128kbps/2chですねえ。>

有り難うございます。多分そうだろうとは思っていたのですが。早速 HP 改訂しておきました。

http://www.ne.jp/asahi/shiga/home/MyRoom/Audio.htm#TV


Re:ロスレスでの圧縮率について 投稿者:NS 投稿日: 2月 2日(木)20時08分56秒
TGさん

2月1日に書いた後、TGさんのホームページアドレスに気づき、MPEG-4 ALSの項を読みました。失礼しました。色々と膨大に精緻に活動されていますねえ。脱帽です。他のソフトの名称を出さなかったのは、JAROみたいな人に訴えられるからでしょうか? NTTは大きな会社ですから、技術報告書も発行されているかもしれません。また、直接問い合わせて見るとか。
http://www.ntt.co.jp/news/news05/0512/051227.html (下の項目)
松下電器も発行していますし、もちろんNHKも発行されています。探せば有用な情報がでてきます。
<早く下の圧縮技術が出ていれば、良かったのに。>
と書いてしまったのはBSデジタル音声がAACを採用する前に開発されていればという意味でした。話の流れを読んでいないクセがありますので、ご容赦を。しかし、TGさんが調査した結果を読んで、フムフム、Wavpacねえ、良いかもしれないねえと思いました。ここまで結果がでているとは。興味をもちました。気づいた事ですが、「MP3の音質は320kbpsでもCDよりひどくに劣っている?」の項目で、引用されているホームページは、問題あるなあと思います。

http://homepage3.nifty.com/sakatani/omega/omega13/omega13.htm

試聴に使用したと思われるDVD-Audioは、2chではなく、5.1chか5chです。(下参照

http://www.dvdaudio-net.com/soft/syousai/viac-60001.html

同じ収録CDはどうやっても2chですから、DVD-Audioを再生した場合はどうやってミックスダウンしたのか、プレーヤーでミックスダウンした音声?、前方2chのみを出したのかさっぱりわかりません。
反対に差が出ても良いと思うのです。そもそも2chと5.1chのマイクセッティングは根本的に違います。(ショップスの分厚い技術書の後ろにでています。)メーカーでやっている場合、どのように2chにミックスダウンしているか、2chだけ別系統としているかわかりません。また、実際に96kHz24bitの音声のマスターは本当にそのサンプリング周波数で収録したのかよく分かりません。DVD-Audioが発売された当初、44.1kHzのマスターを96kHzにアップサンプリングしたものもありましたから。それにもう一つのソフトは探せませんでした。どれに該当するやら。

また、このホームページで見落としてしまいがちなのは、
http://homepage3.nifty.com/sakatani/omega/omega19/omega19.htm
の最後の部分。ブラインドテストしたかどうかわかりませんが、差はあると書いています。(「NSさん」というのは私。この日はどうしても初出席できず(転勤)、他人に委託しました。今でも顔を出していない。この評価は私ではありません。)
この当時のダウンコンバーターはサウンドフォージv5付属ソフトを用い、ディザは高域集中ディザを用いました。いろいろ試聴した結果、選んだ条件ですけど。どうしてもあそこ以外でもあのような評価がでてきます。

私は収録、記録、保存を主眼に、再生はホドホドという立場になっていますから、(配信するわけでもないし、そんな事をしたら主催者に怒られますわ。)このまま行くとTGさんと話があわなくなるかも。

音声圧縮技術の開発は音質評価に厳密なブラインドテストが行われているようで信頼が置けます。実は私も日常的に聴く音楽は BSデジタルやiPod が多く圧縮技術の恩恵をこうむっています。この場合のフォーマットはほとんどの場合 128kbps のAAC圧縮でほぼ満足出来る音質です。BS放送はアナログ放送の音声部分が 16bitー48kHz のリニアPCM、デジタルBSがAAC圧縮で、同じ番組を同時に放送しているので容易に比較出来ますが、私の耳にはソースの音質の良否の差の方がずっと大きく感じ、あまり気になりません。多分ブラインドではわからないでしょう。 このテーマの内容はずいぶんハイレベルで大いに参考になりました。

inserted by FC2 system