サンプリングレートやビットの意味

音というのは空気の振動である。

地震も振動の一種であるので、音声を電気に変換した、いわゆるアナログ信号を地震計に流すと実際の地震の記録と同じように2次元の曲線グラフが描かれる。

この事から、音声を数値データ化するには2つの要素が必要な事がわかる。
X軸・Y軸だ。
X軸、→へ伸びる基準線で、時間の経過を表す。
Y軸、↑へ伸びる基準線で、振動の大きさを表す。
時間にはマイナスは無いが、Y軸である振動は電気で表すとでっぱりと引っ込み、いわゆる+と-がある。

この電気信号をデジタルデータ化して数値として記録・再生する場合、その波形を再現するのにはX軸とY軸の基準が必要になる。
X軸の場合、時間の最小単位を決める。
すなわち0.1秒ごとに取ったデータなのか、それとも0.01秒ごとにとったデータなのかという具合に。
これを表すのがサンプリングレートだ。
「○○Hz」という風に表される。
Y軸の場合、振動の大きさを何段階で表すかを決める。

Windowsのスピーカーのプロパティの詳細を見ると、既定のサンプルレートとビットを設定する所がある。
そこには何種類かのサンプリングレートとビットの組み合わせがあるが、Windows7の場合、一番小さい値は、
「16ビット、44100Hz（CDの音質）」とある。
この「16ビット」の部分が振動の幅、Y軸の最小から最大までの値である。
当然だがビット数が多ければ、それだけより細かく、正確にアナログ信号を記録・再現できる。
コンピュータグラフィックスと同じだ。
ドット数が多い（細かい）ほど、滑らかな曲線が書ける、というか表現できるのと同じく、ビット数が多いほどより自然で正確な波形が再現できるというわけである。
16ビットというのは0と1の2進数16桁分という意味である。
16ビットで表される2進数を10進数に直すと0～65535までである。
すなわち+方向へ最大32767、-方向へ最大32767と中央である0の計65536段階である。

またサンプリングレートの単位であるHz（ヘルツ）は1秒間に1回の振動が1ヘルツなので44100Hzは言い換えれば1/44100秒ごとにその時点でのアナログ音声信号の電圧が+何ボルトなのか、あるいは-何ボルトだったのかを記録するということである。

つまりこのビットやヘルツの数値が大きいほど、より正確に音声データを再現できる事になる。
なぜなら例えばデジタルデータ的には1と表されていても、それが実は正確には1.5かもしれないし1.2かもしれないからだ。
またサンプリングレートも0.00001秒の段階の時は10で0.00002秒の時は5だった場合もその間、0.000015秒の時にもしかしたら-20とかだったかもしれないからだ。
この場合この切り捨てられた0.000015秒の-20というデータは再現されないので、不正確な音声データになる。

まぁ実際は、このWindowsの設定では最小・最低音質となる「16ビット、44100Hz」も人間の耳が感じ取れる空気振動の大きさと変化を上回るもので、十分なのである。
だから音楽CDはこの設定を使っているのである。

ちなみに標準的な人間の耳が感じ取れる音は20KHzまでと言われている。
音というのはゆっくり振動するほど低い音に、速く振動するほど高い音に聞こえるわけであるが、1秒間に20000回以上振動するような高い音は人間の耳には聞こえないって事である（個人差があり、聞こえる人も居ます）。
この事からわかるように441000Hzというのはおよそ倍であるから、人間の耳が不自然さを感じる事はあり得ない数値ということに理論上なっています。

CDが普及し始めた頃、音楽好きの中に、CDの音はどこか不自然だ、やはりレコードの方が優れているなどと言って馬鹿にされた方も居ましたが、これはこういう理論に基づき、ありえないからです。
それにレコードも無段階に音声を表現できるわけではありません。
レコードは渦巻き上に彫られた溝に電気的に記録された信号＝アナログ音声を彫る、いわゆる凸凹を付けて記録したものですので、とうぜん凹凸の最大値というのが存在します。
これがデジタル信号で言うところの「ビット」に当たります。
またレコードは針でその凹凸を感知して電気信号に戻すわけですが、針の大きさより小さい凹凸は当然感知できません。
これがデジタル信号で言うところのサンプリングレートに当たるわけです。
理論上はレコードよりCDの方が細かく正確に再現できている可能性すらあるわけです。

ただこれらのデジタル化した音声データを更に圧縮して容量を減らすフォーマット、有名なのではMP3ですが、こういうものだと耳の良い人、音に拘る人には特に高音域で不自然さを感じる事があります。
例えば圧縮する時に、44100Hzで記録されたデータ1つ飛ばしで記録しなおし、再生する時に1つのデータを連続して2回づつ使えば、単純計算でデータの量は1/2になりますよね？
実際はもっと複雑な計算で不自然さが出ないようにはしていますが、要はこういう事なんです、MP3のような不可逆圧縮って。
だから切り捨てられたかもしれないデータの分、不正確な波形になり、特に速い振動＝高音で不自然さが出るのです。
遅い振動＝低音というのは波形がゆるやかな曲線なので、途中が抜けてもあまり違和感は出ないのです。

そんなどーでもいい話でした。

このページのトップへ

前の記事 « ホーム » 次の記事

トラックバック

この記事にトラックバックする(FC2ブログユーザー)

このページのトップへ

コメントの投稿

このページのトップへ

« 前の記事ホーム次の記事 »

このページのトップへ

ぜかまし

サンプリングレートやビットの意味