mp3って何?WAVって何?歌ってみたで使う音声ファイルフォーマットの基礎知識 [vol.017 難しさ:やさしい]
歌ってみたでも様々な音声フォーマットが扱われますが、なんのこっちゃいという人も少なくないでしょう。
この記事では一般的な音楽制作で使われる音声フォーマットと、どのようなシチュエーションで何を使えば良いのかを初心者さん向けに説明していきます。
動画版はこちら↓

目次
音声フォーマットの基礎知識
音声を保存する箱の形 〜ファイル形式〜
音楽制作や歌ってみたをやっていると「wav(ウェブ・ワブ)」や「mp3(エムピースリー)」という単語を目にすることがあるでしょう。これはファイル形式(フォーマット)と呼ばれるもので、音声ファイルの保存方法を示したもの。音声を保存する箱の形のようなものです。
例えば「wav」という箱で録音した場合、「wav」に対応した再生機器・環境でのみ再生することができます。
「mp3」は「wav」とは異なる箱の形で、以下のような特徴があります。
wav形式:非圧縮で高音質だが容量が大きい
mp3形式:音声を圧縮したもので、容量が小さいが音質はwavに劣る
ポイントは「圧縮」という言葉。
フォーマットは圧縮と非圧縮に大別できるのです。圧縮形式のファイルは非圧縮形式で作られた「マスターファイル」から変換することで生まれます。「wav」から「mp3」のファイルが生まれるということです。
圧縮というとパソコンでよく見るzip形式などを連想するでしょう。zipファイルは「解凍」というプロセスを経ることでもとのファイルに戻ります。しかし「mp3」は「wav」に戻すことが出来ません。これは非可逆圧縮と呼ばれています。

そして、mp3の音質はwavに劣ります。mp3はwavに戻せませんから、高音質で制作したいのであればwav(非圧縮)ファイルで制作を行う必要があります。
記録の細かさを決める 〜ビット深度とサンプリングレート〜
音声を記録する箱の形と別に、箱の中への詰め方は別の規定が設けられています。ビット深度(ビットデプス/解像度)とサンプリングレート(サンプリング周波数)です。
ビット深度(bit):16/24/32/32 float(浮動小数点)
サンプリングレート(kHz):44.1/48/88.2/96/176.4/192….
※他にも色々ありますが割愛します
※32bitと32bit floatは大きく異なるものです
ざっくり説明すると、アナログ信号をデジタル信号に変換する際に、縦横のマス目を切って近似値を拾っていきます。
この時のマス目の細かさを決めるのがビット深度とサンプリングレートです。デジタルカメラの解像度と同じようなものだと考えれば良いでしょう。数値が大きいほうが高解像度で記録できますが、データ容量が大きくなります。

録音におけるオススメの設定
以下に、制作時のビット深度とサンプリングレートの目安をお伝えします。
カラオケを自主制作する場合、パラミックスの場合
音声ファイルの販売を行う場合:wav 24bit/96kHz
ダウンロード販売や配信など、音声ファイルの販売を行う場合は24/96がスタンダード。筆者も生演奏を含む楽曲のレコーディングは24/96で行っています。ジャズやクラシック、パート数の少ない楽曲の場合はさらにハイレートの24/192などを使用することがあります。
解像度の変換は可能ですが、変換によって音質の変化も生じます。変換が少なければ少ない方が好ましいと言えるでしょう。
上位から下位への変換(例:24/96→24/48)より、逆の変換(例:24/48→24/96)の音質変化が大きくなります。つまり、どのように使うかを最初から想定して録音を始める必要があるのです。
ちなみに、CDのフォーマットはこちら。
CDマスターの場合:wav 16bit/44.1kHz
もはやCDを作成する場合以外は使わないフォーマットになってしまいました。
音源販売をターゲットとした制作で生演奏を含む場合は24/96を基本として制作し、最終的に下位方向に変換するのが良いと思います。後述しますが、歌ってみたの場合は24/48でも良いと思います。
とにかく、上位方向への変換を避けるようにするのが高音質を実現するコツと言えるでしょう。
参考:CDフォーマットの44.1kHzは44.1系と呼ばれ、44.1/88.2/176.4kHzを指します。動画の世界は48kHzが主流であり、動画主体の世の中となった今、44.1系を選択する理由はCDマスターを作る場合以外無いと言っていいでしょう。
入手できるカラオケや音源が24/48kHz以下の場合
入手できる音源が24bit/48kHz以下の場合は、録音するフォーマットも24bit/48kHzで良いでしょう。YouTube投稿用など、動画が完成版となるパターンではwav 24/48という形式が無変換のまま完成まで到達できるので効率的。ファイルのやり取りにおけるトラブルも少なくなるでしょう。
歌ってみたなど、完成作品が動画の場合:wav 24bit/48kHz以上
要点は、カラオケや音源が24/48以下のフォーマットである場合は、録音開始前に24/48以上に変換しておくほうが良いということです。GarageBandやCubaseなどDAWソフトでは、音源を取り込んだ際に問答無用でプロジェクトで設定したwav形式に変換されます。従って、取り込む時のDAWソフトの録音フォーマットを24/48以上に設定します。
カラオケが16bit/44.1kHzであった場合、DAWソフトの録音フォーマットをカラオケにあわせて16/44.1としておくと、ボーカルが16bit/44.1kHzで録音されてしまうので注意が必要です。
現代の録音においては、24/48が音質の最低ラインだと考えれば良いと思います。
入手できるカラオケや音源がmp3の場合
歌ってみたの場合、配布されているカラオケ音源がmp3形式ということがよくあります。特にpiaproでは掲載フォーマットがmp3なので、必然的にmp3のカラオケ音源しか入手できません。本来はwav音源を用意したいところですが、前述の通り、mp3は非圧縮wavの状態には戻りません。
気にしても仕方ありませんので、音質は劣りますがmp3のまま進めましょう。
前項の24/48以下の場合と同様に、DAWに取り込めば設定されているフォーマットに変換されますので、DAWの設定に注意して取り込みましょう。
(歌い手)オフボ音源:mp3
↓
(歌い手)DAW取り込み(24bit/48kHz or 96kHz)
(歌い手)オフボ音源:wav(自動変換)
(歌い手)ボーカル:wav
↓
(MIX師)マスター:wav 24bit/48kHz or 96kHz
(MIX師)動画用:wav 24/48
音質にこだわる場合はインスト音源(オケ)を制作してくれるクリエイターさんに発注し、WAV形式の高音質マスターファイルを制作してもらいましょう。
オケ制作ができるクリエイターさんの例
PX Studio
https://pxstudio.site/
八田雅彦さん
https://twpf.jp/Hmstudio0101
筆者の歌ってみた「残響散歌」のオケは、八田さんに制作していただいた音源です。

マスターファイルのオススメ設定
ここまでの内容は録音におけるフォーマットについての内容でした。つまり歌い手さんや演奏者さんが覚えるべき内容です。一方で、以下のマスターファイルの扱いについては、MIX師さんなど、ミキシングをする人が気にするべき内容となります。
録音時のフォーマットと、完成時のマスターファイルは異なるフォーマットで作成することができます。
マスターファイルは録音したフォーマットを維持した最も高音質な状態の完成品であるべきです。24/96で録音したのであれば、24/96以上の高解像度が適切。24/48での録音なら、マスターファイルも24/48が適切でしょう。
一方で、チェックしてもらうためのファイルや動画作成用に使うファイルは必ずしも24/96を維持している必要がありません。マスターファイルを作成する時にいくつかのフォーマットに変換しておくと良いでしょう。
筆者は以下のような組み合わせ(3種類のフォーマット)をセットにして作ることが多いです。
・マスターファイル:wav 24bit/96kHz
・動画制作用(動画の人に渡します):wav 24bit/48kHz
・再生確認用(メンバーや関係者に渡します):mp3 256kbps
以下の画像はとあるCDアルバムのマスターファイルフォルダです。9曲入のアルバムだったので、フォーマットごとにフォルダを分け、それぞれのフォルダに9つのファイルが入っています。

※DDPというのはCDをプレスする場合の専用のマスターファイル形式です。
mp3の「kbps」というのはmp3のビットレート(解像度)です。数字が大きいほうが高解像度で音質も向上しますが、データ容量も大きくなります。
参考までに、mp3オススメビットレートはこちら。
mp3のオススメビットレート(kbps):192/256
192/256以上であれば再生環境が良くないと非圧縮形式と聞き分けが難しく、一般リスナーの方は圧縮されていることに気づかないことが多いです。容量を抑えつつ音質を確保することができます。
その他のフォーマット
代表的なwavとmp3について説明しましたが、他にも様々なフォーマットがあります。仕事で音屋をやらない場合は存在だけ知っていれば十分でしょう。
形式 | 種別 | 特徴 |
MP3 | 圧縮、非可逆 | 圧縮音声フォーマットのはしり。昔はmp3を扱うためにはソフトウェアメーカーがライセンス料を支払う必要があったのですが、その縛りがなくなった(2017年)ため、以降各DAWソフトが標準対応するようになり利便性が向上しました。(筆者の感覚です) |
AAC | 圧縮、非可逆 | 最近の主流。mp3の後継と考えれば良いでしょう。ややmp3よりデータ容量が大きい分音質も優れていると言われていますが、筆者はmp3の方が音が好き、、、(慣れているだけかもしれません。mp3で育っているので、、苦笑) |
FLAC | 圧縮、可逆 | 圧縮ファイルであるものの、元に戻すことができる可逆方式のフォーマット(FLAC=Free Lossless Audio Codec)。ハイレゾ音源の配信でよく使われていますが、TuneCoreやRouter等を通じてハイレゾ配信する場合、FLAC形式のファイルを用意する必要はありません。(wav24/96を用意すればほぼ問題なし) |
ALAC | 圧縮、可逆 | Apple版のFLAC(ALAC=Apple Lossless Audio Codec)。iTunesで使用されている圧縮方式。 |
AIFF | 非圧縮 | 昔Macでよく使われていたリニアPCM(Linear Pulse Code Modulation)形式非圧縮音声フォーマット。wavはWindows、aiffはmacのような不文律があったが、現在はwav一色。もう覚えなくて良いと思います。 |
AIFC | 圧縮、非可逆 | ややこしいのですが、上記AIFFの親戚の圧縮形式です。ほぼ使わないでしょう。 |
WAV (BWF) | 非圧縮 | リニアPCM形式の非圧縮音声フォーマットのスタンダード。WAV形式にBroadcast Waveチャンクという情報を追加するとBWF(Broadcast Wav File)。中身は同じです。 |
DSDIFF DSF | 非圧縮 | DSD(Direct Stream Digital)方式非圧縮音声フォーマット。WAVとは仕組みが違うので互換性はありません。変換も大変です。機会があったら一度聞いてみてください。独特の素晴らしい、柔らかい音がします。 |
非常に学術的でもあり、諸説あるので、筆者の説明が的を得ていないと感じる方もいるかもしれません。特に正確に理解するには動画の世界で出てくる「コンテナ」という考え方と仕組みを理解する必要がありますが、音だけいじってるうちはコンテナなどは覚えなくても生きていけます。
ここでは、上記のようなフォーマットがあるということだけ知っていれば良いと思います。まずはWAVとMP3を押さえれば大丈夫でしょう。
以下はProToolsとCubaseの書き出し画面。それぞれ選択可能なフォーマットが異なっていることがわかります。


ちなみにmp3の正式名称は「MPEG 1 Audio Layer-3」です。動画でよく見るMPEGのお仲間です。まぁお仲間といえど特に交流は無い訳ですが、、、苦笑。余談でした。
動画の連動コンテンツ
今週の耳トレの音源
今週の耳トレは難易度が高く、動画から再生してもわからないかもしれませんので、以下にファイルを用意しました。ちゃんと聞いてみたい人はこちらから聞いてみてください。
https://drive.google.com/drive/folders/1T0dnwdPlWi9wjFlESgSUnR0HGMrXfNTR?usp=sharing
今週の宿題
今週の宿題はMP3圧縮を体験してみましょう。耳トレと同じ内容です。耳トレでは変換してあるものを聞きましたが、自分で作ってみましょう。
非圧縮形式で1曲、音声ファイルを用意しましょう。ご自分の曲でもOKです。
この音声ファイルを以下の形式に変換して音質の変化を聞いてみてください。できれば短文レポートを書きましょう。
・WAV→MP3 64kbps
・WAV→MP3 192kbps
・WAV→MP3 320kbps
WAVからMP3への変換はiTunes等再生プレイヤーでも可能ですし、DAWに取り込んで書き出し時に指定することも可能です。また、以下のようなオンライン変換サービスもあります。
▼オンラインオーディオコンバーター
https://online-audio-converter.com/ja/
それぞれの設定でかなり音質変化があるはずです。自ずとどのビットレートを使うのが適切か見えてくるでしょうし、ファイルフォーマットを適切に設定することの大切さもわかってくるでしょう。
もし可能であれば、MP3化したファイルを再生しながらスペクトラム・アナライザー(スペアナ)を見てみてください。
MP3では容量を削減するためにLPFを使っています。ビットレートの設定によって異なる設定値のLPFが使われていることが多く、スペアナで見てみると高域がバッサリとなくなっていることが見て取れるはずです。これは最初に知ったときは衝撃的でした。かなりバッサリ切られているんですよ〜。
今週の耳トレの解答
今週の問題は、原音を聞いてから3つの音源を聞き、元の音源と同じものを当てるという内容でした。
解答はAです!
原音は非圧縮WAV形式。マスターファイルからの複製品です。他の3つはMP3に変換したファイルですが、それぞれ以下のビットレート設定です。
音源A:WAV 24bit/96kHz
音源B:MP3 128kbps
音源C:MP3 64kbps
音源D:MP3 192kbps
どう思います?正直なところ192kbpsと原音の判別は難しいと思いませんか?
筆者は、一般リスナーさんにおいては192kbps以上になると再生環境が良くなければ原音との判別はできないと考えています。また、自分の作った曲は判別しやすいのですが、人の曲だと判別しにくいでしょう。このように判別が難しいため「MP3でも、いっか!」となってしまいがちですが、大きい音で、いい環境で再生すれば一目瞭然。特にシンバルを中心に高域のきらびやかさはMP3では保てません。
リスナーさんが全員イヤホンで聞くとは限りません。すんごいオーディオシステムを持っているかもしれません。できるだけ良い音でマスターファイルを作っておきたいものです。
※今週の耳トレについては、動画内においては動画へのエンコード・YouTubeへのアップロードにおいても圧縮の影響を受けていますので、厳密にはWAV→MP3変換の比較にはなりません。原音と同じファイルを当てるゲームだと思ってご了承ください。