YouTubeの音声仕様（PC編）

2024年2月15日2024年3月30日

前回ご紹介したツールを活用することで、ウェブサイトで使われている音声形式を特定できます。今回は、PCを用いてYouTubeの音声形式を調査してみました。この情報はWindowsとMac上で確認したものゆえ、スマートフォンには当てはまらないことを予めご了承ください。動画のアップロード後のチェックや、視聴環境の最適化に役立てていただければ幸いです。

Contents

1. コーデック
2. サンプリングレート
3. ビット深度
4. 情報の活用例
5. まとめと次回予告

コーデック

PC版YouTubeにおいて、動画では「opus」、生放送では「aac」コーデックが使われています。コーデックとは、データを圧縮／復元する技術のことです。音声データは情報量が多く、そのまま送信すると通信量が膨大になってしまうので、インターネット上では効率の良い圧縮が必要なのです。圧縮方法はたくさんありますが、opusとaacはどちらも性能が良いとされており、YouTubeがこれらを採用しているのも自然に感じます。

ちなみに、コーデックは開発者ツールを使わなくても確認できます。動画上で右クリックして、「詳細統計情報」を表示してください。Codecs項に「opus(251)」のように書かれています。

サンプリングレート

PC版YouTubeにおいて、動画では48,000Hz、生放送では44,100Hzのサンプリングレートが使われていますが、例外も存在します。生放送がアーカイブされた直後（約1日間?）は、その動画の音声は44,100Hzとなります。また、「プレミア公開」された動画についても、同様に44,100Hzでした。つまり、基本は48,000Hzですが、リアルタイム性が重視されるコンテンツでは44,100Hzが使用されているようです。

ビット深度

PC版YouTubeにおいて、動画では「Float 32-bit」（32ビット浮動小数点数形式）、生放送では「Signed 16-bit」（16ビット整数形式）というビット深度でした。これらは、圧縮された音声データを解凍する際に、サイト上のスクリプトによって設定されるものと考えられます。生放送では数値が小さく、また比較的シンプルな整数形式となっていますね。

ビット深度とは、1秒あたりに数万個ある音データの、それぞれの精密さを表します。音声データには現在一般的に16〜32ビットが用いられていて、数値が大きいほど正確なデータを保存できます。圧縮された状態ではオペレーティングシステムが扱えないので、ブラウザがデータを元に戻してから渡しています。

情報の活用例

推しの曲や声を最高音質で聴きたいとき、視聴者はデバイスのオーディオ設定を都度変更しなければいけません。設定を音声データと一致させることにより、システムの変換処理を回避します。しかし、デバイスの設定を毎回開くのは手間です。音の違いが気にならない方でしたら、設定を固定して放っておくのもいいでしょう。

固定する場合は、どのコンテンツを頻繁に見ているかで選択します。生放送であれば、出力サンプリングレートを44,100Hzにしておきます。動画なら48,000Hzにしましょう。これにより、スッキリ自然な音に感じられるようになると思います。別のウェブサイトや他のアプリケーションによく触れる方は、それらの音声形式を考慮すべきかもしれません。

また、オーディオ出力設定でビット深度を選択できるときは、数値の大きい方を選んでおきます。詳細はここでは省きたいのですが、そのほうがデータの損失を減らせるからです。24ビットか32ビットであれば問題ないと思います。

まとめと次回予告

PC版YouTubeの動画では主に、「opusコーデック、32ビット浮動小数点数, 48,000Hz」形式が使用されています。一方、リアルタイムまたはアーカイブ直後の生放送やプレミア動画では、「aacコーデック、16ビット整数, 44,100Hz」形式が用いられています。

思ったより複雑な仕様でした。音質にこだわろうとすると、開発者としても視聴者としても挑戦が伴いますね。次回は、YouTubeがどうしてこんな仕様にしているのか、その意図を想像してみたいと思います。お読みいただきありがとうございました！

一般Mac,Windows,YouTube,コーデック,サンプリングレート,ビット深度,ブログ

Posted by セカイの住人