音声の前処理

この演習では、音声データのサンプリングレートを変更する方法と、自動プリプロセッサーの使い方を学びます。扱うデータは VCTK Corpus で、さまざまな訛りを持つ110人の英語話者による、約44時間の音声データが含まれています。

dataset はすでに読み込まれています。

.cast_column() メソッドを使って、データセット内の音声を 16,000 Hz にリサンプリングします。
事前学習済みモデル openai/whisper-small を使って、音声プロセッサーを読み込みます。
最初のデータポイントの音声データを前処理し、同じサンプリングレートを指定しつつ、padding=True とします。