1. Learn
  2. /
  3. Courses
  4. /
  5. Hugging Face で学ぶマルチモーダルモデル

Connected

Exercise

音声の前処理

この演習では、音声データのサンプリングレートを変更する方法と、自動プリプロセッサーの使い方を学びます。扱うデータは VCTK Corpus で、さまざまな訛りを持つ110人の英語話者による、約44時間の音声データが含まれています。

dataset はすでに読み込まれています。

Instructions

100 XP
  • .cast_column() メソッドを使って、データセット内の音声を 16,000 Hz にリサンプリングします。
  • 事前学習済みモデル openai/whisper-small を使って、音声プロセッサーを読み込みます。
  • 最初のデータポイントの音声データを前処理し、同じサンプリングレートを指定しつつ、padding=True とします。