1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Hugging Face で学ぶマルチモーダルモデル

Connected

Exercise

自動音声認識

この演習では、AI を使って音声を自動でテキストに書き起こします。再び VCTK Corpus を使います。これは、さまざまなアクセントを持つ英語話者による約 44 時間分の音声を収録したデータセットです。OpenAI の Whisper tiny モデル(パラメータ数はわずか 37M)を使って、VCTK の音声データを前処理し、対応するテキストを生成します。

音声前処理器(processor)と WhisperForConditionalGeneration モジュールは読み込まれています。サンプルの音声データポイント(sample)もすでに用意されています。

Instrukcje

100 XP
  • openai/whisper-tiny チェックポイントで WhisperForConditionalGeneration の事前学習済みモデルを読み込みます。
  • 16000 のサンプリングレートで sample データポイントを前処理します。
  • 前処理済み入力の .input_features 属性を使って、モデルからトークンを生成します。