自動音声認識

この演習では、AI を使って音声を自動でテキストに書き起こします。再び VCTK Corpus を使います。これは、さまざまなアクセントを持つ英語話者による約 44 時間分の音声を収録したデータセットです。OpenAI の Whisper tiny モデル（パラメータ数はわずか 37M）を使って、VCTK の音声データを前処理し、対応するテキストを生成します。

音声前処理器（processor）と WhisperForConditionalGeneration モジュールは読み込まれています。サンプルの音声データポイント（sample）もすでに用意されています。