音声データセットの前処理

精密農業アプリケーションを拡張し、農家が音声コマンドで機械を操作できるようにしましょう。このシステムは、「Turn on the sprinkler irrigation system.」のようなコマンドからキーワードを認識する必要があります。

「on」などのキーワードの音声クリップを含む、キーワード検出データセットを活用します。事前学習済みの Transformer モデルで使用できるよう、音声ファイルを前処理しましょう。

以下のデータはあらかじめ読み込まれています。

dataset には音声ファイルのサンプル訓練データセットが含まれています。すでに train スプリットが含まれているため、dataset を使用する際に train を指定する必要はありません。
AutoFeatureExtractor は transformers からインポート済みです。
model は facebook/wav2vec2-base に設定されています。
max_duration は 1 秒として定義されています。

この演習はコースの一部です

PyTorch による効率的な AI モデルトレーニング

コースを見る

演習の手順

AutoFeatureExtractor クラスを使って、事前学習済みの feature_extractor を読み込みましょう。
feature_extractor のサンプリングレートを使って sampling_rate を設定しましょう。
max_duration を使って audio_arrays の max_length を設定しましょう。

実践的なインタラクティブ演習

このサンプルコードを完成させて、この演習に挑戦してみましょう。

# Load a pre-trained feature extractor
feature_extractor = ____.____(model)

def preprocess_function(examples):
    audio_arrays = [x["array"] for x in examples["audio"]]
    inputs = feature_extractor(
        audio_arrays,
        # Set the sampling rate
        sampling_rate=____.____, 
        # Set the max length
        max_length=int(feature_extractor.sampling_rate * max_duration), 
        truncation=True)
    return inputs

encoded_dataset = dataset.map(preprocess_function, remove_columns=["audio", "file"], batched=True)

コードを編集して実行