1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Mô hình đa phương thức với Hugging Face

Connected

Bài tập

Nhận dạng giọng nói tự động

Trong bài tập này, bạn sẽ dùng AI để tự động chuyển âm thanh thành văn bản! Bạn sẽ tiếp tục làm việc với VCTK Corpus, bộ dữ liệu khoảng 44 giờ lời nói của người nói tiếng Anh với nhiều giọng khác nhau. Bạn sẽ dùng Whisper tiny của OpenAI, chỉ có 37M tham số, để tiền xử lý dữ liệu âm thanh VCTK và tạo ra văn bản tương ứng.

Bộ tiền xử lý âm thanh (processor) đã được nạp, cũng như mô-đun WhisperForConditionalGeneration. Một mẫu dữ liệu âm thanh (sample) cũng đã được chuẩn bị sẵn.

Hướng dẫn

100 XP
  • Tải mô hình pretrained WhisperForConditionalGeneration bằng checkpoint openai/whisper-tiny.
  • Tiền xử lý điểm dữ liệu sample với tần số lấy mẫu yêu cầu là 16000.
  • Sinh token từ mô hình bằng thuộc tính .input_features của input đã tiền xử lý.