Nhiều người nói 2

Phân biệt nhiều người nói trong cùng một tệp âm thanh được gọi là speaker diarization. Tuy nhiên, như bạn đã thấy, hàm miễn phí mà chúng ta đang dùng, recognize_google(), không có khả năng phiên âm theo từng người nói khác nhau.

Một cách xử lý, nếu không dùng các dịch vụ chuyển giọng nói thành văn bản trả phí, là đảm bảo các tệp âm thanh của bạn chỉ có một người nói.

Điều này có nghĩa là nếu bạn làm việc với dữ liệu cuộc gọi điện thoại, bạn sẽ đảm bảo người gọi và người nghe được ghi âm tách biệt. Khi đó bạn có thể phiên âm từng tệp riêng lẻ.

Trong bài tập này, chúng ta sẽ phiên âm từng người nói trong tệp âm thanh nhiều người nói một cách riêng biệt.

Truyền speakers vào hàm enumerate() để lặp qua các người nói khác nhau.
Gọi record() trên recognizer để chuyển các AudioFile thành AudioData.
Dùng recognize_google() để phiên âm từng đối tượng speaker_audio.

Exercise

Nhiều người nói 2

Instructions

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Exercise

Instructions

Exercise