Neue Sprache erfinden
Zeit, deine Kenntnisse im Umgang mit den Audiomodellen von Hugging Face zu vervollständigen! Du wirst ein genau abgestimmtes Modell verwenden, um neue Sprache für eine bestimmte Stimme zu generieren. Du suchst dir eine Stimme aus dem VCTK-Korpus als Grundlage für die neue Audiodatei aus.
Die Modelle „ dataset “ und „ SpeechT5ForTextToSpeech “ (model) sind schon geladen und die Funktion „ make_spectogram() “ hilft beim Zeichnen.
Diese Übung ist Teil des Kurses
<Kurs>Multimodale Modelle mit Hugging Face</Kurs>Übungsanweisungen
- Lade eine Beispiel-Lautsprechereinbettung aus dem Index „
5” des Testdatensatzes „dataset”. - Erzeuge die Sprache aus dem bearbeiteten Text, indem du „
inputs“, „speaker_embedding“ und „vocoder“ angibst.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
text = "Hi, welcome to your new voice."
# Load a speaker embedding from the dataset
speaker_embedding = torch.tensor(dataset[5]["____"]).unsqueeze(0)
inputs = processor(text=text, return_tensors="pt")
vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
# Generate speech
speech = model.generate_speech(____["input_ids"], ____, ____=____)
make_spectrogram(speech)