Neue Sprache erfinden
Zeit, deine Kenntnisse im Umgang mit den Audiomodellen von Hugging Face zu vervollständigen! Du wirst ein genau abgestimmtes Modell verwenden, um neue Sprache für eine bestimmte Stimme zu generieren. Du suchst dir eine Stimme aus dem VCTK-Korpus als Grundlage für die neue Audiodatei aus.
Die Modelle „ dataset “ und „ SpeechT5ForTextToSpeech “ (model) sind schon geladen und die Funktion „ make_spectogram() “ hilft beim Zeichnen.
Diese Übung ist Teil des Kurses
Multimodale Modelle mit Hugging Face
Anleitung zur Übung
- Lade eine Beispiel-Lautsprechereinbettung aus dem Index „
5” des Testdatensatzes „dataset”. - Erzeuge die Sprache aus dem bearbeiteten Text, indem du „
inputs“, „speaker_embedding“ und „vocoder“ angibst.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
text = "Hi, welcome to your new voice."
# Load a speaker embedding from the dataset
speaker_embedding = torch.tensor(dataset[5]["____"]).unsqueeze(0)
inputs = processor(text=text, return_tensors="pt")
vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
# Generate speech
speech = model.generate_speech(____["input_ids"], ____, ____=____)
make_spectrogram(speech)