LoslegenKostenlos starten

Neue Sprache erfinden

Zeit, deine Kenntnisse im Umgang mit den Audiomodellen von Hugging Face zu vervollständigen! Du wirst ein genau abgestimmtes Modell verwenden, um neue Sprache für eine bestimmte Stimme zu generieren. Du suchst dir eine Stimme aus dem VCTK-Korpus als Grundlage für die neue Audiodatei aus.

Die Modelle „ dataset “ und „ SpeechT5ForTextToSpeech “ (model) sind schon geladen und die Funktion „ make_spectogram() “ hilft beim Zeichnen.

Diese Übung ist Teil des Kurses

<Kurs>Multimodale Modelle mit Hugging Face</Kurs>
Kurs ansehen

Übungsanweisungen

  • Lade eine Beispiel-Lautsprechereinbettung aus dem Index „ 5 ” des Testdatensatzes „ dataset ”.
  • Erzeuge die Sprache aus dem bearbeiteten Text, indem du „ inputs “, „ speaker_embedding “ und „ vocoder “ angibst.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

text = "Hi, welcome to your new voice."

# Load a speaker embedding from the dataset
speaker_embedding = torch.tensor(dataset[5]["____"]).unsqueeze(0)

inputs = processor(text=text, return_tensors="pt")
vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")

# Generate speech
speech = model.generate_speech(____["input_ids"], ____, ____=____)

make_spectrogram(speech)
Code bearbeiten und ausführen