LoslegenKostenlos loslegen

Neue Sprache erfinden

Zeit, deine Kenntnisse im Umgang mit den Audiomodellen von Hugging Face zu vervollständigen! Du wirst ein genau abgestimmtes Modell verwenden, um neue Sprache für eine bestimmte Stimme zu generieren. Du suchst dir eine Stimme aus dem VCTK-Korpus als Grundlage für die neue Audiodatei aus.

Die Modelle „ dataset “ und „ SpeechT5ForTextToSpeech “ (model) sind schon geladen und die Funktion „ make_spectogram() “ hilft beim Zeichnen.

Diese Übung ist Teil des Kurses

Multimodale Modelle mit Hugging Face

Kurs anzeigen

Anleitung zur Übung

  • Lade eine Beispiel-Lautsprechereinbettung aus dem Index „ 5 ” des Testdatensatzes „ dataset ”.
  • Erzeuge die Sprache aus dem bearbeiteten Text, indem du „ inputs “, „ speaker_embedding “ und „ vocoder “ angibst.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

text = "Hi, welcome to your new voice."

# Load a speaker embedding from the dataset
speaker_embedding = torch.tensor(dataset[5]["____"]).unsqueeze(0)

inputs = processor(text=text, return_tensors="pt")
vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")

# Generate speech
speech = model.generate_speech(____["input_ids"], ____, ____=____)

make_spectrogram(speech)
Code bearbeiten und ausführen