Gerando nova fala

É hora de dominar o uso dos modelos de áudio do Hugging Face! Você vai usar um modelo bem ajustado pra gerar uma nova fala pra uma voz específica. Você vai escolher uma voz do Corpus VCTK como base para o novo áudio.

Os modelos dataset e SpeechT5ForTextToSpeech (model) já foram carregados, e uma função make_spectogram() foi fornecida para ajudar no traçado.

Este exercicio faz parte do curso

Modelos multimodais com Hugging Face

Instruções do exercicio

Carregue uma amostra de incorporação de alto-falante do índice 5 do teste dataset.
Crie o discurso a partir do texto processado, especificando o inputs, speaker_embedding e vocoder.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

text = "Hi, welcome to your new voice."

# Load a speaker embedding from the dataset
speaker_embedding = torch.tensor(dataset[5]["____"]).unsqueeze(0)

inputs = processor(text=text, return_tensors="pt")
vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")

# Generate speech
speech = model.generate_speech(____["input_ids"], ____, ____=____)

make_spectrogram(speech)

Editar e Executar Código

Este exercicio faz parte do curso

Modelos multimodais com Hugging Face

IntermediárioNível de habilidade

4.9+

Comece o curso gratuitamente

Dá uma olhada no hub de modelos do Hugging Face, transforma texto bruto, áudio e dados visuais em formatos que a IA curte. Aprenda a encontrar os modelos mais recentes e populares para tarefas como geração de texto e aproveite o poder dos pipelines pré-construídos.

Exercise 1: Navegação pelo modelo Hugging Face Exercise 2: Quantos modelos!?Exercise 3: Encontrando o modelo de texto para imagem mais popular Exercise 4: Pré-processamento de diferentes modalidades Exercise 5: Tokenização de texto Exercise 6: Pré-processamento de imagens Exercise 7: Pré-processamento de áudio Exercise 8: Tarefas e avaliações do pipeline Exercise 9: Geração de legendas de pipeline Exercise 10: Passando argumentos nomeados Exercise 11: Avaliação do modelo em um conjunto de dados personalizado

Aprenda a dominar modalidades individuais com modelos de última geração. Mergulhe na visão computacional para classificação e segmentação de imagens, explore o reconhecimento de voz e a síntese de texto para voz e aprenda técnicas eficazes de ajuste fino. Desenvolva habilidades práticas com modelos pré-treinados da biblioteca de transformadores da Hugging Face.

Exercise 1: Visão computacional Exercise 2: Classificação de imagens Exercise 3: Detecção de objetos Exercise 4: Remoção do fundo da imagem Exercise 5: Ajustando modelos de visão computacional Exercise 6: Ajustes no currículo: preparação do conjunto de dados Exercise 7: Ajustes no CV: classes do modelo Exercise 8: Ajustes finos no CV: configuração do treinador Exercise 9: Reconhecimento de voz e geração de áudio Exercise 10: Reconhecimento automático de voz Exercise 11: Criando incorporações de fala Exercise 12: Remoção de ruído de áudio Exercise 13: Ajustando modelos de conversão de texto em fala Exercise 14: Ajustando um modelo de conversão de texto em fala Exercise 15: Gerando nova fala

Exercicio Atual

Aprenda a juntar informações visuais, textuais e de áudio para ter aplicativos de IA mais legais. Domine técnicas como CLIP para classificação zero-shot, crie analisadores de sentimentos que veem e leem e crie detectores de emoções que combinam expressões faciais com a voz. Leve seus modelos de IA além do pensamento de modalidade única.

Exercise 1: Classificação de imagens sem treino prévio Exercise 2: Aprendizado zero-shot com CLIP Exercise 3: Avaliação automatizada da qualidade de legendas Exercise 4: Análise multimodal de sentimentos Exercise 5: Modelos de linguagem de visão por prompt (VLMs)Exercise 6: Classificação multimodal de sentimentos com Qwen Exercise 7: Classificação de vídeo sem treino prévio Exercise 8: Separação de áudio e vídeo Exercise 9: Análise de sentimento em vídeo com CLIP CLAP

Transforme suas ideias em realidade! Domine técnicas de IA de ponta para criar e mexer em conteúdo visual usando comandos de texto. Crie imagens incríveis, edite fotos de forma inteligente e crie sistemas poderosos de perguntas e respostas para imagens e documentos. Transforme sua visão criativa em realidade digital com IA multimodal.

Exercise 1: Resposta visual a perguntas (VQA)Exercise 2: VQA com Transformadores de Linguagem Visual (ViLTs)Exercise 3: Documentar VQA com LayoutLM Exercise 4: Edição de imagens com modelos de difusão Exercise 5: Edição personalizada de imagens Exercise 6: Preenchimento de imagens Exercise 7: Geração de vídeo Exercise 8: Crie um vídeo!Exercise 9: Avaliando o desempenho da geração de vídeos Exercise 10: Parabéns!