or
Este exercício faz parte do curso
Aprenda a calcular features básicas como número de palavras, número de caracteres, comprimento médio das palavras e quantidade de caracteres especiais (como hashtags e menções do Twitter). Você também vai aprender a calcular índices de legibilidade e a determinar o nível de escolaridade necessário para compreender um texto.
Neste capítulo, você vai aprender sobre tokenização e lematização. Em seguida, verá como realizar limpeza de texto, marcação de classes gramaticais (part-of-speech) e reconhecimento de entidades nomeadas usando a biblioteca spaCy. Depois de dominar esses conceitos, você vai tornar o discurso de Gettysburg legível por máquina, analisar o uso de substantivos em notícias falsas e identificar pessoas mencionadas em um artigo do TechCrunch.
Aprenda sobre modelagem com n-gramas e use isso para realizar análise de sentimento em críticas de filmes.
Aprenda a calcular pesos tf-idf e a medida de similaridade de cosseno entre dois vetores. Você vai usar esses conceitos para construir um recomendador de filmes e de TED Talks. Por fim, você também vai aprender sobre word embeddings e, usando representações vetoriais de palavras, vai calcular similaridades entre várias músicas do Pink Floyd.
Exercício atual