Este exercício faz parte do curso
Este capítulo apresentará alguns conceitos básicos do NLP, como tokenização de palavras e expressões regulares para ajudar a analisar o texto. Você também aprenderá a lidar com textos que não estejam em inglês e com a tokenização mais difícil que possa encontrar.
Este capítulo apresentará a identificação de tópicos, que você pode aplicar a qualquer texto que encontrar na natureza. Usando modelos básicos do NLP, você identificará tópicos de textos com base em frequências de termos. Você fará experimentos e comparará dois métodos simples: bag-of-words e Tf-idf usando NLTK e uma nova biblioteca Gensim.
Este capítulo apresentará um tópico um pouco mais avançado: reconhecimento de entidades nomeadas. Você aprenderá a identificar quem, o quê e onde dos seus textos usando modelos pré-treinados em textos em inglês e em outros idiomas. Você também aprenderá a usar algumas novas bibliotecas, polyglot e spaCy, para adicionar à sua caixa de ferramentas NLP.
Você aplicará os conceitos básicos do que aprendeu, juntamente com um pouco de aprendizado de máquina supervisionado, para criar um detector de "notícias falsas". Você começará aprendendo os fundamentos do aprendizado de máquina supervisionado e, em seguida, avançará escolhendo alguns recursos importantes e testando ideias para identificar e classificar artigos de notícias falsas.
Exercício atual