Este ejercicio forma parte del curso
Este capítulo introducirá algunos conceptos básicos de NLP, como la tokenización de palabras y las expresiones regulares para ayudar a analizar el texto. También aprenderás a manejar texto no inglés y tokenización más difícil.
Este capítulo te presentará la identificación del tema, que podrás aplicar a cualquier texto que encuentres en la vida real. Utilizando los modelos básicos de NLP, identificarás los temas de los textos basándote en las frecuencias de los términos. Experimentarás y compararás dos métodos sencillos: bolsa de palabras y Tf-idf utilizando NLTK, y una nueva biblioteca Gensim.
Este capítulo presentará un tema algo más avanzado: el reconocimiento de entidades nombradas. Aprenderás a identificar el quién, el qué y el dónde de tus textos utilizando modelos preentrenados en textos ingleses y no ingleses. También aprenderás a utilizar algunas bibliotecas nuevas, polyglot y spaCy, para añadirlas a tu caja de herramientas de NLP.
Aplicarás los elementos básicos aprendidos junto con algo de machine learning supervisado para construir un detector de noticias falsas. Empezarás aprendiendo las nociones básicas del machine learning supervisado y luego elegirás unas cuantas funciones importantes y probarás ideas para identificar y clasificar artículos de noticias falsas.
Ejercicio actual