word2vec

Has estado extrayendo muchos títulos de empleo de internet y no estás seguro de si necesitas recopilar más para tu análisis. Hasta ahora, has reunido más de 13.000 títulos de empleo en un conjunto de datos llamado job_titles. Has leído que word2vec suele rendir mejor cuando el modelo tiene suficientes datos para entrenar adecuadamente y que, si ciertas palabras aparecen muy poco en tus datos, el modelo puede no ser útil.

En este ejercicio vas a comprobar cuánto ayuda añadir más datos ejecutando tu modelo 3 veces; en cada ejecución se utilizarán más datos.

Este ejercicio forma parte del curso

Introducción al procesamiento del lenguaje natural en R

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

library(h2o)
h2o.init()

set.seed(1111)
# Use 33% of the available data
sample_size <- floor(___ * nrow(job_titles))
sample_data <- sample(nrow(job_titles), size = sample_size)

h2o_object = as.h2o(job_titles[sample_data, ])
words <- h2o.tokenize(h2o_object$jobtitle, "\\\\W+")
words <- h2o.tolower(words)
words = words[is.na(words) || (!words %in% stop_words$word),]

word2vec_model <- h2o.word2vec(words, min_word_freq=5, epochs = 10)
# Find synonyms for the word "teacher"
___.___(word2vec_model, "teacher", count=10)

Editar y ejecutar código

Este ejercicio forma parte del curso

Introducción al procesamiento del lenguaje natural en R

IntermedioNivel de habilidad

4.8+

Comienza el curso gratis

El capítulo 1 de Introducción al procesamiento del lenguaje natural te prepara para ejecutar tu primer análisis de texto. Explorarás las expresiones regulares y la tokenización, dos de los componentes más comunes en la mayoría de tareas de análisis. Con las expresiones regulares puedes buscar cualquier patrón que se te ocurra, y con la tokenización puedes preparar y limpiar texto para análisis más sofisticados. Este capítulo es necesario para abordar las técnicas que aprenderemos en los capítulos restantes del curso.

Exercise 1: Conceptos básicos de las expresiones regulares Exercise 2: Practica de sintaxis con grep Exercise 3: Explorando funciones de expresiones regulares.Exercise 4: Tokenización Exercise 5: Funciones de tidytext Exercise 6: Tokenización: oraciones Exercise 7: Conceptos básicos de limpieza de texto Exercise 8: Preprocesamiento de texto: eliminar stop words Exercise 9: Preprocesamiento de texto: stemming

En este capítulo aprenderás las formas más comunes y estudiadas de analizar texto. Verás cómo crear un corpus de texto, ampliar una representación de bolsa de palabras hasta una matriz TFIDF y usar métricas de similitud del coseno para determinar cuán similares son dos fragmentos de texto entre sí. Sobre esta base reforzarás tu práctica de NLP antes de entrar en sus aplicaciones en los capítulos 3 y 4.

Exercise 1: Comprender un corpus en R Exercise 2: Explora un corpus en R Exercise 3: Crear un tibble a partir de un corpus Exercise 4: Crear un corpus Exercise 5: La representación de bolsa de palabras Exercise 6: Practica BoW Exercise 7: Ejemplo de BoW Exercise 8: Matrices dispersas Exercise 9: El TFIDF Exercise 10: Cálculos manuales Exercise 11: Práctica de TFIDF Exercise 12: Similitud coseno Exercise 13: Un ejemplo de cómo fallar en el análisis de texto Exercise 14: Ejemplo de similitud del coseno

El capítulo 3 se centra en dos enfoques habituales de análisis de texto: el modelado de clasificación y el modelado de temas. Si trabajas en proyectos de análisis de texto, inevitablemente usarás uno o ambos métodos. Este capítulo te enseña a realizar ambas técnicas y ofrece ideas sobre cómo abordarlas desde un punto de vista práctico.

Exercise 1: Preparar el texto para el modelado Exercise 2: Preparación de datos Exercise 3: Eliminando términos poco frecuentes Exercise 4: Modelado de clasificación Exercise 5: Ejemplo de modelado de clasificación Exercise 6: Matrices de confusión Exercise 7: TFIDF: tibble vs dtm Exercise 8: Introducción al modelado de temas Exercise 9: Práctica de LDA Exercise 10: Asignar temas a documentos Exercise 11: LDA en la práctica Exercise 12: Probando la perplejidad Exercise 13: Revisar resultados de LDA

En el capítulo 4 cubrimos dos pilares del procesamiento del lenguaje natural: el análisis de sentimiento y las incrustaciones de palabras. Son dos técnicas imprescindibles para quien aprende los fundamentos del análisis de texto. Además, verás brevemente BERT, el etiquetado gramatical (part-of-speech) y el reconocimiento de entidades con nombre. En este curso se han cubierto casi 15 técnicas de análisis diferentes, así que el capítulo 4 termina recapitulando todas las excelentes técnicas que conocerás en este curso.

Exercise 1: Análisis de sentimiento Exercise 2: léxicos de tidytext Exercise 3: Puntajes de sentimiento Exercise 4: Sentimiento y emoción Exercise 5: Word embeddings Exercise 6: Práctica con h2o Exercise 7: word2vec

Ejercicio actual

Exercise 8: Análisis adicional de NLP Exercise 9: Repaso de métodos #1 Exercise 10: Repaso de métodos #2 Exercise 11: Conclusión