word2vec
Has estado extrayendo muchos títulos de empleo de internet y no estás seguro de si necesitas recopilar más para tu análisis. Hasta ahora, has reunido más de 13.000 títulos de empleo en un conjunto de datos llamado job_titles. Has leído que word2vec suele rendir mejor cuando el modelo tiene suficientes datos para entrenar adecuadamente y que, si ciertas palabras aparecen muy poco en tus datos, el modelo puede no ser útil.
En este ejercicio vas a comprobar cuánto ayuda añadir más datos ejecutando tu modelo 3 veces; en cada ejecución se utilizarán más datos.
Este ejercicio forma parte del curso
Introducción al procesamiento del lenguaje natural en R
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
library(h2o)
h2o.init()
set.seed(1111)
# Use 33% of the available data
sample_size <- floor(___ * nrow(job_titles))
sample_data <- sample(nrow(job_titles), size = sample_size)
h2o_object = as.h2o(job_titles[sample_data, ])
words <- h2o.tokenize(h2o_object$jobtitle, "\\\\W+")
words <- h2o.tolower(words)
words = words[is.na(words) || (!words %in% stop_words$word),]
word2vec_model <- h2o.word2vec(words, min_word_freq=5, epochs = 10)
# Find synonyms for the word "teacher"
___.___(word2vec_model, "teacher", count=10)