Ejemplo de modelado de clasificación

Anteriormente preparaste un conjunto de tuits en ruso para clasificación. De los 20.000 tuits, filtraste aquellos con account_type igual a Left o Right, y seleccionaste los primeros 2000 tuits de cada uno. Ya has tokenizado los tuits en palabras, eliminado las stop words y aplicado stemming. Además, convertiste los recuentos de palabras en una matriz documento-término con valores TFIDF como pesos y guardaste esta matriz como: left_right_matrix_small.

Usarás esta matriz para predecir si un tuit fue generado por un bot con inclinación de izquierdas o de derechas. Las etiquetas están en el vector left_right_labels.

Este ejercicio forma parte del curso

Introducción al procesamiento del lenguaje natural en R

Ver curso

Instrucciones del ejercicio

Fija la semilla aleatoria en 1111 para garantizar la reproducibilidad.
Crea conjuntos de datos de entrenamiento y de prueba. Utiliza una muestra del 75% para los datos de entrenamiento.
Ejecuta un modelo de random forest sobre los datos de entrenamiento; usa left_right_labels como vector de respuesta y.
Imprime los resultados del random forest.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

library(randomForest)

# Create train/test split
set.___(___)
sample_size <- floor(___ * nrow(left_right_matrix_small))
train_ind <- ___(nrow(left_right_matrix_small), size = ___)
train <- left_right_matrix_small[___, ]
test <- left_right_matrix_small[-___, ]

# Create a random forest classifier
rfc <- randomForest(x = as.data.frame(as.matrix(___)), 
                    y = ___[___],
                    nTree = 50)
# Print the results
___

Editar y ejecutar código

Introducción al procesamiento del lenguaje natural en R

IntermedioNivel de habilidad

4.8+

40 reviews

En el capítulo 4 cubrimos dos pilares del procesamiento del lenguaje natural: el análisis de sentimiento y las incrustaciones de palabras. Son dos técnicas imprescindibles para quien aprende los fundamentos del análisis de texto. Además, verás brevemente BERT, el etiquetado gramatical (part-of-speech) y el reconocimiento de entidades con nombre. En este curso se han cubierto casi 15 técnicas de análisis diferentes, así que el capítulo 4 termina recapitulando todas las excelentes técnicas que conocerás en este curso.

Exercise 1: Análisis de sentimiento Exercise 2: léxicos de tidytext Exercise 3: Puntajes de sentimiento Exercise 4: Sentimiento y emoción Exercise 5: Word embeddings Exercise 6: Práctica con h2o Exercise 7: word2vec Exercise 8: Análisis adicional de NLP Exercise 9: Repaso de métodos #1 Exercise 10: Repaso de métodos #2 Exercise 11: Conclusión