ComenzarEmpieza gratis

Ejemplo de modelado de clasificación

Anteriormente preparaste un conjunto de tuits en ruso para clasificación. De los 20.000 tuits, filtraste aquellos con account_type igual a Left o Right, y seleccionaste los primeros 2000 tuits de cada uno. Ya has tokenizado los tuits en palabras, eliminado las stop words y aplicado stemming. Además, convertiste los recuentos de palabras en una matriz documento-término con valores TFIDF como pesos y guardaste esta matriz como: left_right_matrix_small.

Usarás esta matriz para predecir si un tuit fue generado por un bot con inclinación de izquierdas o de derechas. Las etiquetas están en el vector left_right_labels.

Este ejercicio forma parte del curso

Introducción al procesamiento del lenguaje natural en R

Ver curso

Instrucciones del ejercicio

  • Fija la semilla aleatoria en 1111 para garantizar la reproducibilidad.
  • Crea conjuntos de datos de entrenamiento y de prueba. Utiliza una muestra del 75% para los datos de entrenamiento.
  • Ejecuta un modelo de random forest sobre los datos de entrenamiento; usa left_right_labels como vector de respuesta y.
  • Imprime los resultados del random forest.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

library(randomForest)

# Create train/test split
set.___(___)
sample_size <- floor(___ * nrow(left_right_matrix_small))
train_ind <- ___(nrow(left_right_matrix_small), size = ___)
train <- left_right_matrix_small[___, ]
test <- left_right_matrix_small[-___, ]

# Create a random forest classifier
rfc <- randomForest(x = as.data.frame(as.matrix(___)), 
                    y = ___[___],
                    nTree = 50)
# Print the results
___
Editar y ejecutar código