Esempio di classificazione
Hai già preparato un insieme di tweet russi per la classificazione. Dei 20.000 tweet, hai filtrato quelli con account_type pari a Left o Right, e hai selezionato i primi 2000 tweet per ciascuno. Hai già tokenizzato i tweet in parole, rimosso le stop word ed eseguito lo stemming. Inoltre, hai convertito i conteggi delle parole in una matrice documento-termine con pesi TFIDF e hai salvato questa matrice come: left_right_matrix_small.
Userai questa matrice per prevedere se un tweet è stato generato da un bot con orientamento di sinistra o di destra. Le etichette sono disponibili nel vettore left_right_labels.
Questo esercizio fa parte del corso
Introduzione all'Elaborazione del Linguaggio Naturale in R
Istruzioni dell'esercizio
- Imposta il seme casuale a
1111per la riproducibilità. - Crea i dataset di training e di test. Usa un campione del 75% per i dati di training.
- Esegui un modello random forest sui dati di training, usando
left_right_labelscome vettore di rispostay. - Stampa i risultati della random forest.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
library(randomForest)
# Create train/test split
set.___(___)
sample_size <- floor(___ * nrow(left_right_matrix_small))
train_ind <- ___(nrow(left_right_matrix_small), size = ___)
train <- left_right_matrix_small[___, ]
test <- left_right_matrix_small[-___, ]
# Create a random forest classifier
rfc <- randomForest(x = as.data.frame(as.matrix(___)),
y = ___[___],
nTree = 50)
# Print the results
___