IniziaInizia gratis

Esempio di classificazione

Hai già preparato un insieme di tweet russi per la classificazione. Dei 20.000 tweet, hai filtrato quelli con account_type pari a Left o Right, e hai selezionato i primi 2000 tweet per ciascuno. Hai già tokenizzato i tweet in parole, rimosso le stop word ed eseguito lo stemming. Inoltre, hai convertito i conteggi delle parole in una matrice documento-termine con pesi TFIDF e hai salvato questa matrice come: left_right_matrix_small.

Userai questa matrice per prevedere se un tweet è stato generato da un bot con orientamento di sinistra o di destra. Le etichette sono disponibili nel vettore left_right_labels.

Questo esercizio fa parte del corso

Introduzione all'Elaborazione del Linguaggio Naturale in R

Visualizza il corso

Istruzioni dell'esercizio

  • Imposta il seme casuale a 1111 per la riproducibilità.
  • Crea i dataset di training e di test. Usa un campione del 75% per i dati di training.
  • Esegui un modello random forest sui dati di training, usando left_right_labels come vettore di risposta y.
  • Stampa i risultati della random forest.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

library(randomForest)

# Create train/test split
set.___(___)
sample_size <- floor(___ * nrow(left_right_matrix_small))
train_ind <- ___(nrow(left_right_matrix_small), size = ___)
train <- left_right_matrix_small[___, ]
test <- left_right_matrix_small[-___, ]

# Create a random forest classifier
rfc <- randomForest(x = as.data.frame(as.matrix(___)), 
                    y = ___[___],
                    nTree = 50)
# Print the results
___
Modifica ed esegui il codice