Esempio di classificazione

Hai già preparato un insieme di tweet russi per la classificazione. Dei 20.000 tweet, hai filtrato quelli con account_type pari a Left o Right, e hai selezionato i primi 2000 tweet per ciascuno. Hai già tokenizzato i tweet in parole, rimosso le stop word ed eseguito lo stemming. Inoltre, hai convertito i conteggi delle parole in una matrice documento-termine con pesi TFIDF e hai salvato questa matrice come: left_right_matrix_small.

Userai questa matrice per prevedere se un tweet è stato generato da un bot con orientamento di sinistra o di destra. Le etichette sono disponibili nel vettore left_right_labels.

Questo esercizio fa parte del corso

Introduzione all'Elaborazione del Linguaggio Naturale in R

Visualizza corso

Istruzioni dell'esercizio

Imposta il seme casuale a 1111 per la riproducibilità.
Crea i dataset di training e di test. Usa un campione del 75% per i dati di training.
Esegui un modello random forest sui dati di training, usando left_right_labels come vettore di risposta y.
Stampa i risultati della random forest.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

library(randomForest)

# Create train/test split
set.___(___)
sample_size <- floor(___ * nrow(left_right_matrix_small))
train_ind <- ___(nrow(left_right_matrix_small), size = ___)
train <- left_right_matrix_small[___, ]
test <- left_right_matrix_small[-___, ]

# Create a random forest classifier
rfc <- randomForest(x = as.data.frame(as.matrix(___)), 
                    y = ___[___],
                    nTree = 50)
# Print the results
___

Modifica ed esegui il codice

Introduzione all'Elaborazione del Linguaggio Naturale in R

IntermediárioNível de habilidade

4.8+

40 reviews

Nel Capitolo 4 trattiamo due pilastri dell’elaborazione del linguaggio naturale: sentiment analysis e word embeddings. Sono due tecniche di analisi imprescindibili per chi studia le basi dell’analisi del testo. Inoltre, imparerai brevemente a conoscere BERT, il part-of-speech tagging e il named entity recognition. In questo corso sono state coperte quasi 15 tecniche di analisi diverse, quindi il Capitolo 4 si chiude ricapitolando tutte le ottime tecniche che imparerai in questo percorso.

Exercise 1: Analisi del sentiment Exercise 2: lessici di tidytext Exercise 3: Punteggi di sentiment Exercise 4: Sentiment ed emozioni Exercise 5: Word embeddings Exercise 6: Esercizio su h2o Exercise 7: word2vec Exercise 8: Analisi NLP aggiuntive Exercise 9: Ripasso dei metodi #1 Exercise 10: Ripasso dei metodi #2 Exercise 11: Conclusione