Exemplo de modelagem de classificação
Você já preparou um conjunto de tweets em russo para classificação. Dos 20.000 tweets, você filtrou aqueles com account_type igual a Left ou Right e selecionou os primeiros 2000 tweets de cada um. Você já tokenizou os tweets em palavras, removeu stop words e aplicou stemming. Além disso, converteu as contagens de palavras em uma matriz documento-termo com valores TFIDF como pesos e salvou essa matriz como: left_right_matrix_small.
Você usará essa matriz para prever se um tweet foi gerado por um bot com inclinação à esquerda ou por um bot com inclinação à direita. Os rótulos podem ser encontrados no vetor left_right_labels.
Este exercício faz parte do curso
Introdução ao Processamento de Linguagem Natural em R
Instruções do exercício
- Defina a semente aleatória como
1111para reprodutibilidade. - Crie conjuntos de treino e teste. Use uma amostra de 75% para os dados de treino.
- Execute um modelo de random forest nos dados de treino; use
left_right_labelscomo o vetor de respostay. - Imprima os resultados do random forest.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
library(randomForest)
# Create train/test split
set.___(___)
sample_size <- floor(___ * nrow(left_right_matrix_small))
train_ind <- ___(nrow(left_right_matrix_small), size = ___)
train <- left_right_matrix_small[___, ]
test <- left_right_matrix_small[-___, ]
# Create a random forest classifier
rfc <- randomForest(x = as.data.frame(as.matrix(___)),
y = ___[___],
nTree = 50)
# Print the results
___