ComeçarComece de graça

Exemplo de modelagem de classificação

Você já preparou um conjunto de tweets em russo para classificação. Dos 20.000 tweets, você filtrou aqueles com account_type igual a Left ou Right e selecionou os primeiros 2000 tweets de cada um. Você já tokenizou os tweets em palavras, removeu stop words e aplicou stemming. Além disso, converteu as contagens de palavras em uma matriz documento-termo com valores TFIDF como pesos e salvou essa matriz como: left_right_matrix_small.

Você usará essa matriz para prever se um tweet foi gerado por um bot com inclinação à esquerda ou por um bot com inclinação à direita. Os rótulos podem ser encontrados no vetor left_right_labels.

Este exercício faz parte do curso

Introdução ao Processamento de Linguagem Natural em R

Ver curso

Instruções do exercício

  • Defina a semente aleatória como 1111 para reprodutibilidade.
  • Crie conjuntos de treino e teste. Use uma amostra de 75% para os dados de treino.
  • Execute um modelo de random forest nos dados de treino; use left_right_labels como o vetor de resposta y.
  • Imprima os resultados do random forest.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

library(randomForest)

# Create train/test split
set.___(___)
sample_size <- floor(___ * nrow(left_right_matrix_small))
train_ind <- ___(nrow(left_right_matrix_small), size = ___)
train <- left_right_matrix_small[___, ]
test <- left_right_matrix_small[-___, ]

# Create a random forest classifier
rfc <- randomForest(x = as.data.frame(as.matrix(___)), 
                    y = ___[___],
                    nTree = 50)
# Print the results
___
Editar e executar o código