Exemplo de modelagem de classificação

Você já preparou um conjunto de tweets em russo para classificação. Dos 20.000 tweets, você filtrou aqueles com account_type igual a Left ou Right e selecionou os primeiros 2000 tweets de cada um. Você já tokenizou os tweets em palavras, removeu stop words e aplicou stemming. Além disso, converteu as contagens de palavras em uma matriz documento-termo com valores TFIDF como pesos e salvou essa matriz como: left_right_matrix_small.

Você usará essa matriz para prever se um tweet foi gerado por um bot com inclinação à esquerda ou por um bot com inclinação à direita. Os rótulos podem ser encontrados no vetor left_right_labels.

Este exercicio faz parte do curso

Introdução ao Processamento de Linguagem Natural em R

Ver curso

Instruções do exercicio

Defina a semente aleatória como 1111 para reprodutibilidade.
Crie conjuntos de treino e teste. Use uma amostra de 75% para os dados de treino.
Execute um modelo de random forest nos dados de treino; use left_right_labels como o vetor de resposta y.
Imprima os resultados do random forest.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

library(randomForest)

# Create train/test split
set.___(___)
sample_size <- floor(___ * nrow(left_right_matrix_small))
train_ind <- ___(nrow(left_right_matrix_small), size = ___)
train <- left_right_matrix_small[___, ]
test <- left_right_matrix_small[-___, ]

# Create a random forest classifier
rfc <- randomForest(x = as.data.frame(as.matrix(___)), 
                    y = ___[___],
                    nTree = 50)
# Print the results
___

Editar e Executar Código

Introdução ao Processamento de Linguagem Natural em R

IntermediárioNível de habilidade

4.8+

40 reviews

No Capítulo 4, cobrimos dois pilares do processamento de linguagem natural: análise de sentimentos e word embeddings. Essas são duas técnicas essenciais para quem está aprendendo os fundamentos de análise de texto. Além disso, você vai aprender brevemente sobre BERT, marcação de classe gramatical (part-of-speech tagging) e reconhecimento de entidades nomeadas. Quase 15 técnicas de análise diferentes foram abordadas neste curso, então o Capítulo 4 termina recapitulando todas as ótimas técnicas que você conhecerá aqui.

Exercise 1: Análise de sentimento Exercise 2: lexicons do tidytext Exercise 3: Scores de sentimento Exercise 4: Sentimento e emoção Exercise 5: Word embeddings Exercise 6: Prática com h2o Exercise 7: word2vec Exercise 8: Análises adicionais de NLP Exercise 9: Revisando métodos #1 Exercise 10: Revisão de métodos #2 Exercise 11: Conclusão