ComeçarComece de graça

Crie uma matriz documento-termo

Tomara que você não esteja muito cansado depois de todo esse trabalho básico de mineração de texto! Só por via das dúvidas, vamos voltar ao tema café e pegar um Starbucks enquanto criamos uma matriz documento-termo a partir de tweets sobre café.

Começando pelo arquivo coffee.csv, aplicamos transformações comuns para produzir um corpus limpo chamado clean_corp.

A matriz documento-termo é usada quando você quer cada documento representado como uma linha. Isso pode ser útil se você estiver comparando autores por linha ou se os dados estiverem organizados cronologicamente e você quiser preservar a série temporal. O pacote tm usa a classe "simple triplet matrix". No entanto, muitas vezes é mais fácil manipular e examinar o objeto reclasseficando a DTM com as.matrix()

Este exercício faz parte do curso

Mineração de Texto com Bag-of-Words em R

Ver curso

Instruções do exercício

  • Crie coffee_dtm aplicando DocumentTermMatrix() a clean_corp.
  • Crie coffee_m, uma versão em matriz de coffee_dtm, usando as.matrix().
  • Imprima as dimensões de coffee_m no console usando a função dim(). Observe o número de linhas e colunas.
  • Imprima o subconjunto de coffee_m contendo os documentos (linhas) de 25 a 35 e os termos (colunas) "star" e "starbucks".

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create the document-term matrix from the corpus
coffee_dtm <- ___

# Print out coffee_dtm data
coffee_dtm

# Convert coffee_dtm to a matrix
coffee_m <- ___

# Print the dimensions of coffee_m
___

# Review a portion of the matrix to get some Starbucks
___[___:___, c("star", "___")]
Editar e executar o código