Crie uma matriz documento-termo
Tomara que você não esteja muito cansado depois de todo esse trabalho básico de mineração de texto! Só por via das dúvidas, vamos voltar ao tema café e pegar um Starbucks enquanto criamos uma matriz documento-termo a partir de tweets sobre café.
Começando pelo arquivo coffee.csv, aplicamos transformações comuns para produzir um corpus limpo chamado clean_corp.
A matriz documento-termo é usada quando você quer cada documento representado como uma linha. Isso pode ser útil se você estiver comparando autores por linha ou se os dados estiverem organizados cronologicamente e você quiser preservar a série temporal. O pacote tm usa a classe "simple triplet matrix". No entanto, muitas vezes é mais fácil manipular e examinar o objeto reclasseficando a DTM com as.matrix()
Este exercício faz parte do curso
Mineração de Texto com Bag-of-Words em R
Instruções do exercício
- Crie
coffee_dtmaplicandoDocumentTermMatrix()aclean_corp. - Crie
coffee_m, uma versão em matriz decoffee_dtm, usandoas.matrix(). - Imprima as dimensões de
coffee_mno console usando a funçãodim(). Observe o número de linhas e colunas. - Imprima o subconjunto de
coffee_mcontendo os documentos (linhas) de 25 a 35 e os termos (colunas)"star"e"starbucks".
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create the document-term matrix from the corpus
coffee_dtm <- ___
# Print out coffee_dtm data
coffee_dtm
# Convert coffee_dtm to a matrix
coffee_m <- ___
# Print the dimensions of coffee_m
___
# Review a portion of the matrix to get some Starbucks
___[___:___, c("star", "___")]