Crie uma matriz termo-documento
Você está quase concluindo a parte básica (e não tão empolgante) antes de partir para visualizações e análises mais divertidas com base nos conceitos que aprendeu até aqui!
Neste exercício, você fará um processo semelhante, mas usando a transposição da matriz documento-termo. Neste caso, a matriz termo-documento tem os termos na primeira coluna e os documentos no topo como nomes de colunas individuais.
A TDM é frequentemente a matriz usada para análise de linguagem. Isso porque normalmente você tem mais termos do que autores ou documentos, e a vida costuma ser mais fácil quando há mais linhas do que colunas. Uma forma simples de começar a analisar as informações é transformar a TDM em uma matriz comum usando as.matrix().
Este exercício faz parte do curso
Mineração de Texto com Bag-of-Words em R
Instruções do exercício
- Crie
coffee_tdmaplicandoTermDocumentMatrix()aclean_corp. - Crie
coffee_mconvertendocoffee_tdmem uma matriz usandoas.matrix(). - Imprima no console as dimensões de
coffee_m. Observe o número de linhas e colunas. - Imprima o subconjunto de
coffee_mcontendo os termos (linhas)"star"e"starbucks"e os documentos (colunas) de 25 a 35.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a term-document matrix from the corpus
coffee_tdm <- ___
# Print coffee_tdm data
coffee_tdm
# Convert coffee_tdm to a matrix
coffee_m <- ___
# Print the dimensions of the matrix
___
# Review a portion of the matrix
___[___, ___]