Crie uma matriz termo-documento

Você está quase concluindo a parte básica (e não tão empolgante) antes de partir para visualizações e análises mais divertidas com base nos conceitos que aprendeu até aqui!

Neste exercício, você fará um processo semelhante, mas usando a transposição da matriz documento-termo. Neste caso, a matriz termo-documento tem os termos na primeira coluna e os documentos no topo como nomes de colunas individuais.

A TDM é frequentemente a matriz usada para análise de linguagem. Isso porque normalmente você tem mais termos do que autores ou documentos, e a vida costuma ser mais fácil quando há mais linhas do que colunas. Uma forma simples de começar a analisar as informações é transformar a TDM em uma matriz comum usando as.matrix().

Este exercício faz parte do curso

Mineração de Texto com Bag-of-Words em R

Ver curso

Instruções do exercício

Crie coffee_tdm aplicando TermDocumentMatrix() a clean_corp.
Crie coffee_m convertendo coffee_tdm em uma matriz usando as.matrix().
Imprima no console as dimensões de coffee_m. Observe o número de linhas e colunas.
Imprima o subconjunto de coffee_m contendo os termos (linhas) "star" e "starbucks" e os documentos (colunas) de 25 a 35.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create a term-document matrix from the corpus
coffee_tdm <- ___

# Print coffee_tdm data
coffee_tdm

# Convert coffee_tdm to a matrix
coffee_m <- ___

# Print the dimensions of the matrix
___

# Review a portion of the matrix
___[___, ___]

Editar e executar o código