Criando um tibble a partir de um corpus
Para explorar melhor o corpus sobre dados de petróleo bruto que você recebeu de um colega, você decidiu criar um pipeline para limpar o texto contido nos documentos. Em vez de usar o pacote tm, você optou por transformar o corpus em um tibble para poder usar as funções unnest_tokens(), count() e anti_join() com as quais você já está familiarizado. O corpus crude contém tanto os metadados quanto o texto de cada documento.
Este exercício faz parte do curso
Introdução ao Processamento de Linguagem Natural em R
Instruções do exercício
- Converta o corpus em um tibble.
- Use
namespara imprimir os nomes das colunas. - Tokenize (por palavra), faça a contagem e remova as stop words da coluna
textdecrude_tibble.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a tibble & Review
crude_tibble <- ___(crude)
___(crude_tibble)
crude_counts <- crude_tibble %>%
# Tokenize by word
___(___, text) %>%
# Count by word
___(word, sort = TRUE) %>%
# Remove stop words
___(stop_words)