ComeçarComece de graça

Criando um tibble a partir de um corpus

Para explorar melhor o corpus sobre dados de petróleo bruto que você recebeu de um colega, você decidiu criar um pipeline para limpar o texto contido nos documentos. Em vez de usar o pacote tm, você optou por transformar o corpus em um tibble para poder usar as funções unnest_tokens(), count() e anti_join() com as quais você já está familiarizado. O corpus crude contém tanto os metadados quanto o texto de cada documento.

Este exercício faz parte do curso

Introdução ao Processamento de Linguagem Natural em R

Ver curso

Instruções do exercício

  • Converta o corpus em um tibble.
  • Use names para imprimir os nomes das colunas.
  • Tokenize (por palavra), faça a contagem e remova as stop words da coluna text de crude_tibble.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create a tibble & Review
crude_tibble <- ___(crude)
___(crude_tibble)

crude_counts <- crude_tibble %>%
  # Tokenize by word 
  ___(___, text) %>%
  # Count by word
  ___(word, sort = TRUE) %>%
  # Remove stop words
  ___(stop_words)
Editar e executar o código