ComeçarComece de graça

Alterando colunas

Pode parecer surpreendente, mas nem todo conjunto de dados começa perfeitamente limpo! Muitas vezes você precisa corrigir valores ou criar novas colunas a partir dos dados existentes. O processo de alterar ou adicionar colunas é chamado de mutation na terminologia do dplyr e é feito com mutate(). Essa função recebe um tibble e argumentos nomeados para atualizar colunas. O nome de cada argumento é o nome da coluna a alterar ou adicionar, e o valor é uma expressão que explica como atualizá-la. Por exemplo, dado um tibble com colunas x e y, o código a seguir atualizaria x e criaria uma nova coluna z.

a_tibble %>%
  mutate(
    x = x + y,
    z = log(x)  
  )

Caso ainda não tenha ficado claro que funções da base do R não funcionam com tibbles do Spark, você não pode usar within() ou transform() para esse fim.

Este exercício faz parte do curso

Introdução ao Spark com sparklyr em R

Ver curso

Instruções do exercício

Uma conexão com o Spark já foi criada para você como spark_conn. Um tibble ligado aos metadados de faixas armazenados no Spark foi pré-definido como track_metadata_tbl.

  • Selecione os campos title e duration. Observe que as durações estão em segundos.
  • Encadeie o resultado em mutate() para criar um novo campo, duration_minutes, que contenha a duração da faixa em minutos.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

# Manipulate the track metadata
track_metadata_tbl %>%
  # Select columns
  ___ %>%
  # Mutate columns
  ___
Editar e executar o código