Alterando colunas
Pode parecer surpreendente, mas nem todo conjunto de dados começa perfeitamente limpo! Muitas vezes você precisa corrigir valores ou criar novas colunas a partir dos dados existentes. O processo de alterar ou adicionar colunas é chamado de mutation na terminologia do dplyr e é feito com mutate(). Essa função recebe um tibble e argumentos nomeados para atualizar colunas. O nome de cada argumento é o nome da coluna a alterar ou adicionar, e o valor é uma expressão que explica como atualizá-la. Por exemplo, dado um tibble com colunas x e y, o código a seguir atualizaria x e criaria uma nova coluna z.
a_tibble %>%
mutate(
x = x + y,
z = log(x)
)
Caso ainda não tenha ficado claro que funções da base do R não funcionam com tibbles do Spark, você não pode usar within() ou transform() para esse fim.
Este exercício faz parte do curso
Introdução ao Spark com sparklyr em R
Instruções do exercício
Uma conexão com o Spark já foi criada para você como spark_conn. Um tibble ligado aos metadados de faixas armazenados no Spark foi pré-definido como track_metadata_tbl.
- Selecione os campos
titleeduration. Observe que as durações estão em segundos. - Encadeie o resultado em
mutate()para criar um novo campo,duration_minutes, que contenha a duração da faixa em minutos.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
# Manipulate the track metadata
track_metadata_tbl %>%
# Select columns
___ %>%
# Mutate columns
___