Resumindo colunas
A função mutate() que você viu no exercício anterior recebe colunas como entrada e retorna uma coluna. Se você estiver calculando estatísticas descritivas, como média, máximo ou desvio padrão, normalmente vai querer usar colunas como entrada, mas retornar um único valor. Isso é feito com a função summarize().
a_tibble %>%
summarize(
mean_x = mean(x),
sd_x_times_y = sd(x * y)
)
Note que o dplyr tem a filosofia (herdada pelo sparklyr) de sempre manter os dados em tibbles. Portanto, o valor de retorno aqui é um tibble com uma linha e uma coluna para cada estatística resumida que foi calculada.
Este exercício faz parte do curso
Introdução ao Spark com sparklyr em R
Instruções do exercício
Uma conexão Spark foi criada para você como spark_conn. Um tibble vinculado aos metadados das faixas armazenados no Spark já foi definido como track_metadata_tbl.
- Selecione os campos
titleeduration. - Aplique um pipe no resultado para criar um novo campo,
duration_minutes, que contenha a duração da faixa em minutos. - Aplique um pipe no resultado para
summarize()e calcule a duração média em minutos, em um campo chamadomean_duration_minutes.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
# Manipulate the track metadata
track_metadata_tbl %>%
# Select columns
___ %>%
# Mutate columns
___ %>%
# Summarize columns
___