ComeçarComece de graça

Resumindo colunas

A função mutate() que você viu no exercício anterior recebe colunas como entrada e retorna uma coluna. Se você estiver calculando estatísticas descritivas, como média, máximo ou desvio padrão, normalmente vai querer usar colunas como entrada, mas retornar um único valor. Isso é feito com a função summarize().

a_tibble %>%
  summarize(
    mean_x       = mean(x),
    sd_x_times_y = sd(x * y)
  )

Note que o dplyr tem a filosofia (herdada pelo sparklyr) de sempre manter os dados em tibbles. Portanto, o valor de retorno aqui é um tibble com uma linha e uma coluna para cada estatística resumida que foi calculada.

Este exercício faz parte do curso

Introdução ao Spark com sparklyr em R

Ver curso

Instruções do exercício

Uma conexão Spark foi criada para você como spark_conn. Um tibble vinculado aos metadados das faixas armazenados no Spark já foi definido como track_metadata_tbl.

  • Selecione os campos title e duration.
  • Aplique um pipe no resultado para criar um novo campo, duration_minutes, que contenha a duração da faixa em minutos.
  • Aplique um pipe no resultado para summarize() e calcule a duração média em minutos, em um campo chamado mean_duration_minutes.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

# Manipulate the track metadata
track_metadata_tbl %>%
  # Select columns
  ___ %>%
  # Mutate columns
  ___ %>%
  # Summarize columns
  ___
Editar e executar o código