Grupos de mutantes

Além de calcular estatísticas-resumo por grupo, você pode alterar colunas com valores específicos de cada grupo. Por exemplo, uma técnica para normalizar valores é subtrair a média e depois dividir pelo desvio padrão. Você pode fazer uma normalização por grupo usando o código a seguir.

a_tibble %>%
  group_by(grp1, grp2) %>%
  mutate(normalized_x = (x - mean(x)) / sd(x))

Este exercicio faz parte do curso

Introdução ao Spark com sparklyr em R

Ver curso

Instruções do exercicio

Uma conexão Spark já foi criada para você como spark_conn. Um tibble associado aos metadados das faixas armazenados no Spark já foi predefinido como track_metadata_tbl.

Agrupe o conteúdo de track_metadata por artist_name.
Adicione uma nova coluna chamada time_since_first_release.
- Defina-a como o year do grupo menos o primeiro year (ou seja, o min() de year) em que o artista lançou uma faixa.
Organize as linhas em ordem decrescente de time_since_first_release.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

track_metadata_tbl %>%
  # Group by artist
  ___ %>%
  # Calc time since first release
  ___ %>%
  # Arrange by descending time since first release
  ___

Editar e Executar Código