Grupos de mutantes
Além de calcular estatísticas-resumo por grupo, você pode alterar colunas com valores específicos de cada grupo. Por exemplo, uma técnica para normalizar valores é subtrair a média e depois dividir pelo desvio padrão. Você pode fazer uma normalização por grupo usando o código a seguir.
a_tibble %>%
group_by(grp1, grp2) %>%
mutate(normalized_x = (x - mean(x)) / sd(x))
Este exercício faz parte do curso
Introdução ao Spark com sparklyr em R
Instruções do exercício
Uma conexão Spark já foi criada para você como spark_conn. Um tibble associado aos metadados das faixas armazenados no Spark já foi predefinido como track_metadata_tbl.
- Agrupe o conteúdo de
track_metadataporartist_name. - Adicione uma nova coluna chamada
time_since_first_release.- Defina-a como o
yeardo grupo menos o primeiroyear(ou seja, omin()deyear) em que o artista lançou uma faixa.
- Defina-a como o
- Organize as linhas em ordem decrescente de
time_since_first_release.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
track_metadata_tbl %>%
# Group by artist
___ %>%
# Calc time since first release
___ %>%
# Arrange by descending time since first release
___