Selecionando colunas
A maneira mais fácil de manipular data frames armazenados no Spark é usar a sintaxe do dplyr. A manipulação de data frames com dplyr é detalhada nos cursos Data Manipulation with dplyr e Joining Data with dplyr, mas, ao longo do próximo capítulo e meio, você vai revisar todos os pontos importantes.
O dplyr tem cinco ações principais que você pode executar em um data frame. Você pode selecionar colunas, filtrar linhas, ordenar linhas, modificar colunas ou adicionar novas colunas e calcular estatísticas resumidas.
Vamos começar selecionando colunas. Isso é feito chamando select(), com um tibble, seguido dos nomes (sem aspas) das colunas que você quer manter. As funções do dplyr são usadas, por convenção, com o operador pipe do magrittr, %>%. Para selecionar as colunas x, y e z, você escreveria o seguinte:
a_tibble %>%
select(x, y, z)
Observe que a indexação por colchetes não é atualmente suportada no sparklyr. Então você não pode fazer:
a_tibble[, c("x", "y", "z")]
Este exercício faz parte do curso
Introdução ao Spark com sparklyr em R
Instruções do exercício
Uma conexão com o Spark já foi criada como spark_conn. Um tibble associado aos metadados de faixas armazenados no Spark foi predefinido como track_metadata_tbl.
- Selecione
artist_name,release,titleeyearusandoselect(). - Tente fazer o mesmo usando indexação por colchetes. Atenção: esse código gera um erro, então ele está encapsulado em uma chamada a
tryCatch().
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
# Manipulate the track metadata
track_metadata_tbl %>%
# Select columns
___
# Try to select columns using [ ]
tryCatch({
# Selection code here
___
},
error = print
)