Selecionando colunas

A maneira mais fácil de manipular data frames armazenados no Spark é usar a sintaxe do dplyr. A manipulação de data frames com dplyr é detalhada nos cursos Data Manipulation with dplyr e Joining Data with dplyr, mas, ao longo do próximo capítulo e meio, você vai revisar todos os pontos importantes.

O dplyr tem cinco ações principais que você pode executar em um data frame. Você pode selecionar colunas, filtrar linhas, ordenar linhas, modificar colunas ou adicionar novas colunas e calcular estatísticas resumidas.

Vamos começar selecionando colunas. Isso é feito chamando select(), com um tibble, seguido dos nomes (sem aspas) das colunas que você quer manter. As funções do dplyr são usadas, por convenção, com o operador pipe do magrittr, %>%. Para selecionar as colunas x, y e z, você escreveria o seguinte:

a_tibble %>%
  select(x, y, z)

Observe que a indexação por colchetes não é atualmente suportada no sparklyr. Então você não pode fazer:

a_tibble[, c("x", "y", "z")]

Este exercicio faz parte do curso

Introdução ao Spark com sparklyr em R

Ver curso

Instruções do exercicio

Uma conexão com o Spark já foi criada como spark_conn. Um tibble associado aos metadados de faixas armazenados no Spark foi predefinido como track_metadata_tbl.

Selecione artist_name, release, title e year usando select().
Tente fazer o mesmo usando indexação por colchetes. Atenção: esse código gera um erro, então ele está encapsulado em uma chamada a tryCatch().

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

# Manipulate the track metadata
track_metadata_tbl %>%
  # Select columns
  ___

# Try to select columns using [ ]
tryCatch({
    # Selection code here
    ___
  },
  error = print
)

Editar e Executar Código