Selecionando linhas únicas

Se você tem uma variável categórica armazenada como factor, muitas vezes é útil saber quais são as categorias individuais; você faz isso com a função levels(). Para um tibble, o conceito mais geral é encontrar linhas com dados únicos. Seguindo a terminologia do SQL, isso é feito usando a função distinct(). Você pode usá-la diretamente no seu conjunto de dados para encontrar combinações únicas de um determinado conjunto de colunas. Por exemplo, para encontrar as combinações únicas de valores nas colunas x, y e z, você escreveria o seguinte.

a_tibble %>%
  distinct(x, y, z)

Este exercicio faz parte do curso

Introdução ao Spark com sparklyr em R

Ver curso

Instruções do exercicio

Uma conexão Spark foi criada para você como spark_conn. Um tibble associado aos metadados de faixas armazenados no Spark foi predefinido como track_metadata_tbl.

Encontre os valores distintos da coluna artist_name em track_metadata_tbl.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

track_metadata_tbl %>%
  # Only return rows with distinct artist_name
  ___

Editar e Executar Código