ComeçarComece de graça

Selecionando linhas únicas

Se você tem uma variável categórica armazenada como factor, muitas vezes é útil saber quais são as categorias individuais; você faz isso com a função levels(). Para um tibble, o conceito mais geral é encontrar linhas com dados únicos. Seguindo a terminologia do SQL, isso é feito usando a função distinct(). Você pode usá-la diretamente no seu conjunto de dados para encontrar combinações únicas de um determinado conjunto de colunas. Por exemplo, para encontrar as combinações únicas de valores nas colunas x, y e z, você escreveria o seguinte.

a_tibble %>%
  distinct(x, y, z)

Este exercício faz parte do curso

Introdução ao Spark com sparklyr em R

Ver curso

Instruções do exercício

Uma conexão Spark foi criada para você como spark_conn. Um tibble associado aos metadados de faixas armazenados no Spark foi predefinido como track_metadata_tbl.

  • Encontre os valores distintos da coluna artist_name em track_metadata_tbl.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

track_metadata_tbl %>%
  # Only return rows with distinct artist_name
  ___
Editar e executar o código