Selecionando linhas únicas
Se você tem uma variável categórica armazenada como factor, muitas vezes é útil saber quais são as categorias individuais; você faz isso com a função levels(). Para um tibble, o conceito mais geral é encontrar linhas com dados únicos. Seguindo a terminologia do SQL, isso é feito usando a função distinct(). Você pode usá-la diretamente no seu conjunto de dados para encontrar combinações únicas de um determinado conjunto de colunas. Por exemplo, para encontrar as combinações únicas de valores nas colunas x, y e z, você escreveria o seguinte.
a_tibble %>%
distinct(x, y, z)
Este exercício faz parte do curso
Introdução ao Spark com sparklyr em R
Instruções do exercício
Uma conexão Spark foi criada para você como spark_conn. Um tibble associado aos metadados de faixas armazenados no Spark foi predefinido como track_metadata_tbl.
- Encontre os valores distintos da coluna
artist_nameemtrack_metadata_tbl.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
track_metadata_tbl %>%
# Only return rows with distinct artist_name
___