Localização de duplicatas

Uma nova atualização do pipeline de dados que alimenta ride_sharing adicionou a coluna ride_id, que representa um identificador exclusivo para cada viagem.

No entanto, a atualização coincidiu com tempos de duração média de viagem radicalmente mais curtos e datas de nascimento de usuários irregulares definidas no futuro. O mais importante é que o número de viagens realizadas aumentou 20% da noite para o dia, o que leva você a pensar que pode haver duplicatas completas e incompletas no DataFrame ride_sharing.

Neste exercício, você confirmará essa suspeita encontrando essas duplicatas. Uma amostra do ride_sharing está em seu ambiente, bem como todos os pacotes com os quais você trabalhou até agora.

Este exercicio faz parte do curso

Limpeza de dados em Python

Instruções do exercicio

Encontre linhas duplicadas de ride_id no DataFrame ride_sharing enquanto você define keep como False.
Faça um subconjunto de ride_sharing em duplicates, classifique por ride_id e atribua os resultados a duplicated_rides.
Imprima as colunas ride_id, duration e user_birth_year de duplicated_rides nessa ordem.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Find duplicates
duplicates = ____.____(____, ____)

# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')

# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])

Editar e Executar Código

Este exercicio faz parte do curso

Limpeza de dados em Python

IntermediárioNível de habilidade

4.8+

Comece o curso gratuitamente

In this chapter, you'll learn how to overcome some of the most common dirty data problems. You'll convert data types, apply range constraints to remove future data points, and remove duplicated data points to avoid double-counting.

Exercise 1: Restrições de tipo de dados Exercise 2: Tipos de dados comuns Exercise 3: Dados numéricos ou ... ?Exercise 4: Soma de strings e concatenação de números Exercise 5: Restrições de intervalo de dados Exercise 6: Restrições de tamanho de pneu Exercise 7: De volta para o futuro Exercise 8: Restrições de exclusividade Exercise 9: Qual é o tamanho do seu subconjunto?Exercise 10: Localização de duplicatas

Exercicio Atual

Exercise 11: Tratamento de duplicatas

Categorical and text data can often be some of the messiest parts of a dataset due to their unstructured nature. In this chapter, you’ll learn how to fix whitespace and capitalization inconsistencies in category labels, collapse multiple categories into one, and reformat strings for consistency.

Exercise 1: Membership constraints Exercise 2: Members only Exercise 3: Finding consistency Exercise 4: Categorical variables Exercise 5: Categories of errors Exercise 6: Inconsistent categories Exercise 7: Remapping categories Exercise 8: Cleaning text data Exercise 9: Removing titles and taking names Exercise 10: Keeping it descriptive

In this chapter, you'll dive into more advanced data cleaning problems, such as ensuring that weights are all written in kilograms instead of pounds. You'll also gain invaluable skills that will help you verify that values have been added correctly, and that missing values don't negatively impact your analyses.

Exercise 1: Uniformity Exercise 2: Ambiguous dates Exercise 3: Uniform currencies Exercise 4: Uniform dates Exercise 5: Cross field validation Exercise 6: Cross field or no cross field?Exercise 7: How's our data integrity?Exercise 8: Completeness Exercise 9: Is this missing at random?Exercise 10: Missing investors Exercise 11: Follow the money

Record linkage is a powerful technique used to merge multiple datasets together, used when values have typos or different spellings. In this chapter, you'll learn how to link records by calculating the similarity between strings—you'll then use your new skills to join two restaurant review datasets into one clean master dataset.

Exercise 1: Comparing strings Exercise 2: Minimum edit distance Exercise 3: The cutoff point Exercise 4: Remapping categories II Exercise 5: Generating pairs Exercise 6: To link or not to link?Exercise 7: Pairs of restaurants Exercise 8: Similar restaurants Exercise 9: Linking DataFrames Exercise 10: Getting the right index Exercise 11: Linking them together!Exercise 12: Congratulations!