Conectando-os!

Na última lição, você concluiu a maior parte do trabalho em sua tentativa de vincular restaurants e restaurants_new. Você gerou os diferentes pares de linhas potencialmente correspondentes, procurou por correspondências exatas entre as colunas cuisine_type e city, mas comparou strings semelhantes na coluna rest_name. Você armazenou o DataFrame que contém as pontuações em potential_matches.

Agora, finalmente, é hora de vincular os dois DataFrames. Para isso, você extrairá primeiro todos os índices de linha de restaurants_new que correspondam às colunas mencionadas acima em potential_matches. Em seguida, você fará um subconjuntorestaurants_newcom base nesses índices e, por fim, concatenará os valores não duplicados com restaurants. Todos os DataFrames estão em seu ambiente, juntamente com pandas importado como pd.

Este exercicio faz parte do curso

Limpeza de dados em Python

Instruções do exercicio

Isole as instâncias de potential_matches em que a soma das linhas é maior ou igual a 3 usando o método .sum().
Extraia o segundo índice de coluna de matches, que representa os índices de linha do registro correspondente de restaurants_new usando o método .get_level_values().
Crie um subconjunto de restaurants_new para linhas que não estão em matching_indices.
Juntarestaurants e non_dup.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Isolate potential matches with row sum >=3
matches = ____[____.___(____) >= ____]

# Get values of second column index of matches
matching_indices = matches.____.____(____)

# Subset restaurants_new based on non-duplicate values
non_dup = ____[~restaurants_new.index.____(____)]

# Concatenate restaurants and non_dup
full_restaurants = pd.____([____, ____])
print(full_restaurants)

Editar e Executar Código

Este exercicio faz parte do curso

Limpeza de dados em Python

IntermediárioNível de habilidade

4.8+

Comece o curso gratuitamente

Neste capítulo, você aprenderá a superar alguns dos problemas mais comuns de dados sujos. Você converterá tipos de dados, aplicará restrições de intervalo para remover pontos de dados futuros e removerá pontos de dados duplicados para evitar contagem dupla.

Exercise 1: Restrições de tipo de dados Exercise 2: Tipos de dados comuns Exercise 3: Dados numéricos ou ... ?Exercise 4: Soma de strings e concatenação de números Exercise 5: Restrições de intervalo de dados Exercise 6: Restrições de tamanho de pneu Exercise 7: De volta para o futuro Exercise 8: Restrições de exclusividade Exercise 9: Qual é o tamanho do seu subconjunto?Exercise 10: Localização de duplicatas Exercise 11: Tratamento de duplicatas

Os dados categóricos e de texto podem ser algumas das partes mais confusas de um conjunto de dados devido à sua natureza não estruturada. Neste capítulo, você aprenderá a corrigir inconsistências de espaço em branco e de letras maiúsculas nos rótulos de categoria, a recolher várias categorias em uma só e a reformatar strings para obter consistência.

Exercise 1: Restrições de associação Exercise 2: Somente para membros Exercise 3: Encontrar consistência Exercise 4: Variáveis categóricas Exercise 5: Categorias de erros Exercise 6: Categorias inconsistentes Exercise 7: Remapeamento de categorias Exercise 8: Limpeza de dados de texto Exercise 9: Remoção de títulos e nomes Exercise 10: Mantendo-o descritivo

Neste capítulo, você vai se aprofundar em problemas mais avançados de limpeza de dados, como garantir que todos os pesos estejam expressos em quilogramas, em vez de libras. Você também vai adquirir habilidades valiosas que vão te ajudar a verificar se os valores foram inseridos corretamente e se os valores ausentes não prejudicam suas análises.

Exercise 1: Uniformidade Exercise 2: Datas ambíguas Exercise 3: Moedas uniformes Exercise 4: Datas uniformes Exercise 5: Validação entre campos Exercise 6: Com ou sem campo cruzado?Exercise 7: Como está a integridade de nossos dados?Exercise 8: Completude Exercise 9: Isso é uma ausência aleatória?Exercise 10: Investidores ausentes Exercise 11: Siga o dinheiro

A vinculação de registros é uma técnica poderosa usada para mesclar vários conjuntos de dados, usada quando os valores têm erros de digitação ou grafias diferentes. Neste capítulo, você vai aprender a vincular registros calculando a similaridade entre cadeias de caracteres — depois, vai usar suas novas habilidades para unir dois conjuntos de dados de avaliações de restaurantes em um único conjunto de dados principal e organizado.

Exercise 1: Comparação de strings Exercise 2: Distância mínima de edição Exercise 3: O ponto de corte Exercise 4: Remapeamento de categorias II Exercise 5: Geração de pares Exercise 6: Criar ou não criar um link?Exercise 7: Pares de restaurantes Exercise 8: Restaurantes similares Exercise 9: Vinculação de DataFrames Exercise 10: Obtendo o índice correto Exercise 11: Conectando-os!

Exercicio Atual

Exercise 12: Parabéns!