or
Este exercicio faz parte do curso
Neste capítulo, você aprenderá a superar alguns dos problemas mais comuns de dados sujos. Você converterá tipos de dados, aplicará restrições de intervalo para remover pontos de dados futuros e removerá pontos de dados duplicados para evitar contagem dupla.
Os dados categóricos e de texto podem ser algumas das partes mais confusas de um conjunto de dados devido à sua natureza não estruturada. Neste capítulo, você aprenderá a corrigir inconsistências de espaço em branco e de letras maiúsculas nos rótulos de categoria, a recolher várias categorias em uma só e a reformatar strings para obter consistência.
Neste capítulo, você vai se aprofundar em problemas mais avançados de limpeza de dados, como garantir que todos os pesos estejam expressos em quilogramas, em vez de libras. Você também vai adquirir habilidades valiosas que vão te ajudar a verificar se os valores foram inseridos corretamente e se os valores ausentes não prejudicam suas análises.
Exercicio Atual
A vinculação de registros é uma técnica poderosa usada para mesclar vários conjuntos de dados, usada quando os valores têm erros de digitação ou grafias diferentes. Neste capítulo, você vai aprender a vincular registros calculando a similaridade entre cadeias de caracteres — depois, vai usar suas novas habilidades para unir dois conjuntos de dados de avaliações de restaurantes em um único conjunto de dados principal e organizado.