¡Enlazándolos!

En la última lección, has terminado la mayor parte del trabajo en tu esfuerzo por vincular restaurants y restaurants_new. Has generado los distintos pares de filas potencialmente coincidentes, has buscado coincidencias exactas entre las columnas cuisine_type y city, pero has comparado cadenas similares en la columna rest_name. Has almacenado el DataFrame que contiene las puntuaciones en potential_matches.

Por fin ha llegado el momento de enlazar ambos DataFrames. Lo harás extrayendo primero todos los índices de fila de potential_matches que coincidan en las columnas mencionadas anteriormente de restaurants_new. A continuación, se creará un subconjunto de restaurants_new en estos índices y, por último, se concatenarán los valores no duplicados con restaurants. Todos los DataFrames están en tu entorno, junto a pandas importado como pd.

Este ejercicio forma parte del curso

Limpieza de datos en Python

Instrucciones del ejercicio

Aísla los casos de potential_matches en los que la suma de filas sea superior o igual a 3 utilizando el método .sum().
Extrae el índice de la segunda columna de matches, que representa los índices de fila del registro coincidente de restaurants_new utilizando el método .get_level_values().
Subconjunto restaurants_new para las filas que no están en matching_indices.
Concatenar restaurants y non_dup.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Isolate potential matches with row sum >=3
matches = ____[____.___(____) >= ____]

# Get values of second column index of matches
matching_indices = matches.____.____(____)

# Subset restaurants_new based on non-duplicate values
non_dup = ____[~restaurants_new.index.____(____)]

# Concatenate restaurants and non_dup
full_restaurants = pd.____([____, ____])
print(full_restaurants)

Editar y ejecutar código

Este ejercicio forma parte del curso

Limpieza de datos en Python

IntermedioNivel de habilidad

4.8+

Empieza el curso gratis

In this chapter, you'll learn how to overcome some of the most common dirty data problems. You'll convert data types, apply range constraints to remove future data points, and remove duplicated data points to avoid double-counting.

Exercise 1: Data type constraints Exercise 2: Common data types Exercise 3: Numeric data or ... ?Exercise 4: Summing strings and concatenating numbers Exercise 5: Data range constraints Exercise 6: Tire size constraints Exercise 7: Back to the future Exercise 8: Uniqueness constraints Exercise 9: How big is your subset?Exercise 10: Finding duplicates Exercise 11: Treating duplicates

Categorical and text data can often be some of the messiest parts of a dataset due to their unstructured nature. In this chapter, you’ll learn how to fix whitespace and capitalization inconsistencies in category labels, collapse multiple categories into one, and reformat strings for consistency.

Exercise 1: Membership constraints Exercise 2: Members only Exercise 3: Finding consistency Exercise 4: Categorical variables Exercise 5: Categories of errors Exercise 6: Inconsistent categories Exercise 7: Remapping categories Exercise 8: Cleaning text data Exercise 9: Removing titles and taking names Exercise 10: Keeping it descriptive

In this chapter, you'll dive into more advanced data cleaning problems, such as ensuring that weights are all written in kilograms instead of pounds. You'll also gain invaluable skills that will help you verify that values have been added correctly, and that missing values don't negatively impact your analyses.

Exercise 1: Uniformity Exercise 2: Ambiguous dates Exercise 3: Uniform currencies Exercise 4: Uniform dates Exercise 5: Cross field validation Exercise 6: Cross field or no cross field?Exercise 7: How's our data integrity?Exercise 8: Completeness Exercise 9: Is this missing at random?Exercise 10: Missing investors Exercise 11: Follow the money

Record linkage is a powerful technique used to merge multiple datasets together, used when values have typos or different spellings. In this chapter, you'll learn how to link records by calculating the similarity between strings—you'll then use your new skills to join two restaurant review datasets into one clean master dataset.

Exercise 1: Comparar cadenas Exercise 2: Distancia mínima de edición Exercise 3: El punto de corte Exercise 4: Reasignación de categorías II Exercise 5: Generar pares Exercise 6: ¿Enlazar o no enlazar?Exercise 7: Pares de restaurantes Exercise 8: Restaurantes similares Exercise 9: Enlazar DataFrames Exercise 10: Obtener el índice correcto Exercise 11: ¡Enlazándolos!

Ejercicio actual

Exercise 12: ¡Enhorabuena!