Identificar valores extremos
Ahora que has creado un DataFrame con el porcentaje de autoidentificación racial hispana por estado, vas a explorarlo más a fondo, empezando por crear un diagrama de caja con seaborn.
También buscarás los estados con el mayor o menor porcentaje de hispanos que se identifican con determinadas razas. Para ello, aplicarás el método squeeze(). Este método convierte un DataFrame de una sola fila en una serie (y no afecta a un DataFrame con más de una fila).
Se ha importado pandas. El DataFrame states_hr está cargado y contiene los porcentajes de autoidentificación racial para 7 categorías de raza distintas.
Este ejercicio forma parte del curso
Análisis de datos del Censo de EE. UU. con Python
Instrucciones del ejercicio
- Crea un diagrama de caja estableciendo el parámetro
datacon el nombre del DataFrame. (orient = "h"dibujará los diagramas de caja en horizontal.) - Usando
squeeze, muestra el estado con el valor más alto en la columnahispanic_white. - Usando
squeeze, muestra el estado con el valor más bajo en la columnahispanic_other. - Fíjate en que muy pocos hispanos se identifican como asiáticos, pero un estado es un valor atípico alto. Usando
squeeze, muestra el estado con el valor más alto en la columnahispanic_asian.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import seaborn and matplotlib.plt
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
# Create a boxplot
sns.boxplot(data = ____, orient = "h")
plt.show()
# Show states with extreme values in various columns
print(states_hr.nlargest(1, ____).squeeze())
print(states_hr.nsmallest(____).____)
print(____)