Identificar valores extremos

Ahora que has creado un DataFrame con el porcentaje de autoidentificación racial hispana por estado, vas a explorarlo más a fondo, empezando por crear un diagrama de caja con seaborn.

También buscarás los estados con el mayor o menor porcentaje de hispanos que se identifican con determinadas razas. Para ello, aplicarás el método squeeze(). Este método convierte un DataFrame de una sola fila en una serie (y no afecta a un DataFrame con más de una fila).

Se ha importado pandas. El DataFrame states_hr está cargado y contiene los porcentajes de autoidentificación racial para 7 categorías de raza distintas.

Este ejercicio forma parte del curso

Análisis de datos del Censo de EE. UU. con Python

Ver curso

Instrucciones del ejercicio

Crea un diagrama de caja estableciendo el parámetro data con el nombre del DataFrame. (orient = "h" dibujará los diagramas de caja en horizontal.)
Usando squeeze, muestra el estado con el valor más alto en la columna hispanic_white.
Usando squeeze, muestra el estado con el valor más bajo en la columna hispanic_other.
Fíjate en que muy pocos hispanos se identifican como asiáticos, pero un estado es un valor atípico alto. Usando squeeze, muestra el estado con el valor más alto en la columna hispanic_asian.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Import seaborn and matplotlib.plt
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

# Create a boxplot
sns.boxplot(data = ____, orient = "h")
plt.show()

# Show states with extreme values in various columns
print(states_hr.nlargest(1, ____).squeeze())
print(states_hr.nsmallest(____).____)
print(____)

Editar y ejecutar código