Identificar valores extremos
Agora que você criou um DataFrame com o percentual de autoidentificação racial hispânica por estado, vai explorá-lo mais a fundo, começando por criar um boxplot usando o seaborn.
Você também vai encontrar os estados com o maior ou menor percentual de hispânicos que se identificam com determinadas raças. Para isso, você vai aplicar o método squeeze(). Esse método converte um DataFrame de uma única linha em uma série (sem efeito em um DataFrame com mais de uma linha).
pandas já foi importado. O DataFrame states_hr está carregado e contém percentuais de autoidentificação racial para 7 categorias de raça diferentes.
Este exercício faz parte do curso
Analisando dados do Censo dos EUA em Python
Instruções do exercício
- Crie um boxplot definindo o parâmetro
datacomo o nome do DataFrame. (orient = "h"vai traçar os boxplots na horizontal.) - Usando
squeeze, mostre o estado com o maior valor na colunahispanic_white. - Usando
squeeze, mostre o estado com o menor valor na colunahispanic_other. - Note que pouquíssimos hispânicos se identificam como asiáticos, mas um estado é um outlier alto. Usando
squeeze, mostre o estado com o maior valor na colunahispanic_asian.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import seaborn and matplotlib.plt
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
# Create a boxplot
sns.boxplot(data = ____, orient = "h")
plt.show()
# Show states with extreme values in various columns
print(states_hr.nlargest(1, ____).squeeze())
print(states_hr.nsmallest(____).____)
print(____)