Destacando valores na distribuição
Às vezes, é necessário manipular seus dados para criar uma visualização melhor. Dois métodos que lidam com valores ausentes são .dropna() e .fillna(). Você também pode remover outliers filtrando entradas acima ou abaixo de um determinado percentil, aplicando uma condição com .quantile() a uma coluna específica.
Você também viu no vídeo como enfatizar um valor específico em um gráfico adicionando uma linha vertical na posição x ao longo dos eixos:
Axes.axvline(x=0, color=None, ...)
Neste exercício, você vai dar uma última olhada na distribuição de renda global, depois remover os outliers acima do 95º percentil, plotar a distribuição e destacar os valores de média e mediana. pandas como pd, seaborn como sns e matplotlib.pyplot como plt já foram importados, e o DataFrame income dos exercícios anteriores está disponível no seu workspace.
Este exercício faz parte do curso
Importing and Managing Financial Data in Python
Instruções do exercício
- Atribua a coluna
'Income per Capita'ainc_per_capita. - Filtre para manter apenas as linhas em
inc_per_capitaque estão abaixo do 95º percentil. Reatribua à mesma variável. - Plote um histograma padrão para a versão filtrada de
inc_per_capitae atribua-o aax. - Use
ax.axvline()comcolor='b'para destacar a média deinc_per_capitaem azul, - Use
ax.axvline()comcolor='g'para destacar a mediana em verde. Mostre o resultado!
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create inc_per_capita
inc_per_capita = ____
# Filter out incomes above the 95th percentile
inc_per_capita = inc_per_capita[____ < ____]
# Plot histogram and assign to ax
ax = ____
# Highlight mean
ax.axvline(inc_per_capita.mean(), color='b')
# Highlight median
ax.axvline(inc_per_capita.median(), color='g')
# Show the plot
plt.show()