Hoe zien je data eruit? (I)
Tot nu toe heb je je vooral gericht op het maken van nieuwe features en het oplossen van problemen in je data. Feature engineering kun je ook gebruiken om het maximale uit je bestaande data te halen en die effectiever te gebruiken bij het maken van machine learning-modellen.
Veel algoritmen gaan ervan uit dat je data normaal verdeeld is, of in elk geval dat alle kolommen op dezelfde schaal staan. Dat is vaak niet zo: de ene feature kan bijvoorbeeld in duizenden dollars gemeten worden, terwijl een andere het aantal jaren is. In deze oefening maak je grafieken om de verdelingen van enkele numerieke kolommen in de so_survey_df-DataFrame te onderzoeken, opgeslagen in so_numeric_df.
Deze oefening maakt deel uit van de cursus
Feature engineering voor Machine Learning in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a histogram
____
plt.show()