Je gegevensset opschonen
Gegevenssets uit de praktijk, zoals de heart disease-gegevensset, zijn vaak rommelig, met dubbele of ontbrekende waarden. In deze oefening pas je de vaardigheden uit dit hoofdstuk toe om de heart disease-gegevensset op te schonen. De gegevensset is al voor je geladen. Je taak is om op basis van de EDA-resultaten algemene schoonmaakstappen uit te voeren: verwijder lege kolommen, verwijder dubbele rijen en voer imputatie uit op de kolom restecg, die betrekking heeft op een elektrocardiogrammeting. Pandas is al voor je geïmporteerd als pd, en de heart disease-gegevensset is opgeslagen als een pandas DataFrame met de naam heart_disease_df.
Deze oefening maakt deel uit van de cursus
End-to-End Machine Learning
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Drop empty columns
heart_disease_column_dropped = heart_disease_df.____(____, ____)