Je gegevensset opschonen

Gegevenssets uit de praktijk, zoals de heart disease-gegevensset, zijn vaak rommelig, met dubbele of ontbrekende waarden. In deze oefening pas je de vaardigheden uit dit hoofdstuk toe om de heart disease-gegevensset op te schonen. De gegevensset is al voor je geladen. Je taak is om op basis van de EDA-resultaten algemene schoonmaakstappen uit te voeren: verwijder lege kolommen, verwijder dubbele rijen en voer imputatie uit op de kolom restecg, die betrekking heeft op een elektrocardiogrammeting. Pandas is al voor je geïmporteerd als pd, en de heart disease-gegevensset is opgeslagen als een pandas DataFrame met de naam heart_disease_df.

Deze oefening maakt deel uit van de cursus

End-to-End Machine Learning

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Drop empty columns
heart_disease_column_dropped = heart_disease_df.____(____, ____)

Code bewerken en uitvoeren