Missende gegevens verwijderen
Je zag eerder dat de rentevoet (int_rate) in de gegevensset loan_data afhangt van de klant. Helaas ontbreken voor sommige observaties de rentevoeten. Je moet nu vaststellen hoeveel rentevoeten ontbreken en ze daarna verwijderen.
In deze oefening gebruik je de functie which() om een index te maken van rijen die een NA bevatten. Vervolgens gebruik je deze index om rijen met NA's te verwijderen.
Deze oefening maakt deel uit van de cursus
Kredietrisicomodellering in R
Oefeninstructies
- Bekijk het aantal missende waarden voor de variabele
int_ratemet summary(). - Gebruik
which()enis.na()om een index te maken van de observaties zonder geregistreerde rentevoet. Sla het resultaat op in het objectna_index. - Maak een nieuwe gegevensset genaamd
loan_data_delrow_na, die de observaties met ontbrekende rentevoeten niet bevat. - We maakten eerder een kopie van
loan_datamet de naamloan_data_delcol_na. In plaats van de observaties met ontbrekende rentevoeten te verwijderen, verwijder je de hele kolomint_ratedoor deze gelijk te zetten aanNULL.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Look at summary of loan_data
# Get indices of missing interest rates: na_index
na_index <-
# Remove observations with missing interest rates: loan_data_delrow_na
___ <- loan_data[-___, ]
# Make copy of loan_data
loan_data_delcol_na <- loan_data
# Delete interest rate column from loan_data_delcol_na