Usa l'imputazione KNN
Nell'esercizio precedente, hai usato l'imputazione tramite mediana per riempire i valori mancanti nel dataset sul cancro al seno, ma non è l'unico metodo possibile per gestire i dati mancanti.
Un'alternativa è l'imputazione con k-nearest neighbors, o KNN. È una tecnica più avanzata in cui i valori mancanti vengono sostituiti con valori provenienti da altre righe simili a quella corrente. Anche se in pratica è molto più complicata da implementare rispetto alla semplice mediana, in caret è facilissima da esplorare grazie all'argomento preProcess di train(). Ti basta usare preProcess = "knnImpute" per cambiare il metodo di imputazione usato prima dell'addestramento del modello.
Questo esercizio fa parte del corso
Machine Learning con caret in R
Istruzioni dell'esercizio
breast_cancer_x e breast_cancer_y sono già caricati nel tuo ambiente di lavoro.
- Usa la funzione
train()per adattare un modelloglmchiamatoknn_modelal dataset sul cancro al seno. - Usa l'imputazione KNN per gestire i valori mancanti.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Apply KNN imputation: knn_model
knn_model <- train(
x = ___,
y = ___,
method = ___,
trControl = myControl,
preProcess = ___
)
# Print knn_model to console