IniziaInizia gratis

Usa l'imputazione KNN

Nell'esercizio precedente, hai usato l'imputazione tramite mediana per riempire i valori mancanti nel dataset sul cancro al seno, ma non è l'unico metodo possibile per gestire i dati mancanti.

Un'alternativa è l'imputazione con k-nearest neighbors, o KNN. È una tecnica più avanzata in cui i valori mancanti vengono sostituiti con valori provenienti da altre righe simili a quella corrente. Anche se in pratica è molto più complicata da implementare rispetto alla semplice mediana, in caret è facilissima da esplorare grazie all'argomento preProcess di train(). Ti basta usare preProcess = "knnImpute" per cambiare il metodo di imputazione usato prima dell'addestramento del modello.

Questo esercizio fa parte del corso

Machine Learning con caret in R

Visualizza il corso

Istruzioni dell'esercizio

breast_cancer_x e breast_cancer_y sono già caricati nel tuo ambiente di lavoro.

  • Usa la funzione train() per adattare un modello glm chiamato knn_model al dataset sul cancro al seno.
  • Usa l'imputazione KNN per gestire i valori mancanti.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Apply KNN imputation: knn_model
knn_model <- train(
  x = ___, 
  y = ___,
  method = ___,
  trControl = myControl,
  preProcess = ___
)

# Print knn_model to console
Modifica ed esegui il codice