IniziaInizia gratis

Anatomia di un modello di Machine Learning

Ora metterai alla prova la tua comprensione di come i dati influenzano le prestazioni del modello. Lavorerai con il dataset delle prenotazioni Airbnb (nel file booking.csv). Il dataset è adatto a compiti di classificazione per prevedere se qualcuno cancellerà una prenotazione. Contiene diverse colonne numeriche e categoriche. Dividerai il dataset fornito in tre campioni mutuamente esclusivi - train_A.csv, train_B.csv e test.csv - usando lo script split_dataset.py. Poi, per ciascun dataset di training, eseguirai la pipeline di elaborazione dei dati e addestramento del modello per addestrare un modello Random Forest Classifier e valutarne le prestazioni sul set di test usando model_training.py. Gli iperparametri definiti in params.json sono coerenti in entrambe le esecuzioni.

Gli script Python sono progettati per accettare argomenti da riga di comando ed essere eseguiti tramite shell. Sentiti libero di esplorarli per approfondire la tua comprensione.

Questo esercizio fa parte del corso

Introduzione al versionamento dei dati con DVC

Visualizza il corso

Esercizio pratico interattivo

Passa dalla teoria alla pratica con uno dei nostri esercizi interattivi

Inizia esercizio