IniziaInizia gratis

Modello della durata del volo: fasi della pipeline

Creerai le fasi per la pipeline del modello di durata dei voli. Le userai nel prossimo esercizio per costruire una pipeline e creare un modello di regressione.

Le classi StringIndexer, OneHotEncoder, VectorAssembler e LinearRegression sono già importate.

Questo esercizio fa parte del corso

Machine Learning con PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Crea uno indexer per convertire la colonna 'org' in una colonna indicizzata chiamata 'org_idx'.
  • Crea un one-hot encoder per convertire le colonne 'org_idx' e 'dow' in colonne di variabili fittizie chiamate 'org_dummy' e 'dow_dummy'.
  • Crea un assembler che combini la colonna 'km' con le due colonne di variabili fittizie. La colonna di output deve chiamarsi 'features'.
  • Crea un oggetto di regressione lineare per prevedere la durata del volo.

Potrebbe esserti utile rivedere le diapositive delle lezioni nel pannello Diapositive accanto alla IPython Shell.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Convert categorical strings to index values
indexer = ____(____)

# One-hot encode index values
onehot = ____(
    inputCols=____,
    outputCols=____
)

# Assemble predictors into a single column
assembler = ____(inputCols=____, outputCol=____)

# A linear regression object
regression = ____(labelCol=____)
Modifica ed esegui il codice