IniziaInizia gratis

Colonne categoriche

Nei dati dei voli ci sono due colonne, carrier e org, che contengono dati categorici. Devi trasformare queste colonne in valori numerici indicizzati.

Questo esercizio fa parte del corso

Machine Learning con PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Importa la classe appropriata e crea un oggetto indexer per trasformare la colonna carrier da stringa a indice numerico.
  • Prepara l’oggetto indexer sui dati dei voli.
  • Usa l’indexer preparato per creare la colonna con l’indice numerico.
  • Ripeti il processo per la colonna org.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

from pyspark.ml.feature import ____

# Create an indexer
indexer = ____(inputCol=____, outputCol='carrier_idx')

# Indexer identifies categories in the data
indexer_model = indexer.____(flights)

# Indexer creates a new column with numeric index values
flights_indexed = ____.____(____)

# Repeat the process for the other categorical feature
flights_indexed = ____(inputCol=____, outputCol='org_idx').____(____).____(____)
flights_indexed.show(5)
Modifica ed esegui il codice