Aan de slagGa gratis aan de slag

Categorische kolommen

In de vluchtgegevens staan twee kolommen, carrier en org, met categorische data. Je moet deze kolommen omzetten naar geïndexeerde numerieke waarden.

Deze oefening maakt deel uit van de cursus

Machine Learning met PySpark

Cursus bekijken

Oefeninstructies

  • Importeer de juiste klasse en maak een indexer-object om de kolom carrier van een string naar een numerieke index om te zetten.
  • Bereid het indexer-object voor op de vluchtgegevens.
  • Gebruik de voorbereide indexer om de numerieke indexkolom te maken.
  • Herhaal dit proces voor de kolom org.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

from pyspark.ml.feature import ____

# Create an indexer
indexer = ____(inputCol=____, outputCol='carrier_idx')

# Indexer identifies categories in the data
indexer_model = indexer.____(flights)

# Indexer creates a new column with numeric index values
flights_indexed = ____.____(____)

# Repeat the process for the other categorical feature
flights_indexed = ____(inputCol=____, outputCol='org_idx').____(____).____(____)
flights_indexed.show(5)
Code bewerken en uitvoeren