Categorische kolommen
In de vluchtgegevens staan twee kolommen, carrier en org, met categorische data. Je moet deze kolommen omzetten naar geïndexeerde numerieke waarden.
Deze oefening maakt deel uit van de cursus
Machine Learning met PySpark
Oefeninstructies
- Importeer de juiste klasse en maak een indexer-object om de kolom
carriervan een string naar een numerieke index om te zetten. - Bereid het indexer-object voor op de vluchtgegevens.
- Gebruik de voorbereide indexer om de numerieke indexkolom te maken.
- Herhaal dit proces voor de kolom
org.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
from pyspark.ml.feature import ____
# Create an indexer
indexer = ____(inputCol=____, outputCol='carrier_idx')
# Indexer identifies categories in the data
indexer_model = indexer.____(flights)
# Indexer creates a new column with numeric index values
flights_indexed = ____.____(____)
# Repeat the process for the other categorical feature
flights_indexed = ____(inputCol=____, outputCol='org_idx').____(____).____(____)
flights_indexed.show(5)