Kategorik sütunlar
Flights verilerinde, kategorik veriler içeren iki sütun var: carrier ve org. Bu sütunları indekslenmiş sayısal değerlere dönüştürmen gerekiyor.
Bu egzersiz
PySpark ile Machine Learning
kursunun bir parçasıdırEgzersiz talimatları
- Uygun sınıfı içe aktar ve
carriersütununu string türünden sayısal bir indekse dönüştürmek için bir indexer nesnesi oluştur. - Indexer nesnesini flight verileri üzerinde hazırla.
- Hazırlanan indexer'ı kullanarak sayısal indeks sütununu oluştur.
- Aynı süreci
orgsütunu için de tekrarla.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
from pyspark.ml.feature import ____
# Create an indexer
indexer = ____(inputCol=____, outputCol='carrier_idx')
# Indexer identifies categories in the data
indexer_model = indexer.____(flights)
# Indexer creates a new column with numeric index values
flights_indexed = ____.____(____)
# Repeat the process for the other categorical feature
flights_indexed = ____(inputCol=____, outputCol='org_idx').____(____).____(____)
flights_indexed.show(5)