BaşlayınÜcretsiz Başlayın

Kategorik sütunlar

Flights verilerinde, kategorik veriler içeren iki sütun var: carrier ve org. Bu sütunları indekslenmiş sayısal değerlere dönüştürmen gerekiyor.

Bu egzersiz

PySpark ile Machine Learning

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Uygun sınıfı içe aktar ve carrier sütununu string türünden sayısal bir indekse dönüştürmek için bir indexer nesnesi oluştur.
  • Indexer nesnesini flight verileri üzerinde hazırla.
  • Hazırlanan indexer'ı kullanarak sayısal indeks sütununu oluştur.
  • Aynı süreci org sütunu için de tekrarla.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

from pyspark.ml.feature import ____

# Create an indexer
indexer = ____(inputCol=____, outputCol='carrier_idx')

# Indexer identifies categories in the data
indexer_model = indexer.____(flights)

# Indexer creates a new column with numeric index values
flights_indexed = ____.____(____)

# Repeat the process for the other categorical feature
flights_indexed = ____(inputCol=____, outputCol='org_idx').____(____).____(____)
flights_indexed.show(5)
Kodu Düzenle ve Çalıştır