BaşlayınÜcretsiz Başlayın

SMS spam verisini yükleme

Veri türlerinin doğrudan veriden çıkarılabildiğini gördün. Bazen sütun türleri üzerinde doğrudan kontrol sahibi olmak daha kullanışlıdır. Bunu açık bir şema tanımlayarak yaparsın.

sms.csv dosyası, 'spam' veya 'ham' olarak sınıflandırılmış seçili SMS mesajlarını içerir. Bu veriler UCI Machine Learning Repository kaynağından uyarlanmıştır. Toplam 5574 SMS vardır ve bunların 747'si spam olarak etiketlenmiştir.

CSV biçimiyle ilgili notlar:

  • başlık satırı yok ve
  • alanlar noktalı virgülle ayrılmış (bu varsayılan ayraç değildir).

Veri sözlüğü:

  • id — kayıt tanımlayıcısı
  • text — SMS mesajının içeriği
  • label — spam veya ham (tamsayı; 0 = ham ve 1 = spam)

Bu egzersiz

PySpark ile Machine Learning

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Veri şemasını belirt; sütun adlarını ("id", "text" ve "label") ve sütun türlerini ver.
  • "sms.csv" adlı sınırlayıcılı bir dosyadan veriyi oku.
  • Ortaya çıkan DataFrame'in şemasını yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

from pyspark.sql.types import StructType, StructField, IntegerType, StringType

# Specify column names and types
schema = StructType([
    StructField("____", IntegerType()),
    ____("____", ____()),
    ____("____", ____())
])

# Load data from a delimited file
sms = spark.read.csv(____, sep=____, header=____, ____=____)

# Print schema of DataFrame
sms.____()
Kodu Düzenle ve Çalıştır