BaşlayınÜcretsiz başlayın

SMS spam verisini yükleme

Veri türlerinin doğrudan veriden çıkarılabildiğini gördün. Bazen sütun türleri üzerinde doğrudan kontrol sahibi olmak daha kullanışlıdır. Bunu açık bir şema tanımlayarak yaparsın.

sms.csv dosyası, 'spam' veya 'ham' olarak sınıflandırılmış seçili SMS mesajlarını içerir. Bu veriler UCI Machine Learning Repository kaynağından uyarlanmıştır. Toplam 5574 SMS vardır ve bunların 747'si spam olarak etiketlenmiştir.

CSV biçimiyle ilgili notlar:

  • başlık satırı yok ve
  • alanlar noktalı virgülle ayrılmış (bu varsayılan ayraç değildir).

Veri sözlüğü:

  • id — kayıt tanımlayıcısı
  • text — SMS mesajının içeriği
  • label — spam veya ham (tamsayı; 0 = ham ve 1 = spam)

Bu egzersiz, kursun bir parçasıdır

PySpark ile Machine Learning

Kursa Göz Atın

Egzersiz talimatları

  • Veri şemasını belirt; sütun adlarını ("id", "text" ve "label") ve sütun türlerini ver.
  • "sms.csv" adlı sınırlayıcılı bir dosyadan veriyi oku.
  • Ortaya çıkan DataFrame'in şemasını yazdır.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

from pyspark.sql.types import StructType, StructField, IntegerType, StringType

# Specify column names and types
schema = StructType([
    StructField("____", IntegerType()),
    ____("____", ____()),
    ____("____", ____())
])

# Load data from a delimited file
sms = spark.read.csv(____, sep=____, header=____, ____=____)

# Print schema of DataFrame
sms.____()
Kodu Düzenle ve Çalıştır