SMS spam verisini yükleme

Veri türlerinin doğrudan veriden çıkarılabildiğini gördün. Bazen sütun türleri üzerinde doğrudan kontrol sahibi olmak daha kullanışlıdır. Bunu açık bir şema tanımlayarak yaparsın.

sms.csv dosyası, 'spam' veya 'ham' olarak sınıflandırılmış seçili SMS mesajlarını içerir. Bu veriler UCI Machine Learning Repository kaynağından uyarlanmıştır. Toplam 5574 SMS vardır ve bunların 747'si spam olarak etiketlenmiştir.

CSV biçimiyle ilgili notlar:

başlık satırı yok ve
alanlar noktalı virgülle ayrılmış (bu varsayılan ayraç değildir).

Veri sözlüğü:

id — kayıt tanımlayıcısı
text — SMS mesajının içeriği
label — spam veya ham (tamsayı; 0 = ham ve 1 = spam)

Bu egzersiz

PySpark ile Machine Learning

kursunun bir parçasıdır

Kursu Görüntüle

Egzersiz talimatları

Veri şemasını belirt; sütun adlarını ("id", "text" ve "label") ve sütun türlerini ver.
"sms.csv" adlı sınırlayıcılı bir dosyadan veriyi oku.
Ortaya çıkan DataFrame'in şemasını yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

from pyspark.sql.types import StructType, StructField, IntegerType, StringType

# Specify column names and types
schema = StructType([
    StructField("____", IntegerType()),
    ____("____", ____()),
    ____("____", ____())
])

# Load data from a delimited file
sms = spark.read.csv(____, sep=____, header=____, ____=____)

# Print schema of DataFrame
sms.____()

Kodu Düzenle ve Çalıştır