SMS spam verisini yükleme
Veri türlerinin doğrudan veriden çıkarılabildiğini gördün. Bazen sütun türleri üzerinde doğrudan kontrol sahibi olmak daha kullanışlıdır. Bunu açık bir şema tanımlayarak yaparsın.
sms.csv dosyası, 'spam' veya 'ham' olarak sınıflandırılmış seçili SMS mesajlarını içerir. Bu veriler UCI Machine Learning Repository kaynağından uyarlanmıştır. Toplam 5574 SMS vardır ve bunların 747'si spam olarak etiketlenmiştir.
CSV biçimiyle ilgili notlar:
- başlık satırı yok ve
- alanlar noktalı virgülle ayrılmış (bu varsayılan ayraç değildir).
Veri sözlüğü:
id— kayıt tanımlayıcısıtext— SMS mesajının içeriğilabel— spam veya ham (tamsayı; 0 = ham ve 1 = spam)
Bu egzersiz
PySpark ile Machine Learning
kursunun bir parçasıdırEgzersiz talimatları
- Veri şemasını belirt; sütun adlarını (
"id","text"ve"label") ve sütun türlerini ver. "sms.csv"adlı sınırlayıcılı bir dosyadan veriyi oku.- Ortaya çıkan DataFrame'in şemasını yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
from pyspark.sql.types import StructType, StructField, IntegerType, StringType
# Specify column names and types
schema = StructType([
StructField("____", IntegerType()),
____("____", ____()),
____("____", ____())
])
# Load data from a delimited file
sms = spark.read.csv(____, sep=____, header=____, ____=____)
# Print schema of DataFrame
sms.____()