Tipe data
Kerja bagus! Sebelum Anda mulai membuat model, penting untuk diketahui bahwa Spark hanya menangani data numerik. Artinya, semua kolom dalam DataFrame Anda harus berupa integer atau decimal (disebut 'double' di Spark).
Saat kita mengimpor data, kita membiarkan Spark menebak jenis informasi yang terdapat di setiap kolom. Sayangnya, Spark tidak selalu menebak dengan benar dan Anda dapat melihat bahwa beberapa kolom dalam DataFrame kita berupa string yang berisi angka, bukan nilai numerik sebenarnya.
Untuk mengatasinya, Anda dapat menggunakan metode .cast() bersama dengan metode .withColumn().
Penting untuk dicatat bahwa .cast() bekerja pada kolom, sedangkan .withColumn() bekerja pada DataFrame.
Satu-satunya argumen yang perlu Anda berikan ke .cast() adalah jenis nilai yang ingin dibuat, dalam bentuk string. Misalnya, untuk membuat integer, Anda akan memberikan argumen "integer" dan untuk bilangan desimal Anda akan menggunakan "double".
Anda dapat menempatkan pemanggilan .cast() ini di dalam pemanggilan .withColumn() untuk menimpa kolom yang sudah ada, seperti yang Anda lakukan di bab sebelumnya!
Jenis data apa yang diperlukan Spark untuk pemodelan?
Latihan ini adalah bagian dari kursus
Dasar-Dasar PySpark
Latihan interaktif praktis
Ubah teori menjadi tindakan dengan salah satu latihan interaktif kami.
Mulai berolahraga