Wczytywanie danych SMS ze spamem

Wiesz już, że Spark potrafi automatycznie wykrywać typy danych bezpośrednio z pliku. Czasem jednak wygodniej jest mieć pełną kontrolę nad typami kolumn – wówczas możesz zdefiniować schemat jawnie.

Plik sms.csv zawiera zestaw wiadomości SMS sklasyfikowanych jako „spam" lub „ham". Dane zostały zaadaptowane z repozytorium UCI Machine Learning Repository. Zbiór zawiera łącznie 5574 wiadomości SMS, z czego 747 zostało oznaczonych jako spam.

Format pliku CSV: