1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Uczenie maszynowe z PySpark

Connected

Exercise

Wczytywanie danych SMS ze spamem

Wiesz już, że Spark potrafi automatycznie wykrywać typy danych bezpośrednio z pliku. Czasem jednak wygodniej jest mieć pełną kontrolę nad typami kolumn – wówczas możesz zdefiniować schemat jawnie.

Plik sms.csv zawiera zestaw wiadomości SMS sklasyfikowanych jako „spam" lub „ham". Dane zostały zaadaptowane z repozytorium UCI Machine Learning Repository. Zbiór zawiera łącznie 5574 wiadomości SMS, z czego 747 zostało oznaczonych jako spam.

Format pliku CSV:

  • brak wiersza nagłówka,
  • pola oddzielone są średnikiem (to nie jest domyślny separator).

Słownik danych:

  • id — identyfikator rekordu
  • text — treść wiadomości SMS
  • label — spam lub ham (liczba całkowita; 0 = ham, 1 = spam)

Instrukcje

100 XP
  • Zdefiniuj schemat danych, podając nazwy kolumn ("id", "text" i "label") oraz ich typy.
  • Wczytaj dane z pliku rozdzielanego o nazwie "sms.csv".
  • Wyświetl schemat uzyskanej ramki danych (DataFrame).