1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning with PySpark

Connected

Cvičení

Načítání SMS spamových dat

Viděl/a jsi, že datové typy lze odvodit přímo z dat. Někdy je ale praktické mít nad typy sloupců přímou kontrolu. To zajistíš tím, že definuješ explicitní schema.

Soubor sms.csv obsahuje výběr SMS zpráv, které byly klasifikovány jako 'spam' nebo 'ham'. Tato data byla upravena z UCI Machine Learning Repository. Celkem jde o 5 574 SMS zpráv, z nichž 747 bylo označeno jako spam.

Poznámky k formátu CSV:

  • soubor neobsahuje záhlaví a
  • pole jsou oddělena středníkem (to není výchozí oddělovač).

Slovník dat:

  • id — identifikátor záznamu
  • text — obsah SMS zprávy
  • label — spam nebo ham (celé číslo; 0 = ham a 1 = spam)

Pokyny

100 XP
  • Definuj schema dat – zadej názvy sloupců ("id", "text" a "label") a jejich datové typy.
  • Načti data z odděleného souboru s názvem "sms.csv".
  • Vypiš schema výsledného DataFrame.