1. Learn
  2. /
  3. Cursuri
  4. /
  5. Curățarea datelor cu PySpark

Connected

exercițiu

Împărțirea în coloane

Ai curățat considerabil datele, eliminând rândurile invalide din DataFrame. Acum vrei să aplici câteva transformări suplimentare, generând coloane specifice și semnificative pe baza conținutului DataFrame-ului.

Ai disponibil contextul spark și cea mai recentă versiune a DataFrame-ului annotations_df. pyspark.sql.functions este disponibil sub aliasul F.

Instrucțiuni

100 XP
  • Împarte conținutul coloanei '_c0' după caracterul tab și stochează rezultatul într-o variabilă numită split_cols.
  • Adaugă următoarele coloane pe baza primelor patru elemente din variabila de mai sus: folder, filename, width, height, într-un DataFrame numit split_df.
  • Adaugă variabila split_cols ca o coloană.