1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do inżynierii danych

Connected

ćwiczenie

Zapisywanie do pliku

W filmie zobaczyłeś, że dane są często ładowane do bazy MPP, takiej jak Redshift, aby umożliwić ich analizę.

Typowy przepływ pracy polega na zapisaniu danych w kolumnowych plikach danych. Pliki te są następnie przesyłane do systemu przechowywania, skąd można je skopiować do hurtowni danych. W przypadku Amazon Redshift systemem przechowywania jest na przykład S3.

Pierwszym krokiem jest zapisanie pliku w odpowiednim formacie. W tym ćwiczeniu skorzystasz z formatu Apache Parquet.

W twoim obszarze roboczym dostępny jest DataFrame PySpark o nazwie film_sdf oraz DataFrame biblioteki pandas o nazwie film_pdf.

Instrukcje

100 XP
  • Zapisz DataFrame biblioteki pandas o nazwie film_pdf do pliku parquet o nazwie "films_pdf.parquet".
  • Zapisz DataFrame biblioteki PySpark o nazwie film_sdf do pliku parquet o nazwie "films_sdf.parquet".