Zapisywanie do pliku

W filmie zobaczyłeś, że dane są często ładowane do bazy MPP, takiej jak Redshift, aby umożliwić ich analizę.

Typowy przepływ pracy polega na zapisaniu danych w kolumnowych plikach danych. Pliki te są następnie przesyłane do systemu przechowywania, skąd można je skopiować do hurtowni danych. W przypadku Amazon Redshift systemem przechowywania jest na przykład S3.

Pierwszym krokiem jest zapisanie pliku w odpowiednim formacie. W tym ćwiczeniu skorzystasz z formatu Apache Parquet.

W twoim obszarze roboczym dostępny jest DataFrame PySpark o nazwie film_sdf oraz DataFrame biblioteki pandas o nazwie film_pdf.

Zapisz DataFrame biblioteki pandas o nazwie film_pdf do pliku parquet o nazwie "films_pdf.parquet".
Zapisz DataFrame biblioteki PySpark o nazwie film_sdf do pliku parquet o nazwie "films_sdf.parquet".

ćwiczenie

Zapisywanie do pliku

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie