övning

RDD z zewnętrznych zbiorów danych

PySpark pozwala w łatwy sposób tworzyć RDD z plików przechowywanych na zewnętrznych urządzeniach, takich jak HDFS (Hadoop Distributed File System), zasobniki Amazon S3 i inne. Najczęściej jednak RDD tworzy się z plików znajdujących się w lokalnym systemie plików. Ta metoda przyjmuje ścieżkę do pliku i wczytuje go jako kolekcję wierszy. W tym ćwiczeniu utworzysz RDD na podstawie ścieżki (file_path) do pliku README.md, który jest już dostępny w twoim obszarze roboczym.

Pamiętaj, że SparkContext sc jest już dostępny w twoim obszarze roboczym.

Instruktioner

100 XP

Wyświetl file_path w powłoce PySpark.
Utwórz RDD o nazwie fileRDD na podstawie file_path.
Wyświetl typ utworzonego fileRDD.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}övning

Instruktioner

övning