1. Learn
  2. /
  3. Kurser
  4. /
  5. Podstawy Big Data z PySpark

Connected

övning

RDD z zewnętrznych zbiorów danych

PySpark pozwala w łatwy sposób tworzyć RDD z plików przechowywanych na zewnętrznych urządzeniach, takich jak HDFS (Hadoop Distributed File System), zasobniki Amazon S3 i inne. Najczęściej jednak RDD tworzy się z plików znajdujących się w lokalnym systemie plików. Ta metoda przyjmuje ścieżkę do pliku i wczytuje go jako kolekcję wierszy. W tym ćwiczeniu utworzysz RDD na podstawie ścieżki (file_path) do pliku README.md, który jest już dostępny w twoim obszarze roboczym.

Pamiętaj, że SparkContext sc jest już dostępny w twoim obszarze roboczym.

Instruktioner

100 XP
  • Wyświetl file_path w powłoce PySpark.
  • Utwórz RDD o nazwie fileRDD na podstawie file_path.
  • Wyświetl typ utworzonego fileRDD.