1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy Big Data z PySpark

Connected

ćwiczenie

Filtrowanie i zliczanie

Transformacja RDD filter() zwraca nowe RDD zawierające tylko te elementy, które spełniają podany warunek. Przydaje się do filtrowania dużych zbiorów danych według słowa kluczowego. W tym ćwiczeniu przefiltruj wiersze zawierające słowo kluczowe Spark z RDD o nazwie fileRDD, który zawiera linie tekstu z pliku README.md. Następnie zlicz łączną liczbę wierszy zawierających słowo Spark i wyświetl pierwsze 4 wiersze przefiltrowanego RDD.

Pamiętaj, że w swoim środowisku masz już dostępny SparkContext sc, zmienną file_path oraz fileRDD.

Instrukcje

100 XP
  • Utwórz transformację filter(), która wybiera wiersze zawierające słowo kluczowe Spark.
  • Ile wierszy w fileRDD_filter zawiera słowo kluczowe Spark?
  • Wyświetl pierwsze cztery wiersze wynikowego RDD.