1. Learn
  2. /
  3. Cursuri
  4. /
  5. Czyszczenie danych w PySpark

Connected

exercițiu

Więcej sztuczek z ID

Gdy zdefiniujesz proces Spark, zapewne będziesz chcieć go wielokrotnie używać. W zależności od potrzeb możesz chcieć, aby identyfikatory zaczynały się od określonej wartości, tak by nie nakładały się na wyniki z poprzednich uruchomień zadania Spark. Takie zachowanie jest podobne do tego, jak działają identyfikatory w relacyjnych bazach danych. Masz za zadanie zadbać o to, żeby identyfikatory generowane przez miesięczne zadanie Spark zaczynały się od wartości wyższej niż najwyższy identyfikator z poprzedniego miesiąca.

Sesja spark oraz dwa DataFrames – voter_df_march i voter_df_april – są dostępne w twoim środowisku roboczym. Biblioteka pyspark.sql.functions jest dostępna pod aliasem F.

Instrucțiuni

100 XP
  • Wyznacz najwyższą wartość ROW_ID w voter_df_march i zapisz ją w zmiennej previous_max_ID. Użyj wyrażenia .rdd.max()[0], aby pobrać maksymalne ID.
  • Dodaj kolumnę ROW_ID do voter_df_april, zaczynając od wartości previous_max_ID + 1.
  • Wyświetl kolumny ROW_ID z obu DataFrames i porównaj je.