1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do Spark z pakietem sparklyr w R

Connected

ćwiczenie

Eksploracja typów danych w Sparku

W rozdziale 1 poznałeś już src_tbls() – funkcję wyświetlającą listę DataFrame'ów w Sparku widocznych dla sparklyr. Znasz też glimpse(), która pozwala przejrzeć kolumny tibble po stronie R.

sparklyr udostępnia funkcję sdf_schema() do eksploracji kolumn tibble po stronie R. Wywołanie jej jest proste, choć praca z wartością zwracaną bywa nieco uciążliwa.

sdf_schema(a_tibble)

Wartość zwracana to lista, w której każdy element jest listą dwuelementową zawierającą nazwę i typ danych każdej kolumny. Ćwiczenie pokazuje transformację danych ułatwiającą podgląd typów.

Poniżej znajduje się zestawienie, jak typy danych R odpowiadają typom danych Sparka. Inne typy danych nie są obecnie obsługiwane przez sparklyr.

Typ R Typ Spark
logical BooleanType
numeric DoubleType
integer IntegerType
character StringType
list ArrayType

Instrukcje

100 XP

Połączenie ze Sparkiem zostało już utworzone i jest dostępne jako spark_conn. Tibble powiązane z metadanymi utworów przechowywanymi w Sparku zostało wcześniej zdefiniowane jako track_metadata_tbl.

  • Wywołaj sdf_schema(), aby pobrać schemat metadanych utworów.
  • Uruchom kod transformacji na obiekcie schema, aby wyświetlić go w czytelniejszym formacie tibble.