1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Čištění dat v R

Connected

cvičení

Párové blokování

Zagat a Fodor's jsou společnosti, které shromažďují recenze restaurací. Datasety zagat a fodors obsahují informace o různých restauracích, včetně adres, telefonních čísel a typů kuchyně. Některé restaurace se objevují v obou datasetech, ale jejich název nebo telefonní číslo nemusí být zapsáno úplně stejně. V této kapitole zjistíš, které restaurace se vyskytují v obou datasetech.

Prvním krokem je vygenerování párů záznamů, které pak budeš moci porovnávat. V tomto cvičení nejprve vygeneruješ všechny možné páry a pak využiješ vyčištěný sloupec city jako blokovací proměnnou.

Datasety zagat a fodors jsou k dispozici.

Instrukce 1/2

undefined XP
  • 1
    • Načti balíček reclin.
    • Vygeneruj všechny možné páry záznamů z datasetů zagat a fodors.
  • 2
    • Pomocí párového blokování vygeneruj pouze páry, které mají shodné hodnoty ve sloupci city.