1. Обучение
  2. /
  3. Курса
  4. /
  5. Uczenie przez wzmacnianie z informacją zwrotną od człowieka (RLHF)

Connected

упражнение

Głosowanie większościowe na wielu źródłach danych

Twój zespół tworzy model AI do automatycznego generowania raportów kontroli jakości (QC) smartfonów. W tym celu zebrano dane preferencji z trzech różnych źródeł kontroli jakości: „Automated Vision System", „Human Inspector" oraz „Customer Feedback". Każde z nich oznaczyło parowane próbki tekstu jako „chosen" i „rejected". Każda para ma unikalne pole id, a każdy wpis przedstawia preferowaną recenzję QC.

quality_df to połączony obiekt DataFrame wczytany przy użyciu pandas. Zawiera dane z trzech różnych źródeł danych. Ponadto klasa Counter została wcześniej zaimportowana z modułu collections.

Инструкции

100 XP
  • Zlicz wystąpienia każdej pary (chosen, rejected) w funkcji głosowania.
  • Znajdź parę (chosen, rejected) z najwyższą liczbą głosów.