REINFORCEMENT LEARING MIT HUMAN FEEDBACK (RLHF)

Dies ist ein Ansatz im maschinellen Lernen, bei dem ein Modell oder „Agent“ nicht nur durch eine vorgegebene Belohnungsfunktion (wie es im klassischen bestärkenden Lernen der Fall ist), sondern auch durch menschliches Feedback trainiert wird. Der Mensch kann das Modell „coachen“ oder korrigieren, indem er direktes Feedback zu den Aktionen des Modells gibt. Dieses Feedback…