Mensen laten beoordelen welke antwoorden goed zijn om het model te sturen.
RLHF (Reinforcement Learning from Human Feedback): Mensen laten beoordelen welke antwoorden goed zijn om het model te sturen.