RLHF (Reinforcement Learning from Human Feedback)

Definitie ▼

Mensen laten beoordelen welke antwoorden goed zijn om het model te sturen.

RLHF (Reinforcement Learning from Human Feedback): Mensen laten beoordelen welke antwoorden goed zijn om het model te sturen.