« Reinforcement Learning from Human Feedback » : différence entre les versions
Aller à la navigation
Aller à la recherche
(Page créée avec « Reinforcement Learning from Human Feedback (RLHF) https://huggingface.co/blog/rlhf ») |
(Aucune différence)
|
Version actuelle datée du 22 janvier 2023 à 21:59
Reinforcement Learning from Human Feedback (RLHF)