« Reinforcement Learning from Human Feedback » : différence entre les versions

De Wiki BackProp
Aller à la navigation Aller à la recherche
(Page créée avec « Reinforcement Learning from Human Feedback (RLHF) https://huggingface.co/blog/rlhf »)
 
(Aucune différence)

Version actuelle datée du 22 janvier 2023 à 21:59

Reinforcement Learning from Human Feedback (RLHF)

https://huggingface.co/blog/rlhf