Reinforcement Learning from Human Feedback

De Wiki BackProp

Aller à la navigation Aller à la recherche

Reinforcement Learning from Human Feedback (RLHF)

https://huggingface.co/blog/rlhf

Récupérée de « http://wiki.backprop.fr/index.php?title=Reinforcement_Learning_from_Human_Feedback&oldid=39 »