« Reinforcement Learning from Human Feedback » : différence entre les versions

De Wiki BackProp

Aller à la navigation Aller à la recherche

Version actuelle datée du 22 janvier 2023 à 21:59

Reinforcement Learning from Human Feedback (RLHF)

https://huggingface.co/blog/rlhf

Récupérée de « http://wiki.backprop.fr/index.php?title=Reinforcement_Learning_from_Human_Feedback&oldid=39 »