Reinforcement Learning from Human Feedback

De Wiki BackProp

Révision datée du 22 janvier 2023 à 21:59 par Jboscher (discussion | contributions) (Page créée avec « Reinforcement Learning from Human Feedback (RLHF) https://huggingface.co/blog/rlhf »)

(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

Aller à la navigation Aller à la recherche

Reinforcement Learning from Human Feedback (RLHF)

https://huggingface.co/blog/rlhf

Récupérée de « http://wiki.backprop.fr/index.php?title=Reinforcement_Learning_from_Human_Feedback&oldid=39 »