Reinforcement Learning from Human Feedback

De Wiki BackProp
Révision datée du 22 janvier 2023 à 21:59 par Jboscher (discussion | contributions) (Page créée avec « Reinforcement Learning from Human Feedback (RLHF) https://huggingface.co/blog/rlhf »)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)
Aller à la navigation Aller à la recherche