« CLIP » : différence entre les versions
Aller à la navigation
Aller à la recherche
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 1 : | Ligne 1 : | ||
CLIP pour (Contrastive Language–Image Pre-training) a été introduit par OpenAi en 2021. | CLIP pour (Contrastive Language–Image Pre-training) a été introduit par OpenAi en 2021. | ||
L'objectif est de contourner certains problèmes de l'apprentissage supervisé, par exemple, ceux liés aux coûts des Datasets (voir [[ImageNet]]), à leur limitation de prédiction à l'ensemble des catégories entrainées, et à leur faible performance (parfois). | |||
L'objectif est de fournir un text (caption) pour une nouvelle image présentée lors de la phase d'inférence. | |||
Cette méthode CLIP permet de contourner certains problèmes de l'apprentissage supervisé, par exemple, ceux liés aux coûts des Datasets (voir [[ImageNet]]), à leur limitation de prédiction à l'ensemble des catégories entrainées, et à leur faible performance (parfois). | |||
L'apprentissage décrit par OpenAi s'est fait avec 256 GPU durant 2 semaines. | L'apprentissage décrit par OpenAi s'est fait avec 256 GPU durant 2 semaines. | ||
Il semble que 400M de paires(caption/image) aient été utilisées pour l'apprentissage. | |||
Version du 8 novembre 2022 à 17:18
CLIP pour (Contrastive Language–Image Pre-training) a été introduit par OpenAi en 2021.
L'objectif est de fournir un text (caption) pour une nouvelle image présentée lors de la phase d'inférence.
Cette méthode CLIP permet de contourner certains problèmes de l'apprentissage supervisé, par exemple, ceux liés aux coûts des Datasets (voir ImageNet), à leur limitation de prédiction à l'ensemble des catégories entrainées, et à leur faible performance (parfois).
L'apprentissage décrit par OpenAi s'est fait avec 256 GPU durant 2 semaines. Il semble que 400M de paires(caption/image) aient été utilisées pour l'apprentissage.