Qu’est-ce que CVAT ?
CVAT est l’acronyme de “Computer Vision Annotation Tool”. Il s'agit d’un outil open source développé par Intel.
CVAT permet d’annoter des images et des vidéos. Il est conçu pour entraîner des systèmes de vision par ordinateur.
L’outil s’utilise principalement en intelligence artificielle (IA), dans les projets de machine learning.
À quoi sert CVAT ?
CVAT sert à créer des données annotées. Ces données sont indispensables pour entraîner les algorithmes de vision par ordinateur.
Par exemple, si vous souhaitez qu’un système reconnaisse des véhicules sur une vidéo, il faut d’abord fournir des images avec les véhicules clairement identifiés.
CVAT est utilisé dans divers domaines : automobile (voiture autonome), médical (imagerie), sécurité (vidéosurveillance), ou encore robotique.
Il permet aux équipes techniques de gagner du temps et d’assurer la qualité des annotations.
Comment fonctionne CVAT ?
CVAT est une application web. Les utilisateurs l’installent sur un serveur local ou l'utilisent dans le cloud.
Une fois connecté, l'utilisateur peut importer des images ou des vidéos, créer des projets et définir des tâches d’annotation.
L’interface permet de tracer des formes sur les images (boîtes, polygones, lignes, points). Ces formes servent à marquer des objets précis : personne, voiture, animal, etc.
Chaque objet peut être étiqueté avec une classe (catégorie), un identifiant ou un attribut. On peut aussi suivre un même objet d’une image à l’autre (tracking).
Les projets peuvent être partagés entre plusieurs utilisateurs. Cela facilite le travail en équipe, avec des fonctions de validation et de relecture.
Différences avec des notions proches
CVAT est un outil d’annotation, pas une IA en soi. Il ne prend pas de décisions, il prépare les données pour l’apprentissage machine.
Il se distingue de plateformes comme Labelbox ou V7, qui sont commerciales, car CVAT est gratuit et open source.
CVAT se concentre sur la vision par ordinateur. Il n’est pas destiné à l’annotation de textes ou d’audio, comme d'autres outils spécialisés en NLP (traitement du langage).
Exemples ou cas d’usage concrets
Une entreprise automobile utilise CVAT pour annoter des vidéos enregistrées par des caméras embarquées. Elle identifie les piétons, feux, panneaux et véhicules.
Un hôpital collabore avec une équipe IA. Il fournit des images médicales (IRM, radios) que les médecins annotent à l’aide de CVAT pour détecter les tumeurs.
Une startup de vidéosurveillance utilise CVAT pour entraîner son IA à détecter des comportements suspects dans des lieux publics.
Des universités et écoles s’en servent pour enseigner la préparation de données à leurs étudiants en IA et data science.
.webp)