La vision par ordinateur, également appelée Vision AI ou AI Vision, est une application spécialisée de l'intelligence artificielle (IA) qui vise à analyser et à comprendre les données visuelles. Il s'agit par exemple de vidéos, de photos, d'images satellites ou de scans. Tout comme la vision humaine, la vision par ordinateur donne aux machines la capacité de saisir et d'interpréter des informations visuelles et de réagir en conséquence.
La vision par ordinateur (également appelée Vision AI, AI Vision) n'est pas une simple reconnaissance d'images. Il s'agit d'un domaine de l'IA qui permet aux ordinateurs et aux systèmes d'extraire des informations utiles des données visuelles. Cette technologie permet aux systèmes de prendre des mesures ou d'émettre des recommandations. La vision par ordinateur va donc au-delà du simple traitement d'images en prenant en compte les informations contextuelles et en réagissant intelligemment aux changements de l'environnement. En utilisant des algorithmes et l'apprentissage automatique, les modèles et les caractéristiques sont reconnus, les objets sont identifiés et les mouvements sont suivis.
La vision par ordinateur peut être utilisée dans de nombreux domaines, notamment les soins de santé, les véhicules autonomes ou la surveillance de la sécurité. Dans la robotique, par exemple, la vision par ordinateur permet aux robots de percevoir visuellement leur environnement, d'identifier des objets et de prendre des décisions sur cette base. Cela permet aux robots d'effectuer des tâches de manière autonome, comme par exemple
L'objectif de la vision par ordinateur est de créer, à l'aide de modèles d'apprentissage automatique , des systèmes numériques capables de traiter et d'analyser des données visuelles de la même manière que les humains, voire plus rapidement et plus efficacement.
Le processus commence par la capture d'images et de vidéos qui sont prétraitées par des algorithmes. Ensuite, les données sont analysées au moyen du Machine Learning par des modèles préalablement entraînés, capables de reconnaître des caractéristiques et des modèles spécifiques. Ces modèles sont basés sur de grands ensembles de données qui leur permettent d'être de plus en plus précis grâce à l'entraînement.
Une technique avancée est le deep learning, qui utilise des réseaux neuronaux convolutionnels (CNN). Ces réseaux sont composés de plusieurs couches qui reconnaissent des caractéristiques spécifiques d'une image. Des caractéristiques simples comme les bords sont d'abord reconnues, puis des modèles plus complexes. Ainsi, le système peut progressivement comprendre de mieux en mieux les objets et les scènes.
Enfin, les informations extraites sont utilisées pour déclencher des actions ou émettre des recommandations. Grâce aux progrès réalisés en matière de matériel et de puissance de calcul, la vision par ordinateur peut déjà fonctionner en temps quasi réel et gérer des tâches complexes. Le cloud computing et l'edge computing ont encore accru les performances de la vision par ordinateur.