L’apprentissage automatique est une technologie informatique de plus en plus répandue qui permet aux algorithmes d’analyser, de classer et de faire des prédictions à partir de vastes ensembles de données. L’apprentissage automatique est moins complexe et moins puissant que les technologies apparentées, mais il a de nombreuses utilisations et est employé par de nombreuses grandes entreprises dans le monde entier.
Qu’est-ce que l’apprentissage automatique ?
L’apprentissage automatique est conçu pour aider les ordinateurs à apprendre de la même manière que le cerveau humain. L’apprentissage automatique utilise de grands ensembles de données et des algorithmes (modèles) pour analyser et catégoriser les données ou faire des prédictions. Plus un modèle d’apprentissage automatique est utilisé, plus il traite de données, plus il s’améliore dans ses tâches. Les modèles peuvent s’améliorer d’eux-mêmes et être mis à jour par des humains.
Contrairement à des technologies similaires telles que l’apprentissage profond, l’apprentissage automatique n’utilise pas de réseaux neuronaux. Bien que l’apprentissage automatique soit lié à des développements tels que l’intelligence artificielle, il n’est ni aussi avancé ni aussi puissant que ces technologies.
L’apprentissage automatique existe sous diverses formes depuis les années 1960 et son utilisation est de plus en plus répandue. Environ 70 % des sociétés de services financiers utilisent une forme ou une autre d’apprentissage automatique.
Définition de l’apprentissage automatique
L’apprentissage automatique commence par deux éléments : un algorithme et un ensemble de données. L’algorithme indique au modèle d’apprentissage automatique ce qu’il doit faire (analyser des images, détecter des modèles, faire des prédictions). L’ensemble de données peut ou non être classé ou étiqueté pour aider l’algorithme. L’algorithme traite ensuite les données pour produire un résultat.
Plus l’algorithme traite de données, plus il doit devenir précis. En général, le modèle apporte les améliorations sur la base d’une logique intégrée, mais les humains peuvent également mettre à jour l’algorithme ou apporter d’autres changements pour améliorer la qualité des résultats.
C’est ce que l’on entend par "apprentissage." Les humains apprennent des concepts ou des compétences de base, puis s’améliorent par la répétition et l’extrapolation. C’est également l’objectif du ML. Les programmes informatiques traditionnels sont conçus pour exécuter une fonction donnée, mais ces fonctions sont relativement limitées et ne peuvent changer que lorsque le programmeur les modifie. Avec la ML, le modèle est conçu pour se modifier lui-même en fonction de l’expérience acquise avec davantage de données et de tâches.
Par exemple, un algorithme de détection d’images peut analyser des photos contenant une personne aux cheveux roux. La première fois que le modèle est utilisé, ses résultats seront moins précis que la deuxième fois, et la troisième fois, ils seront plus précis. Cette amélioration est due au fait que le modèle développe de meilleures techniques pour distinguer un être humain d’un arbre ou d’une vache et pour distinguer les cheveux roux des cheveux blonds.
Quatre types d’apprentissage automatique
Bien qu’il existe des sous-types dans chaque catégorie, les quatre principaux types d’apprentissage automatique sont les suivants :
- ML supervisée : elle utilise des données étiquetées et structurées et la plus grande intervention humaine pour trouver les modèles recherchés par le créateur du modèle. Il est utilisé de préférence pour des tâches relativement simples qui peuvent être automatisées, avec des règles facilement définies et comprises, et lorsqu’il y a beaucoup de données disponibles.
- ML non supervisée : contrairement à la ML supervisée, aucune donnée étiquetée ou structurée n’est disponible. Au lieu de cela, le modèle détecte des schémas et tire des conclusions sur la base des données, y compris des éléments que le créateur du modèle n’a pas recherchés. Il est utilisé pour détecter des modèles et pour la classification (par exemple, le regroupement de clients en fonction de leur comportement), puis pour prendre des mesures en fonction de ces modèles.
- ML semi-supervisé : combine les deux types ci-dessus en formant initialement le modèle à l’aide de données étiquetées, puis en demandant au modèle de traiter des données non étiquetées. La ML semi-supervisée est utile lorsqu’il n’y a pas assez de données étiquetées ou que la génération de ces données n’est pas pratique.
- Renforcement : Ce type de ML est basé sur des récompenses ou un retour d’information positif. Il est utilisé de préférence pour les systèmes dans lesquels il est facile de définir les bonnes et les mauvaises réponses et pour lesquels il existe une meilleure action dans une situation donnée. Les modèles d’apprentissage automatique qui jouent à des jeux comme les échecs sont souvent des modèles de renforcement.
Utilisations courantes de l’apprentissage automatique
Les applications de l’apprentissage automatique que de nombreuses personnes ont expérimentées comprennent ces utilisations courantes :
- Algorithmes de recommandation : Lesmodèles ML' de détection de modèles et de catégorisation sont au cœur des algorithmes de recommandation de contenu ou de produits.
- Reconnaissance de la parole : La ML est utilisée pour les logiciels de synthèse vocale et les applications de traitement du langage naturel.
- Chatbots : Les chatbots utilisés pour les ventes et le service à la clientèle, en particulier ceux qui sont des arbres de décision relativement simples, sont souvent basés sur la ML.
- Vision par ordinateur : Donner aux ordinateurs la capacité de "voir" et de comprendre les images – pour des choses aussi complexes que des véhicules autonomes ou aussi simples que l’analyse de photos – repose sur l’apprentissage automatique.
- Détection des fraudes et anti-spam : la détection des schémas aide les sociétés de services financiers à repérer les transactions potentiellement frauduleuses et permet à votre compte de messagerie d’éliminer les spams de votre boîte de réception.
Domaines d’inquiétude pour l’apprentissage automatique
Bien que l’apprentissage automatique soit puissant et largement utilisé, il a également fait l’objet de critiques pour des questions telles que :
- Protection de la vie privée : Les modèles de ML nécessitant de grands volumes de données, il est possible que la ML traite des données personnelles sensibles. Dans certains cas, l’utilisation de ces données peut ne pas avoir été autorisée ou pleinement comprise par les personnes concernées. En conséquence, le ML pourrait utiliser ou divulguer des informations sensibles.
- Manque de transparence : En raison de leur capacité d’apprentissage, il peut être très difficile, voire impossible, de comprendre chaque étape qui a conduit un modèle à une conclusion ou à une recommandation. Cette limitation rend très difficile toute réglementation visant à s’assurer qu’ils n’enfreignent pas les lois (telles que les lois sur l’équité en matière de logement ou de prêt).
- Préjugés et discrimination : Les préjugés (conscients ou inconscients) des créateurs du modèle ou des données utilisées pour former le modèle influencent la manière dont le modèle apprend et ses résultats. Ainsi, à moins qu’une attention particulière ne soit accordée à la correction des préjugés, les modèles de ML peuvent involontairement renforcer les préjugés. Un bon exemple est la façon dont les systèmes de reconnaissance faciale sont plus précis avec certains tons de peau qu’avec d’autres, en fonction des données utilisées pour les former et de la race à laquelle appartiennent les créateurs des modèles. Cela peut entraîner des problèmes importants dans le domaine de l’application de la loi, par exemple.
FAQ
- Qu’est-ce que l’overfitting dans l’apprentissage automatique ?
Le surajustement est une erreur dans les résultats d’un programme d’apprentissage automatique. Cela signifie généralement que le résultat ressemble trop aux données d’apprentissage, ce qui suggère que l’algorithme ne fait pas l’inférence ou l’extrapolation qu’il devrait faire et qu’il ne produit donc pas de résultats utilisables.
- Qu’est-ce que la validation croisée dans l’apprentissage automatique ?
La validation croisée est une méthode de test d’un modèle d’apprentissage automatique ; les développeurs l’utilisent généralement pour lutter contre le surajustement. Une version de la validation croisée consiste à diviser l’ensemble de données d’origine en plus petits morceaux. Certains sont retenus, tandis que les autres sont soumis au modèle. Vous comparez ensuite les groupes "contrôle" avec les groupes "test" pour évaluer les performances de l’algorithme.