Panorama des algorithmes de machine learning

Réputés très fiables, les unes sont des boîtes noires. Moins robustes, les autres permettent à l'inverse à l'humain de comprendre les choix de la machine. Le mieux est le plus souvent de les mixer.

Régression linéaire, forêt aléatoire, réseaux de neurones… Difficile de s'y retrouver tant les algorithmes d'intelligence artificielle sont nombreux. Néanmoins, au sein de cette offre pléthorique, deux grandes classes d'algorithmes d'IA se distinguent, explique Frédérick Vautrain, directeur data science au sein de la société de conseils et de services, Viseo. "Les algorithmes supervisés sont adaptés aux cas où on dispose d'une connaissance a priori du problème, tandis que les algorithmes non supervisés le seront lorsqu'aucune connaissance préalable n'est disponible".

Algorithmes supervisés vs non supervisés

Les premiers peuvent s'appliquer notamment sur le terrain de la reconnaissance vocale, d'images, d'écriture ou de la vision par ordinateur. Des domaines où la machine dispose souvent de vastes référentiels d'enregistrements numériques pour apprendre. A l'inverse, les seconds vont chercher à résoudre une situation en décodant les informations de contexte et la logique qui en découle, sans recourir à une source de connaissances préétablie. En marketing par exemple, il pourra s'agir de regrouper des prospects par segments en vue d'optimiser un ciblage publicitaire et un taux de conversion. Et ce, en fonction de traits de comportement similaires (d'achat, de consommation de services…), mais sans préjuger à l'avance de ces similarités.

Certains types d'algorithmes sont très performants côté prédiction sans pour autant que leurs résultats soient vraiment explicables. C'est le cas des réseaux de neurones. Cela peut s'avérer problématique dans certaines situations. Dans l'analytics RH, si le modèle d'apprentissage indique qu'un salarié risque de démissionner, comment un manager pourra-t-il agir en conséquence si les causes du phénomène sont multiples et trop complexes à cerner au sein du modèle ? "Si vous souhaitez une matrice de variables claire, il est préférable de vous tourner vers des algorithmes statistiques plus traditionnels", explique-t-on chez IBM, en évoquant l'exemple de la régression logistique, qui permet de mesurer l'association entre un événement (tel le risque de perdre un client) et ses variables explicatives. Revers de la médaille, ces modèles aboutissent à un niveau de fiabilité des prédictions souvent nettement plus faible.

Trouver le bon compromis

Pour dénicher le modèle de machine learning le mieux adapté, il n'est donc pas rare de recourir à plusieurs algorithmes. "On peut les mettre en compétition. L'objectif étant de sélectionner celui dont le niveau d'erreur estimé est le plus faible pour une problématique particulière. Cette méthode est notamment utilisée par la plateforme d'IA automatisée DataRobot", indique Aziz Cherfaoui, directeur technique du cabinet de conseils français Keyrus.

La combinaison d'algorithmes d'apprentissage permettra, elle, d'optimiser la capacité prédictive. "Mais au détriment de la simplicité d'interprétation", prévient Frédérick Vautrain. C'est par exemple le cas de la forêt aléatoire qui est construite par assemblage d'arbres de décision (à l'aide d'un méta-algorithme, le boostrap aggregating). Une méthode pratique en vue de cerner les meilleures variables explicatives d'un phénomène à prédire. "Le random forest est un bon moyen par exemple de prioriser et réduire les gros volumes de variables des processus industriels : température, pression, intensité électrique, tension…", souligne Frédérick Vautrain. L'enjeu final : aboutir au meilleur compromis possible. Ces variables devront en effet être suffisamment nombreuses pour que la prédiction soit satisfaisante. Mais pas trop… sans quoi le modèle ne sera pas généralisable et applicable à de nouvelles données de contexte. "Si l'apprentissage n'est pas suffisant, le résultat perdra en justesse. Si au contraire il va trop loin, on passera à côté de la vision d'ensemble en restant trop dans les détails. En clair, on ne verra plus rien", complète Aziz Cherfaoui.

La sélection d'algorithmes d'IA de Frédérick Vautrain

Analyse en composantes principales (ACP) : il s'agit d'un algorithme non supervisé, qui réduit le nombre de variables d'un système en créant de nouvelles variables indépendantes par combinaison. L'objectif étant de rendre les données à la fois plus simples et plus adaptées à la modélisation.
Réseaux de neurones : ces algorithmes sont utilisés aussi bien dans des cas d'apprentissage supervisé que non supervisé (deep learning et carte de Kohonen). Ils sont performants mais nécessitent de très nombreuses informations (données textuelles, sons, images…). Leurs résultats ne sont pas facilement explicables. Les réseaux de neurones ont de nombreuses applications (diagnostic médical, maintenance prédictive, détection de fraudes, ciblage marketing...).
Régression linéaire : famille d'algorithmes supervisés dessinés pour modéliser les relations entre une mesure observée et des caractéristiques (ou variables explicatives). Ces algorithmes sont facilement interprétables. Ils peuvent par exemple permettre de faire le lien entre une température et le rendement d'un procédé chimique.
Régression logistique : modèle supervisé permettant de détecter une combinaison linéaire de variables expliquant un phénomène à deux valeurs. Facilement interprétable et très utilisé, ce type d'algorithme peut trouver des applications dans la santé (pour évaluer le risque de développer une maladie par exemple) ou encore dans la finance (pour calculer un risque financier).
Arbre de décision : il renvoie à une catégorie d'algorithmes supervisés fonctionnant aussi bien pour mettre en œuvre un classement qu'une régression. Ils sont facilement interprétables.
La forêt aléatoire (ou random forest) : algorithme exécutant de multiples arbres de décision pour assurer une meilleure performance à la modélisation. Facilement interprétable, il intègre une phase de "bagging" pour sélectionner les caractéristiques les plus pertinentes à utiliser.
Autoregressive integrated moving average (ARIMA) : ensemble de modèles conçus pour analyser l'évolution d'une suite de valeurs numériques au cours du temps (ou série temporelle). Utilisé dans l'analyse prédictive, il consiste à décomposer les données temporelles en plusieurs indicateurs tels que la saisonnalité, la tendance, les composantes irrégulières... Il peut s'appliquer pour prévoir des tendances météorologiques, financières ou marketing.
K-means : algorithme non supervisé qui regroupe des données selon une similarité calculée à partir de leurs caractéristiques. Ils peuvent permettre de réaliser des regroupements par typologies de clients (en fonction de caractéristiques de profils, de comportements d'achat similaires...).
Machines à vecteurs de support (SVM) : famille d'algorithmes supervisés qui applique une transformation non linéaire des données pour identifier une séparation linéaire des exemples à classifier. Ils peuvent par exemple permettre de détecter dans une image si un pixel est lié à un visage ou pas.
Classification naïve bayésienne : algorithme supervisé qui suppose l'indépendance des variables. Malgré cette hypothèse forte, il est robuste et efficace, particulièrement utile pour les problèmes de catégorisation de texte.
Les algorithmes génétiques : ils sont utilisés pour résoudre un problème d'optimisation. Ils utilisent la notion de "sélection naturelle" pour ne garder que les meilleurs résultats. Dans le cas d'un réseau de points de vente par exemple, ils peuvent permettre de cerner les variables qui expliquent la réussite commerciale (ou pas) de tel ou tel d'entre eux ou encore d'estimer si la modification d'une variable améliore leurs résultats.