Le Podcast Supply Chain #5 : Le Machine Learning et le biais humain

Chaque semaine, nous répondons à vos questions concernant la gestion de sa Supply Chain face au Coronavirus !

Le Machine Learning compense-t-il très nettement le biais humain opérationnel, sachant qu’il est lui-même programmé par des humains ?

En premier temps, rappelons à quoi sert la Machine Learning pour la Supply Chain, c’est à dire, à la prévision de la demande, et au calcul des stocks optimaux.

Jean-Pierre fait référence à une notion importante qui est le biais. Le biais est une erreur systématique, par exemple une surestimation ou sous-estimation systématique d’un phénomène.

On a beaucoup entendu parler dans la presse du fait que les algorithmes de reconnaissance d’image ou d’aide à la décision dans la justice pouvaient présenter des biais, ce qui est en effet un gros problème. Ce qu’il faut retenir, c’est que les biais du Machine Learning ne sont pas dus aux algorithmes, mais aux données elles-mêmes. Ce qui programme un algorithme, ce sont les données.
Ainsi, lorsqu’on met un place un algorithme de Machine Learning pour la gestion de la Supply Chain, l’important est de s’assurer que les données qu’on utilise pour apprendre le passé et bien prévoir le futur soient propres.

Au niveau humain, il faut noter que l’on est nécessairement victimes de biais cognitifs, et le fait de le savoir ne suffit pas à les limiter. Par exemple, si l’on passe nos commandes à la main sur un tableur de plusieurs milliers de références, il est inévitable de créer de biais au bout de quelques dizaines ou centaines de lignes. L’algorithmes, lui, n’est pas soumis à ce type de biais.

Ce qui fait qu’un algorithme peut délivrer des résultats biaisés, ce sont donc les données. Dans le cas de la Supply Chain, cela peut venir des ruptures de stock qui provoquent une baisse des ventes. L’algorithme de prévision de la demande ne doit alors pas tenir compte des ventes effectuées, mais des ventes qui auraient eu lieu sans ruptures. Un autre exemple est l’effet de cannibalisation : si un produit est en promotion, il pourra s’octroyer les ventes d’un autre produit. Ce sont d’autres formes de biais que l’algorithme doit détecter.
Les erreurs peuvent aussi évidemment se trouver dans les données elles-mêmes : des stocks erronés, des ventes qui ne sont pas totalement consolidées, etc. Et également des facteurs externes qui viennent influer sur des comportements d’achat.

En synthèse, l’humain est forcément biaisé dans ses opérations. La machine peut l’être également, si les données dont elle se sert ne représentent pas parfaitement le phénomène réel lors de l’apprentissage. Tout l’intérêt du Machine Learning est qu’il pourra passer à l’échelle sans grands efforts humains.

L’algorithme fonctionne donc en autonomie ?

Le Machine Learning n’est pas complètement autonome. Dans le secteur de la Supply Chain, l’utilisateur garde un travail de vérification macroscopique des résultats. De l’autre côté, le spécialiste en Machine Learning va s’assurer de manière régulière et permanente qu’il n’y a pas de dérives dans les performances.

Le travail du Data Scientist est de surveiller un phénomène très important en statistiques, le compromis biais / variance (variabilité d’un résultat).

Comment identifier les facteurs à intégrer dans le moteur logiciel ?

Tout d’abord, l’intégration doit se faire de manière itérative. Si on donne l’ensemble des facteurs possibles d’un seul coup, on ne se sera pas assuré que le socle des données est qualitatif avant de le complexifier. Le point clé dans la méthodologie Machine Learning est d’avancer étape par étape.

On commence souvent par les données obligatoires : les historiques de ventes, les contraintes opérationnelles, etc. Puis, petit à petit, on va injecter dans les moteurs des données qui permettront de mieux appréhender certains phénomènes : la météo, les jours fériés, les vacances, le confinement, les données socio-démographiques, etc. En fonction du métier, on pourra identifier des variables intéressantes propres au secteur concerné. Dans notre premier Petit Dej’ de la Supply, on a vu par exemple que les activités de chasse ont une influence sur la réparation de lignes téléphoniques car des balles endommagent les câbles. On a parfois des surprises, comme dans le jardinage, où la météo n’impacte pas autant qu’on pourrait s’y attendre.

C’est donc vraiment dépendant du métier, et l’idée est d’aller tester chacune de ces données de manière itérative avec un seul objectif : améliorer les prformances du système. Tant que les performances s’améliorent, on continue.

Au-delà du type de données, la qualité des données est également primordiale n’est-ce pas ?

Exactement, si la donnée n’est pas suffisamment précise elle va ajouter du « bruit », donc dégrader le résultat. Lorsqu’on intègre une nouvelle donnée, on s’assure donc qu’elle est suffisamment informative du phénomène.

Aller plus loin

Retrouvez tous nos podcasts

Posez-nous une question