Le traitement de données, quésaco ?

09 fév. 2021

On entend beaucoup parler de Machine Learning... Mais de quoi s'agit-il exactement ?

Le machine learning (ML), ou apprentissage automatique, est un sous-domaine de l’intelligence artificielle. C’est la rencontre des statistiques avec la puissance de calcul disponible aujourd'hui. La machine apprend par elle même se basant sur d’énormes quantités de données et en détectant des schémas récurrents.

Dans cet article, on va vous expliquer ce qu'est le traitement et l'analyse de données sans entrer dans les détails. Les trois points qui nous semblent importants de connaître sont l'exploration, le nettoyage et l'intégration, et les résultats, avec un focus sur les résultats produits par du machine learning.

1 / Exploration

La Data Exploration ou exploration de données est la première étape de l’analyse de données. Concrétement, c'est de la fouille de données pour trouver des connaissances. Cette étape consiste à explorer un large ensemble de données pour y découvrir des corrélations, des tendances ou des caractéristiques à approfondir par la suite. Le but est d’identifier les points d’intérêt pour déterminer quelles données sont à conserver dans le jeu de données. L’analyste se familiarise avec les informations qu’il va traiter durant la suite du processus analytique. 


Il existe des techniques de visualisation pour avoir une vue d’ensemble et donc une vision plus compréhensible des données, avec des graphiques, des diagrammes ou encore des tableaux de bord : on nomme ce travail « dataviz ». On utilise des outils de représentation graphique pour créer des boîte à moustaches, des diagrammes ou encore des matrices de corrélations.


L’analyse utilise des méthodes manuelles et des outils automatisés pour réorganiser les données et supprimer celles qui sont inexploitables. La phase d'exploration n'a pas forcément besoin de machine learning même si on peut en utiliser. Le Data Mining permet d'étendre la phase d'exploration en étudiant plus profondément les données, avec des techniques :


  • prédictives, avec des algorithmes utilisant ou non du machine learning ;

  • non prédictives, qui permettent de regrouper des données par similarité.

2 / Nettoyage et intégration

L'objectif de cette étape est d'obtenir un jeu de donnée propre et exploitable.


Quand les données sont hétérogènes, qu'elles proviennent de plusieurs sources combinées, on fait de l'intégration de données pour combiner ces données dans une source commune. L'objectif est de fusionner des colonnes quand c'est possible, afin d'éviter les répétitions. Pour cela, des outils comme ETL permettent d'extraire, transformer et recharger les sources de données afin qu'elles soient compatibles. 


Le nettoyage des données est défini comme la suppression des données bruyantes et non pertinentes de la collecte (GeeksforGeeks) :


  • Nettoyage en cas de valeurs manquantes.

  • Nettoyage des données bruyantes, où le bruit est une erreur aléatoire ou de variance.

  • Nettoyage avec des outils de détection des écarts de données et de transformation de données.


En plus de faire du nettoyage et de l'intégration, on peut aussi transformer les données sous une forme plus appropriée. Il peut s'agir par exemple d'anonymisation quand on traite des données personnelles.

3 / Résultats

Il y a des résultats à toutes les étapes, qu'il s'agisse de l'exploration de données simple, d'une exploration plus poussée permettant une prise de décision éclairée jusqu'à un modèle de machine learning permettant de répondre à un problème complexe de manière automatisée. 


Un résultat peut être par exemple une base de donnée saine que l'on peut intégrer dans ses services.


L'objectif du traitement de données est d'offrir une information de plus haut niveau ou une information de meilleure qualité favorisant une meilleure prise de décision.



Et pour le Machine Learning ? 


Maintenant qu'on a des données propres, on peut commencer à voir si on peut répondre à des problèmes au sein de l'entreprise, par exemple. L'expert Data va prendre le besoin de l'entreprise et le traduire en problème de machine learning. 


Le machine learning permet d'apporter des prédictions sous les formats suivants :


  • Regression : L'idée est de prédire une valeur numérique, une probabilité que quelque chose se produise. Exemple : prédiction d’un AVC d’après les données d’un électrocardiogramme.


  •  Recommandation : proposer des recommandations intéressantes. Exemple : Netflix ou Youtube utilise des algorithmes pour recommander des films et des musiques susceptibles d'intéresser les spectateurs. Parmis les 720 000 heures de vidéos ajoutées chaque jour (selon Oberlo), youtube est capable de vous recommander les quelques vidéos susceptibles de vous intéresser. 


  •  Classification : l'objectif est de prédire la catégorie à laquelle appartient chaque observation d'un ensemble de données. La classification discrimine la donnée en fonction de critères pour lui affecter une classe ou une catégorie. Exemple : déterminer si une image correspond à un chat ou un chien.


  •  Clustering : repérer des comportements, regrouper des données par similarité. On demande à l'algorithme de créer des groupes en les différenciant le mieux possible, et c'est l'algorithme qui détermine le critère de différencation. Il s'agit d'une méthode non supervisée de classification. Exemple : si on demande de regrouper les personnes en cinq groupes, l'algorithme peut par exemple les différencier en fonction de leur taille. Si on demande seulement deux groupes, l'aglorithme choisira probablement de faire une différenciation hommes/femmes.


Les résultats ont la forme de prédictions, qui sont livrées avec un certain niveau de confiance. Le résultat a une fiabilité qui peut varier en fonction de la qualité des données et du modèle de traitement de ces données.


Les conclusions peuvent être basées soit sur une procédure entièrement automatisée, soit sur une procédure nécessitant une intervention humaine. L’expert peut intervenir par exemple dans le choix de l'agorithme ainsi que dans le choix et la pondération de ses paramètres. Il est à noter qu'un modèle apprenant sur des données qui comprennent des biais (par exemple, des discriminations) sera lui-même biaisé.

floki io propose du traitement de données et de l’analyse de données (images, langues, son/audio, excel…). Jérémie Suzan, cofondateur en charge de la R&D chez floki, enseigne sur la programmation et l’intelligence artificielle. Klaasjan Maas, docteur en physique des matériaux, est notre expert en science des données.

En fonctionnant par itérations rapides, notre équipe est capable de valider la faisabilité de votre projet à moindre coût. Vous pouvez ainsi vous assurer de l'intérêt de vous engager dans cette voie. Vous avez des données et vous vous demandez s'il serait pertinent de les valoriser à l'aide d'une brique d’intelligence artificielle ? Contactez notre équipe échanger sur votre projet.

Suivez-nous sur les réseaux :

  • Noir LinkedIn Icône
  • Black Twitter Icon
  • Noir Icône Instagram
  • Black Facebook Icon

Inscrivez-vous à notre newsletter :