|
Introduction au Data Mining
Aujourd'hui, des milliards de données sont collectées chaque jour dans le monde. Néanmoins, si l'essor de l'informatique a rendu possible le stockage de volumes de données toujours plus importants à des coûts toujours plus faibles, la quantité d'information fournie aux utilisateurs n'a quant à elle que peu évolué. Les entreprises ont plus que jamais besoin de transformer leurs données en connaissance directement valorisable.
Ce qu'est le Data Mining
Pour générer des informations riches et découvrir des modèles implicites dans des ensembles de données multidimensionnels, un ensemble d'architectures, de démarches et d'outils ont été regroupés sous le terme de Data Mining. Il existe probablement autant de définitions différentes du terme Data Mining que l'on trouve de vendeurs d'outils sur le marché. Littéralement, il s'agit d'exploiter des ensembles de données brutes comme on exploiterait une mine d'or, c'est à dire pour découvrir les trésors qui y sont enfouis. Concrètement, il s'agit d'automatiser les processus de découverte des tendances présentes dans de gros ensembles de données. L'utilisateur n'interroge plus les bases de données pour confirmer l'existence de tendances pressenties mais demande à l'outil de détecter les schémas de comportements permettant d'expliquer le phénomène qui l'intéresse. De manière pragmatique, on retiendra que l'objet des techniques de Data Mining est d'identifier les relations complexes existantes entre les diverses données, d'établir des règles de comportement, et de mettre à jour des modèles fonctionnels permettant ainsi la prévision du comportement futur. L'idée sous-jacente reste celle d'un processus, le plus automatisé possible, qui permet de passer de données brutes à la prise de décision, en apportant à chaque étape une plus-value informationnelle.
Ce que n'est pas le Data Mining
Les discours tenus autour du thème font que l'on a tendance à assimiler le Data Mining à un processus quasi miraculeux de découverte automatique de toute l'information existante dans des ensembles de données brutes. C'est une vision totalement erronée car, aussi évolué soit-il, aucun algorithme de Data Mining ne peut fournir de résultat significatif sans compréhension du problème dans le contexte métier. Si l'on compte sur le Data Mining pour tirer de l'information dans des terabytes de données sans avoir formulé de problème et sans connaître ni la structure ni le contenu des sources de données, la cause est perdue d'avance. Il est impératif de réunir des personnes qui comprennent ce qu'elles cherchent, des personnes qui savent comment le chercher, et des personnes qui savent ce qu'elles pourront faire quand elles l'auront trouvé. Un projet de Data Mining réussi est avant tout le fruit d'un travail d'équipe, qui nécessite une étroite collaboration entre les experts du domaine, les experts en modélisation et les utilisateurs finaux.
Pourquoi le Data Mining émerge-t-il aujourd'hui ?
Dans le contexte hyperconcurrentiel actuel, l'information est la nouvelle ressource des entreprises. L'enjeu majeur est de maîtriser l'information pour prendre de bonnes décisions. Aujourd'hui, le développement des systèmes d'information fait que les entreprises sont capables de recueillir le maximum de données sur leurs clients et leurs prospects. En les analysant à l'aide des techniques de Data Mining, elles gagnent une image bien plus précise de ce qu'ils sont et peuvent alors mieux répondre à leurs attentes. Si la percée du Data Mining est largement due aux importants retours sur investissements observés dans le domaine du marketing et de la connaissance client, il n'en reste pas moins que le Data Mining a une raison dès qu'il existe des données à partir desquelles des décisions doivent être prises, c'est-à-dire dans quasiment tous les secteurs d'activités.
|