Le terme data mining est assez récent, mais la technologie ne l’est pas. En réalité, le data mining n’est autre que de l’exploration de données. Cette technique repose sur des algorithmes complexes permettant d’analyser une quantité importante de données sous de nombreux angles et d’établir des probabilités futures. Les sites de e-commerce y ont par exemple recours pour déterminer le comportement des consommateurs et en dégager des tendances, afin d’ajuster la stratégie à adopter.
A quoi sert le data mining ?
Le data mining permet notamment de mettre en avant les paramètres suivants :
- L’association : l’identification de schémas selon lesquels un événement est relié à un autre.
- La classification : la recherche de nouveaux schémas.
- Les séquences ou cheminements : les schémas selon lesquels un événement conduit à un autre.
- L’agrégation : l’identification de nouveaux groupes jusqu’alors inconnus.
- Les prévisions (ou analytique prédictif) : l’analyse des données amène à la formulation d’hypothèses sur ce à quoi un schéma pourrait conduire.
Le data mining ne concernait à l’origine que les entreprises qui, par définition, manipulent un grand nombre de données comme les banques ou les assurances. Aujourd’hui, l’exploration de données concerne tous les secteurs (à condition évidemment d’avoir un nombre suffisant de données à exploiter). Par exemple, Netflix dispose d’un grand nombre de données concernant ses utilisateurs. Grâce aux techniques de data mining, la plateforme a su interpréter leurs préférences et a donc acquis les droits de la série House of Cards, dont le succès fut immense.
Comme dans toute étude statistique, les données doivent être collectées auprès d’un échantillon représentatif du marché. Les informations choisies peuvent tout aussi bien venir de l’entreprise elle-même, par exemple via l’analyse du trafic sur le site web, que de l’extérieur. Une démarche de data mining, à la frontière entre les statistiques, l’intelligence artificielle et l’informatique, doit répondre à une problématique bien précise. Les données collectées sont ensuite analysées grâce à des logiciels tels que R, SPSS, RapidMiner, Oracle DM ou Statistica, selon des KPIs définis au préalable.