Diverger > Émerger > Converger.
Diverger sur les questions qui permettront d’explorer les données utiles, d’où émergeront les insights qui convergeront vers les bonnes réponses, les bonnes actions.
L’exploration de données est la première étape de l’analyse de données qui permet en général de découvrir les principales caractéristiques d’un ensemble de données. Le but est de faire émerger des insights à travers les tendances, les relations, les tops variables, les modèles, les anomalies… L’exploration des données est généralement réalisée à l’aide des outils d’analyse visuelle (data visualisation) comme Tableau Software, Qlik, Power BI, D3.js, mais peut aussi se faire dans des logiciels statistiques plus avancés, tels que R. Un outil puissant et gratuit. R est le couteau suisse des Data Analyste grâce notamment à ses 9371 packages produits par une communauté experte est active de statisticiens et mathématisions reconnus. L’exploration est cruciale pour qui veut aller loin en évitant de se tromper de voie ou d’interprétation.
Dans l’infographie « cheat sheet data exploration in R » publiée par Analytics Vidhya me semble très utile pour les débutants en analyse de données, car elle illustre plutôt bien les principales étapes de l’exploration des données avec R, packages à installer, analyses, lignes de commande, data visualisation, etc.