La science des données est l'un des domaines de l'informatique qui a connu la plus forte croissance au cours de la dernière décennie et constitue la base d'une grande partie des services que nous offre aujourd'hui Internet. Elle est étroitement liée à des concepts populaires tels que l'intelligence artificielle, l'apprentissage automatique, le big data, les prévisions, l'apprentissage profond et bien d'autres encore. C'est le domaine dans lequel de grandes entreprises telles que Google, Facebook, Amazon, Apple, IBM, Microsoft et d'autres investissent massivement.
Dans ce module, les étudiants se glissent dans la peau d'un véritable analyste scientifique chargé de résoudre un problème. Ils suivent les instructions de l'enseignant et effectuent les étapes suivies par un data scientist – de la collecte des données et la description du problème à sa résolution.
À l'issue du module, les étudiants auront acquis des connaissances sur :
- Les différentes méthodes de structuration des données
- Les différents types de données, avec leurs avantages et leurs inconvénients
- Comment analyser l'ensemble de données et quels critères prendre en compte
- Les algorithmes de prédiction simples (arbre de décision, Random Forest, SVM, KNN)
- Les concepts statistiques pour l'interprétation des résultats
- Les algorithmes simples de clustering/regroupement (K-Means, DBScan) avec leurs avantages et leurs inconvénients
- Les moyens de présenter les résultats et les types de graphiques simples
- Les compétences relationnelles : gérer l'information, orienter l'attention et comprendre son rôle dans le travail en groupe