TITRE : Fouille de données (Data Minning)
DUREE : 8 semaines (évaluation comprise)
RESPONSABLE : Frederic PRECIOSO, Professeur de l'Université Nice Sophia-Antipolis, membre de l'équipe de recherche KEIA du laboratoire I3S (UNS-CNRS)
AUTRES INTERVENANTS ACADEMIQUES :
Celia Da Costa Pereira, maître de conférences de
l'Université Nice-Sophia Antipolis
Denis Pallez, maître
de conférences de l'Université Nice-Sophia Antipolis
RESUME : La fouille de données est focalisée sur les données précédemment stockées par des processus divers, éventuellement dans un entrepôt ; ces données sont réutilisées pour exploration par des techniques d'analyse qui permettent de mettre à jour et restituer des connaissances sur des phénomènes inconnus ou oubliés. Au travers des multiples tentatives pour caractériser ce domaine, on peut retenir quatre objectifs fondamentaux qui justifient la métaphore de l'extraction et de la transformation de minerai :
· fouiller, creuser, extraire ce qui est caché
· prendre en compte le volume de données
· transformer des données brutes en connaissances expertes
· fournir des connaissances précieuses car nouvelles, valides et utiles à un utilisateur expert
OBJECTIFS : Présenter les principes et les méthodes spécifiques du domaine de la fouille de données encore appelé « Extraction automatique de connaissances à partir de données » ou « Data Mining ».
Ce module est organisé autour de la présentation des
méthodes classiques en fouille de données et recherche
d'information. On s'intéressera donc aux méthodes de
classification non supervisée (clustering par k-means, Fuzzy
c-means...) et de classification supervisée (k-plus proches
voisins, arbres de décisions, règles d'associations,
algorithmes génétiques, boosting, SVM...). Les séances
seront organisées en un cours suivi d'un TP sur machine visant
l'application et/ou l'implémentation des méthodes
présentées à l'aide de l'API Java Weka
(http://www.cs.waikato.ac.nz/~ml/weka/). Ces TP concerneront
l'application de la fouille de données issues de divers
contextes tels que le web, les jeux vidéo, la vision par
ordinateur... Lors des séances de TP, différents outils
implémentant les méthodes présentées en
cours et TD seront mis en œuvre .
L'évaluation de ce
module se fera par un examen final sur l'ensemble des notions
abordées dans les cours et par un contrôle continu sur
le rendu des TPs.
CONTENU :
1. Introduction à la fouille de données, présentation des contextes de classification et prédiction. Méthodes de classement et de modélisation prédictive : Ensembles d'apprentissage et de test, taux d'erreur, sur-apprentissage. Méthodes de classification non supervisée : Définition, Calcul de distance, Problème des variables continues, Evaluation de la qualité de la classification, Interprétation des classes obtenues. (C / TP) 4h, F. Precioso.
2. Description des méthodes par plus proches voisins. Méthodes par partitionnement, exemple des K-Moyennes ou K-Means, et des Fuzzy c-Means, Mise en œuvre des techniques de classification non supervisée. (C / TP) 4h, C. Pereira.
3. Techniques de classement par arbres de décision - Techniques de recherche d'associations : Principes, Algorithme fondateur Apriori et optimisations, Exemples. Mise en œuvre de recherche d'associations. (C / TP) 4h, C. Pereira.
4. Théorie générale des algos évolutionnaires (AE) : singleobjective multiobjectif, interactif, diffférents opérateurs de sélection, mutation, croisement (C / TP) 4h, D. Pallez.
5. Mise en œuvre des algos évolutionnaires (dans un contexte de clustering) et comparaison avec les méthodes déterministes (C / TP) 4h, D. Pallez.
6. Introduction aux Machines à noyaux. Techniques de classification et de prédiction par Machine à Vecteurs de Supports. Fonctions de similarité noyaux. Présentation de l'implémentation par SMO. Mise en œuvre. (C / TP) 4h, F. Precioso
7. Méthodes par combinaison de classifieur (Boosting). Applications dans divers contextes, en particulier à la vision par ordinateur. Mise en œuvre (C / TP) 4h, F. Precioso.
8. 1h ½ d'examen écrit. 2h de présentation orales individuelles ou en binôme de méthodes non présentées ou non détaillées en cours, à partir d'articles scientifiques fournis avant pour étude.
PREREQUIS :
· Principes de statistiques
BIBLIOGRAPHIE :
· David Hand, Heikki Mannila, Padhraic Smith, Principles of Data Mining, MIT Press, 2001.
· R.Kimball and M. Ross, Entrepôts de données - guide de modélisation multi-dimensionnelle, 2ème ed. Wiley, 2003.
· Gilbert Saporta, Data mining et statistique décisionnelle, èditions Technip, 2005.
· Ian Witten and Eibe Frank, Data Mining, Practical Machine Learning Tools and Techniques, 3rd edition, Morgan Kaufman.
· Jiawei Han and Micheline Kamber, Data Mining : Concepts and Techniques, 2nd edition, Morgan Kaufmann, 2006.
· A. Cornuéjols, L. Miclet, Apprentissage artificiel : Concepts et algorithmes, 2nde édition, Eyrolles, 2010
· G. Dreyfus, J. Martinez, M. Samuelides, M. Gordon, F. Badran, S. Thiria, Apprentissage statistique : Réseaux de neurones - Cartes topologiques - Machines à vecteurs supports, Eyrolles, 2008.
· J.Dréo A.Pétrowski P.Siarry E.Taillard, Métaheuristiques pour l'optimisation difficile, Eyrolles, 2003
SUPPORT de COURS :
|
|
Site Web du Cours |
Polycopié du cours |
Copie des transparents |
|
Support de cours |
X |
|
X |
MODE D’EVALUATION :
|
|
Présentation Orale |
Ecrit en temps limtié |
Livraison sur Site Web |
|
Production Logicielle |
|
|
|
|
Rédaction d’un mémoire |
|
|
|
|
Examen |
X |
X |
|