FICHE MODULE SI5 / M2 IFI

TITRE : Fouille de données (Data Minning)

DUREE  : 8 semaines (évaluation comprise)

RESPONSABLE  : Frederic PRECIOSO, Professeur de l'Université Nice Sophia-Antipolis, membre de l'équipe de recherche KEIA du laboratoire I3S (UNS-CNRS)

AUTRES INTERVENANTS ACADEMIQUES :

Celia Da Costa Pereira, maître de conférences de l'Université Nice-Sophia Antipolis
Denis Pallez, maître de conférences de l'Université Nice-Sophia Antipolis

RESUME : La fouille de données est focalisée sur les données précédemment stockées par des processus divers, éventuellement dans un entrepôt ; ces données sont réutilisées pour exploration par des techniques d'analyse qui permettent de mettre à jour et restituer des connaissances sur des phénomènes inconnus ou oubliés. Au travers des multiples tentatives pour caractériser ce domaine, on peut retenir quatre objectifs fondamentaux qui justifient la métaphore de l'extraction et de la transformation de minerai :

·         fouiller, creuser, extraire ce qui est caché

·         prendre en compte le volume de données

·         transformer des données brutes en connaissances expertes

·         fournir des connaissances précieuses car nouvelles, valides et utiles à un utilisateur expert

OBJECTIFS : Présenter les principes et les méthodes spécifiques du domaine de la fouille de données encore appelé « Extraction automatique de connaissances à partir de données » ou « Data Mining ».

Ce module est organisé autour de la présentation des méthodes classiques en fouille de données et recherche d'information. On s'intéressera donc aux méthodes de classification non supervisée (clustering par k-means, Fuzzy c-means...) et de classification supervisée (k-plus proches voisins, arbres de décisions, règles d'associations, algorithmes génétiques, boosting, SVM...). Les séances seront organisées en un cours suivi d'un TP sur machine visant l'application et/ou l'implémentation des méthodes présentées à l'aide de l'API Java Weka (http://www.cs.waikato.ac.nz/~ml/weka/). Ces TP concerneront l'application de la fouille de données issues de divers contextes tels que le web, les jeux vidéo, la vision par ordinateur... Lors des séances de TP, différents outils implémentant les méthodes présentées en cours et TD seront mis en œuvre .
L'évaluation de ce module se fera par un examen final sur l'ensemble des notions abordées dans les cours et par un contrôle continu sur le rendu des TPs.

CONTENU : 

1.      Introduction à la fouille de données, présentation des contextes de classification et prédiction. Méthodes de classement et de modélisation prédictive : Ensembles d'apprentissage et de test, taux d'erreur, sur-apprentissage. Méthodes de classification non supervisée : Définition, Calcul de distance, Problème des variables continues, Evaluation de la qualité de la classification, Interprétation des classes obtenues. (C / TP) 4h, F. Precioso.

2.      Description des méthodes par plus proches voisins. Méthodes par partitionnement, exemple des K-Moyennes ou K-Means, et des Fuzzy c-Means, Mise en œuvre des techniques de classification non supervisée. (C / TP) 4h, C. Pereira.

3.      Techniques de classement par arbres de décision - Techniques de recherche d'associations : Principes, Algorithme fondateur Apriori et optimisations, Exemples. Mise en œuvre de recherche d'associations. (C / TP) 4h, C. Pereira.

4.      Théorie générale des algos évolutionnaires  (AE) : singleobjective multiobjectif, interactif, diffférents opérateurs de sélection, mutation, croisement (C / TP) 4h, D. Pallez.

5.      Mise en œuvre des algos évolutionnaires (dans un contexte de clustering) et comparaison avec les méthodes déterministes (C / TP) 4h, D. Pallez.

6.      Introduction aux Machines à noyaux. Techniques de classification et de prédiction par Machine à Vecteurs de Supports. Fonctions de similarité noyaux. Présentation de l'implémentation par SMO. Mise en œuvre. (C / TP) 4h, F. Precioso

7.      Méthodes par combinaison de classifieur (Boosting). Applications dans divers contextes, en particulier à la vision par ordinateur. Mise en œuvre (C / TP) 4h, F. Precioso.

8.      1h ½ d'examen écrit. 2h de présentation orales individuelles ou en binôme de méthodes non présentées ou non détaillées en cours, à partir d'articles scientifiques fournis avant pour étude.

PREREQUIS :

·         Principes de statistiques

BIBLIOGRAPHIE :

·         David Hand, Heikki Mannila, Padhraic Smith, Principles of Data Mining, MIT Press, 2001.

·         R.Kimball and M. Ross, Entrepôts de données - guide de modélisation multi-dimensionnelle, 2ème ed. Wiley, 2003.

·         Gilbert Saporta, Data mining et statistique décisionnelle, èditions Technip, 2005.

·         Ian Witten and Eibe Frank, Data Mining, Practical Machine Learning Tools and Techniques, 3rd edition, Morgan Kaufman.

·         Jiawei Han and Micheline Kamber, Data Mining : Concepts and Techniques, 2nd edition, Morgan Kaufmann, 2006.

·         A. Cornuéjols, L. Miclet, Apprentissage artificiel : Concepts et algorithmes, 2nde édition, Eyrolles, 2010

·         G. Dreyfus, J. Martinez, M. Samuelides, M. Gordon, F. Badran, S. Thiria, Apprentissage statistique : Réseaux de neurones - Cartes topologiques - Machines à vecteurs supports, Eyrolles, 2008.

·         J.Dréo A.Pétrowski P.Siarry E.Taillard, Métaheuristiques pour l'optimisation difficile, Eyrolles, 2003

SUPPORT de COURS :

 

Site Web du Cours

Polycopié du cours

Copie des transparents

Support de cours

X

 

X

MODE D’EVALUATION :

 

Présentation Orale

Ecrit en temps limtié

Livraison sur Site Web

Production Logicielle

 

 

 

Rédaction d’un mémoire

 

 

Examen

X

X