CODICE 52507 ANNO ACCADEMICO 2019/2020 CFU 6 cfu anno 3 STATISTICA MATEM. E TRATTAM. INFORMATICO DEI DATI 8766 (L-35) - GENOVA 6 cfu anno 3 INFORMATICA 8759 (L-31) - GENOVA SETTORE SCIENTIFICO DISCIPLINARE SECS-S/01 LINGUA Italiano SEDE GENOVA PERIODO 2° Semestre MATERIALE DIDATTICO AULAWEB PRESENTAZIONE Sviluppare la capacità di estrarre sapere e conoscenza da grandi quantità di dati, specificamente capendo l’utilità del data mining per risolvere problem reali capendo i concetti fondamentali del data mining conoscendo gli algoritmi più comuni del data mining sapendo applicare tecniche di data mining a problem concreti OBIETTIVI E CONTENUTI OBIETTIVI FORMATIVI Sviluppare la capacità di estrarre sapere e conoscenza da grandi quantità di dati. OBIETTIVI FORMATIVI (DETTAGLIO) E RISULTATI DI APPRENDIMENTO Alla fine del corso lo studente avrà acquisito i concetti e tecniche base del data mining saprà applicare in autonomia le tecniche principali del data mining per risolvere problem reali saprà approfondire in autonomia argomenti di data mining in relazione a specifiche applicazioni MODALITA' DIDATTICHE Lezioni in aula, sezioni in laboratorio PROGRAMMA/CONTENUTO Prima parte: introduzione al data mining Introduzione a Data Mining, Data Science e Big Data Analytics Il processo di Data Mining - CRISP Sette classi di Algoritmi Supervised Learning – Classification Unsupervised Learnimg – Clustering Outliers detection Regression Reinforced Learning Ranking Deep Learning I dieci algoritmi più utilizzati in data mining Esempi utilizzando il software WEKA Applicazioni al marketing, alla finanza, alla medicina Big Data e Hadoop Approccio NoSQL ai dati Seconda parte: algoritmo di apprendimento automatico per il Data mining Introduzione al Data Mining e Machine Learning Richiami di inferenza statistica e tassonomia dei problemi di Data Mining. Classificazione: Support Vector Machine lineare e non lineare Esercitazione di laboratorio Regressione: Support Vector Regression lineare e non lineare Esercitazione di laboratorio Clustering: K-Means (con estensione tramite kernel) e Spectral Clustering Esercitazione di laboratorio Alberi di decisione Il problema della selezione e validazione dei modelli: k-fold Cross Validation e Bootstrap TESTI/BIBLIOGRAFIA Aggarwal, C- C. Data mining: the textbook. Springer, 2015. Shalev-Shwartz, S., and Shai B. D. Understanding machine learning: From theory to algorithms. Cambridge University Press, 2014. Ian H. Witten, Eibe Frank, Mark A. Hall (2000). Data Mining: Practical Machine Learning Tools and Techniques (The Morgan Kaufmann Series in Data Management Systems) ISBN-13: 978-0123748560. Disponibile presso il CSB di Ingegneria 006.312 WIT --> disponibile anche online a http://www.sciencedirect.com/science/book/9780123748560 Clifton Phua, Vincent Lee, Kate Smith and Ross Gayler (2005). A Comprehensive Survey of Data Mining-based Fraud Detection Research, Computing Research Repository, abs/1009.6119. Disponibile online --> http://arxiv.org/abs/1009.6119 N. Cristianini, J. Shawe-Taylor, An introduction to support Vector Machine and other kernel-based learning methods, Cambridge University Press, 2006 disponibile ING e ECO A. Ng, M. Jordan, Y. Weiss, On spectral clustering: Analysis and an algorithm, NIPS 2001. --> disponibile anche online a http://papers.nips.cc/paper/2092-on-spectral-clustering-analysis-and-an-algorithm.pdf Dispense/Handouts DOCENTI E COMMISSIONI ENNIO OTTAVIANI FABRIZIO MALFANTI Commissione d'esame FABRIZIO MALFANTI (Presidente) ENNIO OTTAVIANI (Presidente) EVA RICCOMAGNO (Presidente) LEZIONI INIZIO LEZIONI In accordo con il calendario accademico approvato dal Consiglio di Corsi di Studi. Orari delle lezioni DATA MINING ESAMI MODALITA' D'ESAME E' obbligatorio prenotarsi per sostenere l'esame. L'esame della prima parte consiste nell'elaborazione, svolta in gruppo, di un progetto concordato con il docente e in una prova scritta con correzione commentata e possibilità di discussione. L'esame della seconda parte consiste nella discussione orale di un caso di studio svolto in autonomia dallo studente e concordato con i docenti. Il voto finale è calcolato come la media pesata dei due voti con peso il numero di crediti. MODALITA' DI ACCERTAMENTO Durante l'esame verrà accertata la conoscenza, da parte dello studente, delle metodologie e delle tecniche per l'estrazione di conoscenza da grandi moli di dati attraverso un piccolo progetto monografico che prevede la soluzione di un problema reale di analisi dati. Calendario appelli Data appello Orario Luogo Tipologia Note 28/05/2020 09:00 GENOVA Laboratorio 18/06/2020 09:00 GENOVA Laboratorio 21/07/2020 09:00 GENOVA Laboratorio ALTRE INFORMAZIONI La pagina web della seconda parte del corso è disponibile al link https://sites.google.com/view/lucaoneto/teaching/dm-smid Su appuntamento richiesto per email agli indirizzi Luca Oneto <luca.oneto@unige.it>, Fabrizio Malfanti fabrizio.malfanti@intelligrate.it Per questioni organizzative contattare via email Eva Riccomagno <riccomagno@dima.unige.it>