INTRODUZIONE ALLA DATA SCIENCE | Corsi di Studio UniGe

Informazioni in aggiornamento fino al 30/06/2026

CODICE	101747
ANNO ACCADEMICO	2026/2027
CFU	6 cfu anno 3 INFORMATICA 8759 (L-31) - GENOVA
SETTORE SCIENTIFICO DISCIPLINARE	INF/01
LINGUA	Italiano
SEDE	GENOVA
PERIODO	2° Semestre
MATERIALE DIDATTICO	AULAWEB

PRESENTAZIONE

Il corso introduce i principi fondamentali della Data Science, con particolare attenzione alle metodologie e agli algoritmi di Machine Learning per l'analisi e l'interpretazione dei dati. Dopo una panoramica delle principali fasi che caratterizzano un progetto di Data Science — dalla raccolta e preparazione dei dati alla costruzione e valutazione di modelli predittivi — il corso presenta alcuni tra i più diffusi approcci di Machine Learning per problemi di classificazione e predizione.

Particolare enfasi è posta sulla comprensione dei fondamenti matematico-statistici dei metodi studiati e sulla loro implementazione pratica mediante strumenti software largamente utilizzati nell'ambito della Data Science. Le attività di laboratorio e il progetto finale consentiranno agli studenti di applicare le conoscenze acquisite a problemi reali, sviluppando competenze sia teoriche sia operative.

OBIETTIVI E CONTENUTI

OBIETTIVI FORMATIVI

L'insegnamento si propone di fornire agli studenti le conoscenze teoriche e pratiche necessarie per affrontare problemi di Data Science mediante tecniche di Machine Learning. Al termine del corso, gli studenti avranno acquisito familiarità con i principali modelli e algoritmi di apprendimento automatico, comprendendone i fondamenti matematico-statistici, le ipotesi di utilizzo, i limiti e le potenzialità applicative. Gli studenti saranno inoltre in grado di implementare, valutare e confrontare tali metodologie utilizzando strumenti software e librerie di riferimento per la Data Science e il Machine Learning.

OBIETTIVI FORMATIVI (DETTAGLIO) E RISULTATI DI APPRENDIMENTO

L’insegnamento si propone di introdurre gli strumenti fondamentali per la formulazione e l’analisi di problemi di Data Science, con particolare attenzione agli approcci metodologici di natura matematica e statistica che costituiscono il fondamento delle principali tecniche di Machine Learning. Il corso fornisce le conoscenze necessarie per comprendere le diverse fasi di una pipeline di Data Science, dalla raccolta e preparazione dei dati alla costruzione, validazione e confronto di modelli predittivi. Particolare enfasi è posta sulla comprensione dei principi teorici alla base dei metodi studiati e sul loro utilizzo mediante strumenti computazionali e librerie software di riferimento.

Al termine dell’insegnamento, si sarà in grado di:

comprendere e descrivere le principali fasi di un processo di Data Science
interpretare i fondamenti probabilistici e statistici alla base dei metodi di Machine Learning presentati;
formulare semplici problemi di classificazione e predizione in termini matematici e computazionali;
applicare e confrontare i principali algoritmi di Machine Learning introdotti nel corso;
valutare le prestazioni di un modello utilizzando appropriate metodologie di validazione e confronto;
utilizzare librerie Python dedicate alla Data Science e al Machine Learning per implementare e sperimentare modelli su dati reali.

PREREQUISITI

Fondamenti di analisi, probabilità e statistica e algebra lineare

Programmazione (preferibilmente in linguaggio Python)

MODALITA' DIDATTICHE

Le lezioni frontali saranno accompagnate da esercitazioni di laboratorio

PROGRAMMA/CONTENUTO

Il corso coprirà i seguenti argomenti:

Introduzione alla Data Science e al Machine Learning
- Definizioni, obiettivi e principali applicazioni.
- Il processo di analisi dei dati e costruzione di modelli predittivi.
Richiami di probabilità e statistica
- Probabilità e probabilità condizionata.
- Variabili aleatorie discrete.
- Media e varianza.
- Distribuzioni di probabilità notevoli.
- Distribuzioni congiunte e condizionali.
- Covarianza e correlazione.
Stima statistica
- Media campionaria e sue proprietà.
- Stimatore della mediana.
- La stima come problema di predizione.
- Rischio empirico e valutazione delle prestazioni.
- Suddivisione dei dati in training set e test set.
Metodi di classificazione lineare
- Formulazione del problema di classificazione.
- Classificazione mediante minimi quadrati.
- Stimatori teorici ottimali e stime empiriche.
- Regressione logistica.
- Ottimizzazione mediante discesa del gradiente.
Metodi di classificazione non lineari
- Algoritmi k-Nearest Neighbors.
- Metodo di Parzen.
- Istogrammi per la classificazione.
- Alberi decisionali.
Valutazione e selezione dei modelli
- Overfitting e underfitting.
- Confronto tra modelli.
- Strategie di validazione.
- Pipeline tipiche per problemi di Machine Learning.
Strumenti software per Data Science e Machine Learning
- Introduzione alle librerie di Python per l'analisi dei dati.
- Utilizzo di librerie specializzate (ad esempio NumPy, Pandas, Matplotlib e Scikit-learn).
- Implementazione e valutazione di modelli di Machine Learning.
Progetto applicativo
- Sviluppo di un progetto di Data Science e Machine Learning.
- Applicazione pratica delle metodologie e degli strumenti presentati nel corso.
- Analisi dei risultati e discussione delle scelte modellistiche.

TESTI/BIBLIOGRAFIA

Note messe a disposizione dal docente.
Ulteriore materiale di supporto verrà eventualmente fornito di volta in volta.

DOCENTI E COMMISSIONI

LUCA CALATRONI

Ricevimento: Su appuntamento.

LEZIONI

INIZIO LEZIONI

In accordo con il calendario didattico approvato dal Consiglio dei Corsi di Studio in Informatica: https://corsi.unige.it/corsi/8759/studenti-orario

Orari delle lezioni

L'orario di questo insegnamento è consultabile all'indirizzo: Portale EasyAcademy

ESAMI

MODALITA' D'ESAME

L'esame consiste in una prova orale divisa in due parti:

la discussione di un progetto su un argomento proposto dal docente
domande di teoria e sui laboratori svolti durante il corso

Indicazioni per studenti con certificazione di DSA, di disabilità o di altri bisogni educativi speciali sono disponibili a partire da https://corsi.unige.it/corsi/8759/studenti-disabilita-dsa

MODALITA' DI ACCERTAMENTO

Lo studente dovrà dimostrare di aver acquisito una solida comprensione dei concetti fondamentali del corso, con particolare riferimento alla formulazione di problemi di Data Science mediante tecniche di Machine Learning, ai modelli matematico-statistici che ne costituiscono il fondamento teorico e agli strumenti computazionali impiegati per la loro implementazione e valutazione.

In entrambe le prove d’esame saranno valutate la correttezza e la completezza delle conoscenze acquisite, la capacità di applicare in modo appropriato i metodi presentati, la chiarezza espositiva, la qualità delle soluzioni proposte e la capacità di analisi critica e di ragionamento autonomo.

ALTRE INFORMAZIONI

Per ulteriori informazioni, consultare il modulo Aulaweb dell'insegnamento o contattare il docente.