ANALISI DEI BIG DATA PER LE SCIENZE DELLA VITA

CODICE	121745
ANNO ACCADEMICO	2026/2027
CFU	2 cfu anno 2 BIOLOGIA APPLICATA E SPERIMENTALE 11932 (LM-6 R) - GENOVA
SETTORE SCIENTIFICO DISCIPLINARE	BIOS-09/A
SEDE	GENOVA
PERIODO	2° Semestre

PRESENTAZIONE

Il corso "Analisi dei Big Data per le Scienze della Vita" nasce dall'esigenza di formare i moderni biologi alla gestione e all'interpretazione della massiccia mole di dati generata dalle odierne tecnologie ad alta prestazione (high-throughput). L'insegnamento si propone di colmare il ponte tra il dato computazionale grezzo e il reale significato biologico, fornendo competenze cruciali per la ricerca contemporanea.

OBIETTIVI E CONTENUTI

OBIETTIVI FORMATIVI

L’insegnamento ha l’obiettivo di fornire agli studenti le conoscenze teoriche e pratiche di base per l’analisi, l’interpretazione e la visualizzazione di grandi dataset biologici e biomedici, con particolare riferimento ai dati omici derivanti da trascrittomica, proteomica, metabolomica e lipidomica. Il corso introdurrà i principali approcci alla gestione, alla normalizzazione, all'analisi statistica e all'interpretazione biologica dei dati, includendo metodi di analisi multivariata, clustering, classificazione e machine learning. Saranno inoltre presentati strumenti e banche dati open access utili all’analisi dei processi biologici, alla costruzione di reti di interazione e all’arricchimento funzionale. Al termine del corso, lo studente sarà in grado di comprendere la struttura dei big data biologici, applicare approcci analitici di base, interpretare criticamente i risultati ottenuti e collegare le evidenze computazionali ai processi biologici sottostanti. L’insegnamento avrà un’impostazione teorico-pratica, basata anche sull’uso di dataset reali provenienti da studi pubblicati.

OBIETTIVI FORMATIVI (DETTAGLIO) E RISULTATI DI APPRENDIMENTO

L’insegnamento ha l’obiettivo di fornire agli studenti conoscenze teoriche e competenze applicative di base per l’analisi, l’interpretazione e la visualizzazione di grandi dataset biologici e biomedici. Il corso introdurrà i principali approcci utilizzati nella Big Data Analysis applicata alle scienze della vita, con particolare riferimento ai dati derivanti da tecnologie omiche, quali la trascrittomica, la proteomica, la metabolomica e la lipidomica. Verranno presentati i concetti fondamentali di organizzazione, normalizzazione, esplorazione e analisi statistica dei dati, con attenzione all’identificazione delle variabili più rilevanti per la distinzione tra gruppi sperimentali o condizioni biologiche. Particolare attenzione sarà dedicata all’uso di metodi di analisi multivariata, clustering, classificazione e approcci di machine learning, finalizzati all’identificazione di firme molecolari, biomarcatori e processi biologici associati a specifiche condizioni sperimentali o patologiche. Il corso intende inoltre fornire agli studenti gli strumenti necessari per interrogare e utilizzare le principali banche dati biologiche open access e per integrare i risultati delle analisi computazionali con informazioni funzionali, pathway biologici, reti di interazione tra geni, proteine e metaboliti, e analisi di arricchimento funzionale.

Al termine dell’insegnamento, lo studente dovrà essere in grado di:

comprendere le principali caratteristiche dei big data biologici e biomedici;
riconoscere le problematiche legate alla gestione, normalizzazione e interpretazione di dataset complessi;
applicare approcci statistici e bioinformatici di base per l’analisi di dati omici;
interpretare risultati derivanti da analisi di clustering, classificazione e machine learning;
utilizzare banche dati biologiche e strumenti open access per l’annotazione e l’interpretazione funzionale dei dati;
comprendere il significato biologico di reti di interazione, pathway e analisi di arricchimento;
visualizzare e comunicare in modo critico i risultati ottenuti da analisi di dataset biologici complessi.

L’insegnamento avrà un’impostazione integrata teorico-pratica e utilizzerà, ove possibile, dataset reali tratti da studi pubblicati, con l’obiettivo di avvicinare gli studenti a problematiche concrete di analisi dei dati in ambito biologico e biomedico.

PREREQUISITI

Nozioni base di Statistica.

MODALITA' DIDATTICHE

Lezioni frontali teoriche (20 ore di attività formativa), dedicate agli argomenti previsti dal programma, con un approccio interattivo e ampio spazio per esercitazioni pratiche in aula. In caso di emergenza, le attività potranno essere svolte online, compatibilmente con le disposizioni dell’Ateneo.

Gli studenti con una certificazione di disabilità fisica o di apprendimento depositata presso l'Ateneo possono trovare informazioni sui servizi di supporto alla pagina web https://unige.it/disabilita-dsa, predisposta dal "Settore servizi per l'inclusione degli studenti con disabilità e con DSA".

È possibile inoltre contattare la Professoressa Cristina Carbone (cristina.carbone@unige.it), referente del DISTAV per le disabilità.

PROGRAMMA/CONTENUTO

INTRODUZIONE AI BIG DATA NELLE SCIENZE DELLA VITA
- Definizione di Big Data, sfide e opportunità nella ricerca biologica e biomedica contemporanea.
- Panoramica sulle tecnologie ad alta prestazione (high-throughput).
LE TECNOLOGIE OMICHE E LA STRUTTURA DEI DATI
- Fondamenti di Trascrittomica (RNA-Seq), Proteomica, Metabolomica e Lipidomica.
- Formati dei file, matrici di espressione ed esplorazione iniziale del dato grezzo.
GESTIONE E PRE-PROCESSAMENTO DEI DATI
- Controllo qualità del dato.
- Strategie di filtraggio e tecniche di normalizzazione dei dati omici per la rimozione di bias tecnici ed effetti batch (batch effects).
ANALISI STATISTICA E BIOMARCATORI
- Analisi statistica univariata applicata ai dati omici (identificazione di geni, proteine o metaboliti differenzialmente espressi).
- Correzione per test multipli (FDR, Bonferroni).
ANALISI MULTIVARIATA E CLUSTERING
- Riduzione della dimensionalità: Analisi dei Componenti Principali (PCA).
- Metodi di Clustering non supervisionato: clustering gerarchico e k-means applicati ai profili molecolari.
CLASSIFICAZIONE E FONDAMENTI DI MACHINE LEARNING
- Introduzione all'apprendimento supervisionato (Machine Learning).
- Metodi di classificazione per la scoperta di firme molecolari (biomarcatori) e predizione dello stato patologico/sperimentale.
BIOLOGIA DEI SISTEMI E BIOINFORMATICA FUNZIONALE
- Interrogazione e utilizzo delle principali banche dati biologiche open access (es. NCBI, UniProt, KEGG, Reactome).
- Analisi di arricchimento funzionale (Gene Ontology, Pathway enrichment analysis).
- Ricostruzione e interpretazione biologica di reti di interazione molecolare (reti gene-gene, interazioni proteina-proteina).
VISUALIZZAZIONE DEI DATI
- Strumenti grafici per la comunicazione critica dei dati biologici complessi (Volcano plot, Heatmap, PCA plot).

TESTI/BIBLIOGRAFIA

Dispense su aula-web

DOCENTI E COMMISSIONI

MAURIZIO BRUSCHI

Ricevimento: Su appuntamento, Prof. Maurizio Bruschi, IRCCS Istituto Giannina Gaslini. Laboratorio di Nefrologia Molecolare (Padiglione 12, fondi) Via Gerolamo Gaslini, 5 – 16147 Genova (GE) E-mail: maurizio.bruschi@unige.it

LEZIONI

INIZIO LEZIONI

Consultare l’orario dettagliato al seguente link: https://easyacademy.unige.it/portalestudenti/

Orari delle lezioni

L'orario di questo insegnamento è consultabile all'indirizzo: Portale EasyAcademy

ESAMI

MODALITA' D'ESAME

L’esame consisterà in un test scritto (quiz a risposta multipla), svolto in presenza o su piattaforma digitale.

Il test è superato con almeno 18/30.

MODALITA' DI ACCERTAMENTO

L’esame verificherà il raggiungimento degli obiettivi formativi. In particolare, verrà accertata la conoscenza teorica dei flussi di analisi dei big data biologici (dalla normalizzazione all'interpretazione funzionale) e la capacità dello studente di interpretare criticamente l'output dei principali approcci statistici e bioinformatici presentati a lezione, collegando correttamente l'evidenza computazionale ai processi biologici sottostanti.