CODICE 80164 ANNO ACCADEMICO 2023/2024 CFU 6 cfu anno 2 COMPUTER ENGINEERING 11160 (LM-32) - GENOVA SETTORE SCIENTIFICO DISCIPLINARE ING-INF/05 LINGUA Inglese SEDE GENOVA PERIODO 1° Semestre MATERIALE DIDATTICO AULAWEB PRESENTAZIONE Questo insegnamento fornisce le conoscenze fondamentali per la progettazione di sistemi informatici capaci di acquisire, rappresentare e analizzare automaticamente il comportamento degli utenti e di interagire con loro in modo naturale, generando risposte multisensoriali in tempo reale. OBIETTIVI E CONTENUTI OBIETTIVI FORMATIVI This course provides students with foundational conceptual knowledge, methodologies, and tools for designing, implementing, and evaluating computer systems that can capture, represent, and automatically analyze the behavior of their users (e.g., in terms of gesture, movement, facial expressions, speech) and interact with them by generating multisensory feedback (e.g., images, sounds, control of actuators) in real-time. OBIETTIVI FORMATIVI (DETTAGLIO) E RISULTATI DI APPRENDIMENTO Scopo dell’insegnamento è quello di introdurre i concetti fondamentali per la progettazione e lo sviluppo di sistemi informatici capaci di interagire in modo naturale con i propri utenti attraverso molteplici canali sensoriali. Questo richiede la conoscenza e l’applicazione di tecniche per l’acquisizione, la rappresentazione e l’analisi automatica del comportamento dell’utente – ad esempio algoritmi per il rilevamento e l’analisi del gesto, del movimento, dell’espressione facciale, della parola – e per la conseguente generazione in tempo reale di risposte multisensoriali da parte del sistema (immagini e suoni). Al termine dell’insegnamento, lo studente sarà in grado di: Conoscere e comprendere le motivazioni per l’utilizzo dei sistemi multimodali interattivi, le architetture logiche che ne descrivono i principali componenti, le linee guida per la progettazione e lo sviluppo, gli ambiti applicativi in cui possono trovare più fruttuosamente impiego. Conoscere e comprendere i principali dispositivi per l’acquisizione di dati caratterizzanti il comportamento dell’utente e le loro modalità di utilizzo. Conoscere e comprendere le tecniche per la rappresentazione e l’analisi automatica del comportamento dell’utente a partire da dati provenienti da molteplici canali sensoriali. Capire quando e come applicarle. Analizzare specifici casi di studio, in particolari ambiti applicativi, allo scopo di valutare in modo critico l’opportunità di sviluppare un sistema multimodale interattivo piuttosto di una interfaccia utente tradizionale. Progettare un sistema multimodale interattivo e implementarne i principali componenti, utilizzando gli strumenti di sviluppo presentati nel corso delle lezioni e delle esercitazioni. PREREQUISITI E’ auspicabile, ma non indispensabile, possedere conoscenze di base di interazione uomo-macchina (ciclo di progettazione, sviluppo e valutazione di interfacce utente tradizionali, metodologie di interaction design). E’ utile possedere conoscenze di base di programmazione. MODALITA' DIDATTICHE Il corso prevede lezioni frontali ed esercitazioni. Le lezioni frontali hanno l’obiettivo di introdurre i concetti e le tecniche oggetto dell’insegnamento. Le esercitazioni consentono di applicare i concetti e le tecnologie viste a lezione in specifici casi di studio. Gli studenti possono seguire le esercitazioni con i propri laptop in aula. Le esercitazioni fanno uso di strumenti software per l’analisi del gesto e del movimento e per l’elaborazione audio. Si consigliano gli studenti lavoratori e gli studenti con certificazione di DSA, di disabilità o di altri bisogni educativi speciali di contattare il docente all’inizio del corso per concordare modalità didattiche e d’esame che, nel rispetto degli obiettivi dell’insegnamento, tengano conto delle modalità di apprendimento individuali. PROGRAMMA/CONTENUTO Introduzione ai sistemi multimodali: interfacce post-WIMP, interfacce multimodali, definizione di sistema multimodale, motivazioni, linee-guida e framewok per il progetto di sistemi multimodali. Modalità visuale, analisi automatica del gesto e del movimento: dispositivi per l’acquisizione di dati di movimento, algoritmi per la misura di caratteristiche del movimento, segmentazione di flussi di dati di movimento, riconoscimento di gesti, analisi del contenuto espressivo del gesto e del movimento. Modalità visuale, analisi automatica delle espressioni facciali: algoritmi di face detection, algoritmi per l'individuzione di landmark facciali, algoritmi per il calcolo di caratteristiche facciali e per l’estrazione automatica di action units. Modalità uditiva, automatic speech recognition: dispositivi per l’acquisizione, la registrazione e la riproduzione dei segnali audio, tecniche per il calcolo e l’analisi di caratteristiche (temporali, spettrali e cepstrali) del segnale audio, introduzione alle tecniche di automatic speech recognition. Multimodal machine learning: metodi per la fusione multimodale, early fusion model, late fusion model. TESTI/BIBLIOGRAFIA Il materiale didattico consiste nella copia, in formato pdf, dei lucidi presentati a lezione, nel materiale relativo alle esercitazioni e in una collezione di articoli scientifici, relativi agli argomenti del corso, forniti dal docente. Tutto il materiale didattico viene reso disponibile su AulaWeb. Gli studenti non frequentanti, gli studenti con disabilità o con DSA possono contattare il docente per ricevere indicazioni relative al materiale didattico. DOCENTI E COMMISSIONI GUALTIERO VOLPE Ricevimento: Il docente è disponibile su appuntamento presso il suo ufficio all’ultimo piano di Villa Bonino, Viale Causa 13, 16145, Genova, oppure presso Casa Paganini, Piazza S. Maria in Passione 34, 16123, Genova, oppure in remoto sulla piattaforma Microsoft Teams. Per prendere un appuntamento inviare una e-mail a gualtiero.volpe@unige.it Commissione d'esame GUALTIERO VOLPE (Presidente) ELEONORA CECCALDI RADOSLAW NIEWIADOMSKI ANTONIO CAMURRI (Presidente Supplente) LEZIONI INIZIO LEZIONI https://easyacademy.unige.it/portalestudenti/index.php?view=easycourse&_lang=it&include=corso Orari delle lezioni L'orario di questo insegnamento è consultabile all'indirizzo: Portale EasyAcademy ESAMI MODALITA' D'ESAME L’esame prevede lo svolgimento di un progetto didattico assegnato dal docente ed una prova orale. Il progetto didattico riguarda la progettazione di un sistema multimodale interattivo per una specifica applicazione e può comprendere lo sviluppo di moduli software di elaborazione audio o video per l’analisi del comportamento dell’utente, l’approfondimento di specifici argomenti presentati durante il corso, attraverso ricerche bibliografiche mirate, l’analisi di soluzioni esistenti e la valutazione delle prestazione di algoritmi. Alternativamente il progetto può riguardare l'analisi e la presentazione di un articolo scientifico assegnato dal docente. La prova orale consiste nella presentazione e discussione con il docente dei risultati del progetto, integrata da approfondimenti su argomenti affrontati durante il corso. Gli studenti con disabilità o con DSA possono fare richiesta di misure compensative/dispensative per l'esame. Le modalità saranno definite caso per caso insieme al Referente per Ingegneria del Comitato di Ateneo per il supporto agli studenti disabili e con DSA. Gli studenti che volessero farne richiesta sono invitati a contattare il docente mettendo in copia il Referente. MODALITA' DI ACCERTAMENTO Il progetto valuterà la capacità dello studente di analizzare un caso di studio (o un articolo scientifico), di valutare l’opportunità di sviluppare un sistema multimodale interattivo in tale contesto, di progettare un sistema multimodale interattivo e di applicare alcune delle tecnologie apprese nel corso delle lezioni. La prova orale permetterà di verificare il grado di conoscenza e di comprensione degli aspetti teorici fondamentali relativi ai sistemi multimodali (motivazioni, architetture logiche, linee guida per la progettazione) nonché la conoscenza dei principali dispositivi per l’acquisizione di dati e delle tecniche per la rappresentazione e l’analisi automatica del comportamento dell’utente. Saranno valutati la qualità del progetto e dell’esposizione, la capacità di ragionamento critico sul progetto realizzato, l’utilizzo corretto del lessico specialistico, la profondità della conoscenza degli argomenti del corso e la capacità di illustrarne i contenuti. Calendario appelli Data appello Orario Luogo Tipologia Note 16/02/2024 09:30 GENOVA Esame su appuntamento 13/09/2024 09:30 GENOVA Esame su appuntamento ALTRE INFORMAZIONI Sono disponibili tesi di laurea magistrale che riguardano gli argomenti del corso e che prevedono la progettazione e lo sviluppo di sistemi multimodali interattivi in ambiti di interesse per la ricerca scientifica e tecnologica condotta presso il centro di ricerca Casa Paganini – InfoMus del DIBRIS (www.casapaganini.org). Per gli studenti interessati, il corso offre le conoscenze teoriche e pratiche utili ad affrontare il lavoro di tesi.