Ingegneria Informatica e Intelligenza artificiale L-8
Statistica e data analysis
| Settore scientifico disciplinare | Numero crediti formativi (CFU) | Docente |
| MAT/06 | 9 | Stefano Baranzini |
Risorse
Il materiale didattico è costituito dalle videolezioni presenti in piattaforma e dalle relative slide. Per integrare il materiale sono suggeriti i seguenti testi:
- Statistical Inference, George Casella and Roger L. Berger, 2nd Edition, Duxbury Press, Pacific Grove.
- Probabilità e statistica per l’ingegneria e le scienze, Sheldon M. Ross, quarta edizione, Apogeo, Maggioli Editore
- Probabilità - Un primo corso attraverso esempi, modelli e applicazioni, Quentin Berger, Francesco Caravenna, Paolo Dai Pra, Springer
Verifica
Tutti i contenuti trattati nell’ambito dell’insegnamento costituiscono oggetto di valutazione.
La valutazione delle competenze acquisite dallo studente avverrà attraverso un colloquio orale o in forma scritta nelle date d’appello previste dall’Ateneo e pubblicate in piattaforma.
La valutazione prevede l’identificazione del raggiungimento degli obiettivi previsti ed in particolare per ogni argomento saranno valutati:
- il grado di acquisizione della conoscenza degli argomenti trattati (50% del punteggio)
- la capacità di sintesi e la capacità di mettere in relazione i vari argomenti, oltre ad una corretta terminologia (25% del punteggio)
- la comprensione e la capacità di applicare il ragionamento probabilistico/statistico (25% del punteggio).
Modalità di esame
ESAME IN PRESENZA NON DIGITALE: Si svolgerà tramite una prova scritta o orale atta ad accertare la conoscenza e la comprensione degli argomenti svolti attraverso domande di tipo teorico o esercizi.
ESAME DIGITALE (IN PRESENZA O ONLINE): consta di un test scritto composto da 31 domande a risposta multipla (una sola risposta corretta). Lo studente avrà possibilità di selezionare una sola opzione fra quelle prospettate. Ogni risposta corretta verrà valutata “1” punto. La 31ma domanda sarà funzionale al conseguimento della lode. Pertanto, lo studente che risponderà correttamente a 30 domande su 31, conseguirà la lode solo se avrà risposto correttamente anche alla 31ma domanda; mentre lo studente che risponderà correttamente a meno di 30 domande su 31, conseguirà la votazione corrispondente al numero delle risposte esatte e la 31ma domanda non sarà valutata ai fini del punteggio, anche se corretta. Questa modalità di esame si utilizzerà per gli appelli online previsti nelle sedi periferiche oppure in presenza digitale.
Obiettivi
L’insegnamento fornisce allo/a studente/ssa le basi teoriche della statistica descrittiva, della probabilità e della statistica inferenziale, fondamentali per la formazione scientifica di un ingegnere informatico e per la comprensione dei modelli astratti utilizzati nell’intelligenza artificiale.
Il corso introdurrà i principali strumenti della statistica descrittiva, siano essi basati sull’analisi quantitativa/posizionale che sull’analisi delle frequenze. Verranno poi trattati i principali concetti relativi alla teoria della probabilità moderna quali probabilità condizionata, indipendenza e variabili aleatorie. Saranno presentati i principali risultati di convergenza come la legge dei grandi numeri e il teorema del limite centrale. Infine, si discuterà dell’approccio statistico inferenziale introducendo lo studente al concetto di stimatore, intervallo di confidenza, test d’ipotesi e analizzando alcuni tra i principali test statistici.
Lo/a studente/ssa svilupperà la capacità di leggere e interpretare testi matematico-probabilistici, di applicare il ragionamento probabilistico e quantitativo a problemi reali, di riconoscere quali siano i modelli rilevanti nelle applicazioni ingegneristiche.
Al termine del corso lo/a studente/ssa avrà acquisito:
- padronanza dei concetti fondamentali della statistica descrittiva;
- conoscenza dei fondamenti della teoria della probabilità;
- capacità di interpretare, riprodurre e costruire un’analisi dati.
- capacità di utilizzare i test statistici più semplici, comprendendone limiti e contesti di applicazione.
Risultati di apprendimento attesi
Conoscenza e capacità di comprensione
Al termine del corso, lo/a studente/ssa sarà in grado di comprendere i concetti fondamentali della statistica descrittiva (tipi di dati, distribuzioni, indici di posizione e di variabilità, rappresentazioni grafiche), della probabilità (eventi, regole di calcolo, variabili aleatorie, principali distribuzioni) e della statistica inferenziale di base (campionamento, stime puntuali e intervallari, test d’ipotesi, errori di I e II tipo, p-value). Saprà inoltre interpretare il significato dei risultati statistici e riconoscere il ruolo delle assunzioni dei modelli più comuni.
Capacità di applicare conoscenza e comprensione
Al termine del corso, lo/a studente/ssa saprà applicare in modo autonomo strumenti e procedure per: organizzare e descrivere un dataset; calcolare e interpretare misure sintetiche; costruire grafici adeguati; impostare e risolvere semplici problemi di probabilità; scegliere e utilizzare un metodo inferenziale di base (stima, intervallo di confidenza, test su media/proporzione e confronto semplice, ove previsto) in funzione della domanda conoscitiva. Saprà inoltre tradurre un problema reale in termini statistici, selezionando la tecnica più appropriata e verificando, nei casi elementari, le condizioni di applicabilità.
Abilità di giudizio
Al termine del corso, lo/a studente/ssa svilupperà la capacità di valutare criticamente dati e risultati: riconoscere limiti di qualità del dato (errori, outlier, mancanze), distinguere correlazione e causalità, interpretare correttamente l’incertezza associata a stime e decisioni inferenziali e individuare possibili fonti di bias (campionamento non rappresentativo, confondimento, misurazioni distorte).
Abilità di comunicare
Al termine del corso, lo/a studente/ssa saprà comunicare in modo chiaro ed efficace risultati e ragionamenti statistici a interlocutori specialisti e non specialisti: descrivere un dataset con lessico appropriato, presentare grafici e tabelle in modo leggibile, motivare le scelte metodologiche di base e sintetizzare conclusioni e limiti dell’analisi.
Capacità di apprendimento
Al termine del corso, lo/a studente/ssa sarà in grado di proseguire lo studio in autonomia: consultare materiali di riferimento per chiarire definizioni e tecniche, riconoscere quali strumenti statistici siano necessari per approfondimenti successivi (modelli, regressione, inferenza più avanzata); aggiornare e approfondire le proprie conoscenze teoriche attraverso lo studio individuale di testi e sviluppare un metodo di apprendimento fondato sulla comprensione concettuale, indispensabile per affrontare discipline scientifiche avanzate e modelli teorici complessi.
Prerequisiti
Per il proficuo raggiungimento degli obiettivi formativi del corso, è auspicabile che lo studente possieda le conoscenze pregresse relative ai corsi di Analisi Matematica I e II con particolare riguardo a integrali, limiti, serie e successioni numeriche e successioni di funzioni. È altresì necessario conoscere e comprendere i principi base del ragionamento ipotetico-deduttivo, che costituiscono prerequisiti essenziali per la comprensione e l'applicazione consapevole dei contenuti trattati.
Organizzazione didattica
Il corso viene erogato attraverso videolezioni e attraverso attività didattica interattiva.
Le attività di didattica, suddivise tra didattica erogativa (DE) e didattica interattiva (DI), saranno costituite da 7 ore per CFU e ripartite secondo una struttura di almeno 2,5 ore di DE (5 ore, tenuta in considerazione la necessità di riascolto) e di 2 ore di DI per ciascun CFU.
Attività didattica erogativa (22,5 ore):
- 46 lezioni frontali, videoregistrate, della durata di circa 30 minuti ciascuna, sempre disponibili in piattaforma didattica (ogni videolezione corrisponde a 1 ora di didattica erogativa considerando la necessità di riascolto).
Attività didattica interattiva (18 ore)
- Le 18 ore in forma di esercitazioni interattive in aula virtuale, svolte in modalità sincrona, organizzate in date e orari concordati e su tematiche specifiche del programma per gli studenti che preparano l’esame.
- Forum di approfondimento tematici: ha lo scopo di approfondire gli argomenti del corso che risultano di difficile comprensione per gli studenti o che interessano maggiormente. Si tratta di uno strumento che dà a ciascun studente la possibilità di aggiungere un argomento di discussione che verrà successivamente approfondiremo insieme al docente.
Lezioni
Introduzione al corso di statistica
Tecniche di rilevazione statistica
La distribuzione di un carattere
La rappresentazione grafica di una distribuzione
La rappresentazione grafica di una distribuzione: grafici ad area, a torta, radar, cartogrammi e diagrammi
La sintesi della distribuzione di un carattere: la media aritmetica
La sintesi della distribuzione di un carattere: la mediana
La moda, i percentili e i quartili
Misure di Dispersione: Variabilit
Scostamenti semplici medi, teoremi di disuguaglianza e standardizzazione dei dati
Gli intervalli di variabilità e il box plot
Equidistribuzione e concentrazione
Omogeneità, eterogeneità e indici di asimmetria
Serie storica e numeri indici semplici
Distribuzioni doppie di frequenza
L'associazione tra due caratteri
Misura dell'interdipendenza tra due caratteri quantitativi
Il modello di regressione lineare semplice
Il coefficiente di determinazione
Probabilità: concetti di base
Probabilità condizionata e indipendenza
Il Teorema di Bayes
Le variabili casuali: introduzione
Le variabili casuali discrete
Le variabili casuali continue
Valore atteso e varianza di una variabile casuale
Distribuzioni di probabilità per v.c. discrete
Distribuzione Binomiale
Distribuzione di Poisson
Distribuzione Normale
Distribuzione Normale - approfondimenti
Distribuzione Normale - Esercitazione
Il campionamento da popolazioni finite
Campionamento - Esercitazione
Teoria della stima
Proprietà degli stimatori puntuali
Stima puntuale dei parametri e metodo della massima verosimiglianza
Stima intervallare: introduzione
Stima per intervalli
Esercitazione
Verifica delle ipotesi
Regole di decisione
Errori nella procedura di verifica
Test per medie, proporzioni e varianze
Anova
Esercitazione: Anova