Ingegneria Informatica e Intelligenza artificiale L-8

Statistica e data analysis

Settore scientifico disciplinare Numero crediti formativi (CFU) Docente
MAT/06 9 Stefano Baranzini

Risorse

 Il materiale didattico è costituito dalle videolezioni presenti in piattaforma e dalle relative slide. Per integrare il materiale sono suggeriti i seguenti testi:

  1.  Statistical Inference, George Casella and Roger L. Berger, 2nd Edition, Duxbury Press, Pacific Grove.
  2. Probabilità e statistica per l’ingegneria e le scienze, Sheldon M. Ross, quarta edizione, Apogeo, Maggioli Editore
  3. Probabilità - Un primo corso attraverso esempi, modelli e applicazioni, Quentin Berger, Francesco Caravenna, Paolo Dai Pra, Springer

Verifica

Tutti i contenuti trattati nell’ambito dell’insegnamento costituiscono oggetto di valutazione.

La valutazione delle competenze acquisite dallo studente avverrà attraverso un colloquio orale o in forma scritta nelle date d’appello previste dall’Ateneo e pubblicate in piattaforma.

La valutazione prevede l’identificazione del raggiungimento degli obiettivi previsti ed in particolare per ogni argomento saranno valutati:

-      il grado di acquisizione della conoscenza degli argomenti trattati (50% del punteggio)

-      la capacità di sintesi e la capacità di mettere in relazione i vari argomenti, oltre ad una corretta terminologia (25% del punteggio)

-      la comprensione e la capacità di applicare il ragionamento probabilistico/statistico (25% del punteggio).

Modalità di esame

ESAME IN PRESENZA NON DIGITALE: Si svolgerà tramite una prova scritta o orale atta ad accertare la conoscenza e la comprensione degli argomenti svolti attraverso domande di tipo teorico o esercizi.

ESAME DIGITALE (IN PRESENZA O ONLINE): consta di un test scritto composto da 31 domande a risposta multipla (una sola risposta corretta). Lo studente avrà possibilità di selezionare una sola opzione fra quelle prospettate. Ogni risposta corretta verrà valutata “1” punto. La 31ma domanda sarà funzionale al conseguimento della lode. Pertanto, lo studente che risponderà correttamente a 30 domande su 31, conseguirà la lode solo se avrà risposto correttamente anche alla 31ma domanda; mentre lo studente che risponderà correttamente a meno di 30 domande su 31, conseguirà la votazione corrispondente al numero delle risposte esatte e la 31ma domanda non sarà valutata ai fini del punteggio, anche se corretta.  Questa modalità di esame si utilizzerà per gli appelli online previsti nelle sedi periferiche oppure in presenza digitale.

Obiettivi

L’insegnamento fornisce allo/a studente/ssa le basi teoriche della statistica descrittiva, della probabilità e della statistica inferenziale, fondamentali per la formazione scientifica di un ingegnere informatico e per la comprensione dei modelli astratti utilizzati nell’intelligenza artificiale.

Il corso introdurrà i principali strumenti della statistica descrittiva, siano essi basati sull’analisi quantitativa/posizionale che sull’analisi delle frequenze. Verranno poi trattati i principali concetti relativi alla teoria della probabilità moderna quali probabilità condizionata, indipendenza e variabili aleatorie. Saranno presentati i principali risultati di convergenza come la legge dei grandi numeri e il teorema del limite centrale. Infine, si discuterà dell’approccio statistico inferenziale introducendo lo studente al concetto di stimatore, intervallo di confidenza, test d’ipotesi e analizzando alcuni tra i principali test statistici.  

Lo/a studente/ssa svilupperà la capacità di leggere e interpretare testi matematico-probabilistici, di applicare il ragionamento probabilistico e quantitativo a problemi reali, di riconoscere quali siano i modelli rilevanti nelle applicazioni ingegneristiche.

Al termine del corso lo/a studente/ssa avrà acquisito:

  • padronanza dei concetti fondamentali della statistica descrittiva;
  • conoscenza dei fondamenti della teoria della probabilità; 
  • capacità di interpretare, riprodurre e costruire un’analisi dati.
  • capacità di utilizzare i test statistici più semplici, comprendendone limiti e contesti di applicazione.

Risultati di apprendimento attesi

Conoscenza e capacità di comprensione

Al termine del corso, lo/a studente/ssa sarà in grado di comprendere i concetti fondamentali della statistica descrittiva (tipi di dati, distribuzioni, indici di posizione e di variabilità, rappresentazioni grafiche), della probabilità (eventi, regole di calcolo, variabili aleatorie, principali distribuzioni) e della statistica inferenziale di base (campionamento, stime puntuali e intervallari, test d’ipotesi, errori di I e II tipo, p-value). Saprà inoltre interpretare il significato dei risultati statistici e riconoscere il ruolo delle assunzioni dei modelli più comuni.

Capacità di applicare conoscenza e comprensione

Al termine del corso, lo/a studente/ssa saprà applicare in modo autonomo strumenti e procedure per: organizzare e descrivere un dataset; calcolare e interpretare misure sintetiche; costruire grafici adeguati; impostare e risolvere semplici problemi di probabilità; scegliere e utilizzare un metodo inferenziale di base (stima, intervallo di confidenza, test su media/proporzione e confronto semplice, ove previsto) in funzione della domanda conoscitiva. Saprà inoltre tradurre un problema reale in termini statistici, selezionando la tecnica più appropriata e verificando, nei casi elementari, le condizioni di applicabilità.

Abilità di giudizio

Al termine del corso, lo/a studente/ssa svilupperà la capacità di valutare criticamente dati e risultati: riconoscere limiti di qualità del dato (errori, outlier, mancanze), distinguere correlazione e causalità, interpretare correttamente l’incertezza associata a stime e decisioni inferenziali e individuare possibili fonti di bias (campionamento non rappresentativo, confondimento, misurazioni distorte).

Abilità di comunicare

Al termine del corso, lo/a studente/ssa saprà comunicare in modo chiaro ed efficace risultati e ragionamenti statistici a interlocutori specialisti e non specialisti: descrivere un dataset con lessico appropriato, presentare grafici e tabelle in modo leggibile, motivare le scelte metodologiche di base e sintetizzare conclusioni e limiti dell’analisi.

Capacità di apprendimento

Al termine del corso, lo/a studente/ssa sarà in grado di proseguire lo studio in autonomia: consultare materiali di riferimento per chiarire definizioni e tecniche, riconoscere quali strumenti statistici siano necessari per approfondimenti successivi (modelli, regressione, inferenza più avanzata); aggiornare e approfondire le proprie conoscenze teoriche attraverso lo studio individuale di testi e sviluppare un metodo di apprendimento fondato sulla comprensione concettuale, indispensabile per affrontare discipline scientifiche avanzate e modelli teorici complessi.

 

Prerequisiti

Per il proficuo raggiungimento degli obiettivi formativi del corso, è auspicabile che lo studente possieda le conoscenze pregresse relative ai corsi di Analisi Matematica I e II con particolare riguardo a integrali, limiti, serie e successioni numeriche e successioni di funzioni. È altresì necessario conoscere e comprendere i principi base del ragionamento ipotetico-deduttivo, che costituiscono prerequisiti essenziali per la comprensione e l'applicazione consapevole dei contenuti trattati.

Organizzazione didattica

Il corso viene erogato attraverso videolezioni e attraverso attività didattica interattiva.

Le attività di didattica, suddivise tra didattica erogativa (DE) e didattica interattiva (DI), saranno costituite da 7 ore per CFU e ripartite secondo una struttura di almeno 2,5 ore di DE (5 ore, tenuta in considerazione la necessità di riascolto) e di 2 ore di DI per ciascun CFU.

Attività didattica erogativa (22,5 ore):

  • 46 lezioni frontali, videoregistrate, della durata di circa 30 minuti ciascuna, sempre disponibili in piattaforma didattica (ogni videolezione corrisponde a 1 ora di didattica erogativa considerando la necessità di riascolto).  

Attività didattica interattiva (18 ore)

  • Le 18 ore in forma di esercitazioni interattive in aula virtuale, svolte in modalità sincrona, organizzate in date e orari concordati e su tematiche specifiche del programma per gli studenti che preparano l’esame.
  • Forum di approfondimento tematici: ha lo scopo di approfondire gli argomenti del corso che risultano di difficile comprensione per gli studenti o che interessano maggiormente. Si tratta di uno strumento che dà a ciascun studente la possibilità di aggiungere un argomento di discussione che verrà successivamente approfondiremo insieme al docente.  

Lezioni

Introduzione al corso di statistica

Tecniche di rilevazione statistica

La distribuzione di un carattere

La rappresentazione grafica di una distribuzione

La rappresentazione grafica di una distribuzione: grafici ad area, a torta, radar, cartogrammi e diagrammi

La sintesi della distribuzione di un carattere: la media aritmetica

La sintesi della distribuzione di un carattere: la mediana

La moda, i percentili e i quartili

Misure di Dispersione: Variabilit

Scostamenti semplici medi, teoremi di disuguaglianza e standardizzazione dei dati

Gli intervalli di variabilità e il box plot

Equidistribuzione e concentrazione

Omogeneità, eterogeneità e indici di asimmetria

Serie storica e numeri indici semplici

Distribuzioni doppie di frequenza

L'associazione tra due caratteri

Misura dell'interdipendenza tra due caratteri quantitativi

Il modello di regressione lineare semplice

Il coefficiente di determinazione

Probabilità: concetti di base

Probabilità condizionata e indipendenza

Il Teorema di Bayes

Le variabili casuali: introduzione

Le variabili casuali discrete

Le variabili casuali continue

Valore atteso e varianza di una variabile casuale

Distribuzioni di probabilità per v.c. discrete

Distribuzione Binomiale

Distribuzione di Poisson

Distribuzione Normale

Distribuzione Normale - approfondimenti

Distribuzione Normale - Esercitazione

Il campionamento da popolazioni finite

Campionamento - Esercitazione

Teoria della stima

Proprietà degli stimatori puntuali

Stima puntuale dei parametri e metodo della massima verosimiglianza

Stima intervallare: introduzione

Stima per intervalli

Esercitazione

Verifica delle ipotesi

Regole di decisione

Errori nella procedura di verifica

Test per medie, proporzioni e varianze

Anova

Esercitazione: Anova