
Chi esegue l’analisi dei dati prima o poi si trova a doversi confrontare col termine “Regressione”.
Tale termine deriva dall’applicazione nata dall’esploratore Galton che nel 1886 esaminò le altezze dei figli (y) in funzione delle altezze dei genitori (x) in Inghilterra.
Galton notò con sorpresa una relazione funzionale tra le due variabili: più alti erano i genitori, più alti risultavano i figli e viceversa.
Tuttavia, ai genitori che si collocavano agli estremi (molto bassi o molto alti) non corrispondevano figli altrettanto estremi, ovvero Galton osservò che l’altezza dei figli si spostava verso la media. Quindi, concluse che questo costituiva una “regressione verso la media” e la relazione funzionale fu chiamata modello di regressione.
Cos’è la regressione lineare?
Ipotizziamo di dover rappresentare, invece che le altezze, la relazione tra i voti degli studenti in base alle ore effettive di studio. Potremmo scrivere, ad esempio:
Voto = 5 + ore di studio * 0,25
Stiamo di fatto stabilendo una relazione tra le variabili voto e ore di studio. Tale relazione è un esempio molto semplice di regressione (definito di regressione lineare) che è possibile raffigurare tramite una linea retta su un grafico cartesiano.
In termini tecnici, la regressione lineare è un modello che assume una relazione lineare tra i valori di input (x) e un unico valore di output (y). La x è la variabile indipendente (le ore di studio), mentre la y è la variabile dipendente (i voti) e può essere calcolata come combinazione lineare dei valori di input.
In particolare, la regressione lineare viene definita semplice se è presente solamente una sola variabile di input (x), come nell’esempio appena mostrato; al contrario se il numero di variabili è maggiore la regressione lineare è definita multipla.
Al giorno d’oggi, la regressione lineare è un metodo statistico molto utilizzato in machine learning, nelle scienze applicate e sociali, come ad esempio ingegneria, biologia, fisica ed economia.
Prerequisiti della regressione lineare
Per costruire un modello di regressione lineare è necessario essere a conoscenza di alcuni concetti di base statistici. Perciò occorre conoscere:
- La correlazione (r): spiega la relazione tra due variabili. Assume possibili valori nell’intervallo compreso da -1 a +1. In particolare, due variabili con correlazione positiva si dicono direttamente correlate. Invece, se la correlazione è negativa le due variabili si dicono inversamente correlate. Se infine la correlazione assume valore pari a zero le due variabili si dicono non correlate (ne mostro un esempio in questo articolo).
- Il coefficiente di determinazione (R2): rappresenta una misura statistica di quanto i dati sono vicini alla linea di regressione. È dato dal quadrato della correlazione.
- La varianza (σ2): rappresenta una misura dello spread nei dati, ossia la variabilità di un insieme di dati.
- La deviazione standard (σ): altro modo per misurare lo spread nei dati (in quanto esso rappresenta la radice quadrata della varianza).
- Il residuo: è una stima osservabile dell’errore statistico. Il residuo è dato dalla sottrazione tra il valore effettivo e il valore previsto.
Modello di regressione lineare semplice
Un modello di regressione lineare semplice, a differenza di quello logistico, è composto dalla seguente equazione:
y = mx + q
Con
y = variabile dipendente
x = variabile indipendente
q = termine costante definito intercetta
m = coefficiente di relazione tra y e x
Ad alcuni modelli, come quello proposto da Wikipedia, viene aggiunto all’equazione un termine definito errore statistico, che influenza la precisione sul risultato. Per semplicità, qua si considera pari a zero.
Trovare la retta di regressione lineare
Trovare la retta di regressione significa semplicemente determinare il valore di q e m. Per farlo ci si avvale del seguente esempio svolto su Excel.
Nella tabella sottostante, la colonna x indica le ore di studio degli studenti (valore da 1 a 100), mentre la colonna y mostra i voti assegnati.
Per calcolare l’equazione di regressione, ossia determinare m e q, sono necessari anche i seguenti dati:
In giallo possiamo vedere le sommatorie di ogni valore (esclusa la prima riga che indica il campione di studenti analizzato). Ad esempio, nella cella C11 possiamo vedere che essa è la somma della cella dalla C2 alla C8 inclusa:
Lo stesso per le celle fino alla G11.
Per calcolare m, utilizzeremo la seguente equazione:
In Excel avremo:
Per quanto riguarda q:
E infine il coefficiente R2:
Pertanto, possiamo riassumere che l’equazione di regressione lineare nel nostro esempio sarà:
y = 0,6063 x + 30,3966
Se volessimo ora rappresentare tale equazione su un grafico, occorre selezionare i valori x e y come nell’immagine seguente:
Clicca ora sulla tab inserisci e poi su grafici consigliati:
Comparirà un’immagine come la seguente:
Seleziona il grafico a dispersione e poi clicca su ok:
Per inserire la retta occorre selezionare i puntini col tasto destro, e cliccare su aggiungi linea di tendenza.
Ti si aprirà il formato linea di tendenza:
In automatico esso è impostato su lineare. Se, in aggiunta, si vuole inserire anche l’equazione nel grafico (e il coefficiente R2), occorre scendere in basso e selezionare la spunta in “Visualizza l’equazione sul grafico” (e “Visualizza il valore R quadrato sul grafico”).
Otterrai il medesimo risultato (l’equazione della retta mostra i valori trovati prima, solo che qua sono arrotondati):
Ora se vogliamo centrare il grafico basterà selezionare sull’asse orizzontale e selezionare su formato asse:
Comparirà il formato asse e modificheremo il limite minimo inferiore (anziché 0, inseriremo ad esempio 45):


E otterremo il seguente grafico:
Inserendo il titolo, il valore degli assi e modificando la formattazione otterremo un risultato più carino:
Ecco il video che riassume i passi sopra spiegati:
La relazione trovata rappresenta un buon modello?
Una volta costruito il modello, ci si chiede se è abbastanza buono da prevedere future relazioni tra variabili dipendenti e indipendenti.
La risposta ce la può dare il coefficiente di determinazione R2, che può assumere valori compresi tra 0 a 1. In particolare, se:
- R2= 0, allora significa che la variabile dipendente non può essere prevista dalla variabile indipendente. Il modello creato non è un buon predittore.
- R2 = 1 significa che la variabile dipendente può essere prevista senza errore dalla variabile indipendente. Il modello lineare in questo caso è un ottimo predittore.
- R2 compreso tra 0 e 1: avviene nella maggior parte dei casi. Ciò indica la misura in cui la variabile dipendente è prevedibile. Ad esempio, un R2 di 0,20 significa che il 20 percento della varianza in y è prevedibile da x; un R2 di 0,40 significa che il 40 percento è prevedibile; e così via.
Nel nostro esempio R2 è pari a 0,5588: si può concludere che il modello creato non è un buon modello se si devono fare ulteriori calcoli. Infatti, i valori dei voti e delle ore di studio sono stati impostati casualmente, proprio per il motivo che lo scopo dell’esercizio era far vedere come creare una retta di regressione lineare semplice con Excel.
Per concludere… Scarica il file Excel
Clicca sul bottone sotto per scaricare il file Excel mostrato nell’esempio.
Tieni a mente che, se modifichi un valore nella colonna x o y del file appena scaricato, il grafico (e la relativa equazione di regressione) si modificherà automaticamente. Lo stesso avviene se si aggiungono o tolgono righe dal campione di studenti di riferimento.
Questo avviene poiché inizialmente si era creata una tabella.