
Una prima misura da attuare quando si vuole vedere se due variabili sono tra loro legate in un certo modo è eseguire l’analisi di correlazione.
L’analisi di correlazione è un metodo di valutazione statistica utilizzato per studiare la forza di una relazione tra due variabili continue, misurate numericamente (ad es. Altezza e peso). Questo particolare tipo di analisi è utile quando si vuole stabilire se ci sono possibili connessioni tra variabili.
In genere, se si trova una correlazione tra due variabili significa che quando c’è una variazione sistematica in una variabile, c’è anche una variazione sistematica nell’altra; le variabili cambiano insieme per un certo periodo di tempo.
In questo articolo vediamo come calcolare tra due variabili, il coefficiente di correlazione in Excel, per poi concludere con la creazione di una matrice di correlazione nel caso in cui le variabili da analizzare siano più di due. Prima accenniamo ai tipi di correlazione.
Correlazione Pearson
Una correlazione molto diffusa è quella di Pearson, per misurare il grado della relazione tra variabili linearmente correlate. In questo caso la correlazione tra le variabili può assumere un valore incluso nell’intervallo -1 e +1.
Un coefficiente di correlazione pari a 1 indica che per ogni aumento positivo di una variabile, vi è un aumento positivo di una proporzione fissa nell’altra. Ad esempio, le misure delle scarpe salgono in (quasi) perfetta correlazione con la lunghezza del piede.
Un coefficiente di correlazione di -1 significa che per ogni aumento positivo di una variabile, vi è una diminuzione negativa di una proporzione fissa nell’altra. Ad esempio, la quantità di gas in un serbatoio diminuisce in (quasi) perfetta correlazione con la velocità.
Zero significa che per ogni aumento non c’è un aumento positivo o negativo. Le due variabili quindi non sono collegate.
La formula per il calcolo del coefficiente di correlazione di Pearson è la seguente:
Tipi di correlazione
Oltre alla correlazione Pearson ne esistono anche altre. Vediamo le più diffuse, prima di vedere come calcolarla facilmente in Excel.
Kendall: La correlazione del rango di Kendall è un test non parametrico che misura la forza della dipendenza tra due variabili. Se consideriamo due campioni, a e b, dove ogni dimensione del campione è n, sappiamo che il numero totale di accoppiamenti con una b è n (n-1) / 2. La seguente formula viene utilizzata per calcolare il valore della correlazione del rango di Kendall:
Con,
Nc = numero di concordanti
Nd = Numero di discordanti
Per maggiori informazioni puoi visitare la pagina di wikipedia qua.
Correlazione del rango di Spearman: la correlazione del rango di Spearman è un test non parametrico che viene utilizzato per misurare il grado di associazione tra due variabili. Il test di correlazione del rango di Spearman non contiene alcuna ipotesi sulla distribuzione dei dati ed è l’analisi di correlazione appropriata quando le variabili sono misurate su una scala almeno ordinale. La formula per ottenere questo tipo di correlazione è la seguente:
Maggiori informazioni su il coefficiente di correlazione per ranghi di Spearman vedi questo link.
Relazione tra due variabili utilizzando il coefficiente di correlazione in Excel
Ipotizziamo di voler analizzare l’andamento delle vendite di una gelateria a seconda della temperatura. Partiamo avendo a disposizione i seguenti dati:
Per farlo puoi fare in due modi:
- Tramite formula;
- Tramite il pacchetto di analisi dati.
Nel primo caso, se vuoi utilizzare la formula, basta che digiti =Correlazione(A2:A13; B2:B13) (per l’esempio proposto), e troveremo subito il risultato:
Nell’immagine sopra non vediamo i valori indicati nella formula perché precedentemente si era creata una tabella, come mostrato nel seguente articolo. In questo modo aggiungendo dei valori, in automatico il coefficiente di correlazione in Excel viene aggiornato automaticamente senza dover riinserire la formula.
Per applicare il secondo metodo, a mio avviso più esaustivo, andiamo nel menu Dati, e selezioniamo Analisi dati.
Dal menu a tendina che comparirà scegliamo Correlazione:
Comparirà una form come la seguente:
Indichiamo prima di tutto l’intervallo di input, ossia i dati da dove Excel calcolerà la correlazione. Nel nostro esempio vanno da A1 a B13.
Dopodichè indichiamo un intervallo di output dove andremo a definire dove vogliamo comparirà il risultato della correlazione.
Poi volendo possiamo spuntare il check “Etichette nella prima riga”. Se fossimo partiti da A2, non era necessario spuntare tale valore.
Una volta compilati questi campi si può cliccare su ok. Avremo come risultato:
Tra le due variabili abbiamo una buona relazione, pari a 0,96.
Se poi vogliamo vedere graficamente tale risultato non ci resta che creare un grafico a dispersione. Per farlo seleziona i valori della tabella ($A1:B13), e clicca su grafici consigliati nel menu Inserisci:
Dovrebbe già mostrarti tra le opzioni il grafico a dispersione:
Cliccando su ok otterrai il grafico:
Matrice di correlazione
Quando dobbiamo analizzare più di due variabili, per valutare se sono strettamente correlate tra di loro, possiamo utilizzare la matrice di correlazione.
Una matrice di correlazione è una tabella che mostra i coefficienti di correlazione tra le varie variabili. Ogni cella nella tabella mostra la correlazione tra due variabili.
Questa matrice viene utilizzata come modo per riepilogare i dati, come input per un’analisi più avanzata e come diagnostica per analisi avanzate.
Tipicamente, una matrice di correlazione è “quadrata“, con le stesse variabili mostrate nelle righe e nelle colonne.
Nella diagonale (detta principale) troviamo una linea di 1 che va dall’alto, in alto a sinistra, in basso a destra poichè ogni variabile è sempre perfettamente correlata con sè stessa.
Inoltre la matrice di correlazione è simmetrica, con la stessa correlazione mostrata sopra la diagonale principale essendo un’immagine speculare di quelle sotto la diagonale principale.
Matrice di correlazione in Excel
Vediamo un esempio per capirci meglio. Usiamo i dati mostrati nell’esempio precedente, ipotizzando di voler calcolare il coefficiente di correlazione anche tenendo conto della variabile umidità.
Procediamo come abbiamo visto poco fa, dal metodo 2. Andiamo nel menu Dati, e selezioniamo Analisi dati.
Dal menu a tendina che comparirà scegliamo Correlazione:
Comparirà una form come la seguente:
Indichiamo prima di tutto l’intervallo di input, ossia i dati da dove Excel calcolerà la correlazione. Nel nostro esempio vanno da A1 a C13.
Dopodichè indichiamo un intervallo di output dove andremo a definire dove vogliamo comparirà il risultato della correlazione.
Poi volendo possiamo spuntare il check “Etichette nella prima riga”. Se fossimo partiti da A2, non era necessario spuntare tale valore.
Diamo ok, e otteniamo il seguente risultato:
Tra le due variabili temperatura e vendita gelato, il risultato non è cambiato.
Quello che possiamo notare è la relazione delle due variabili con l’umidità. Abbiamo una buona relazione di correlazione, pari all’83% tra umidità e vendita gelati, mentre tale relazione scende al 76% qualora la relazione venga valutata con la temperatura.
Se vuoi scaricare il file di Esempio clicca su questo link. Sotto invece puoi vedere il video che riassume l’esempio proposto.
Conclusione
In questo articolo abbiamo visto come calcolare il coefficiente di correlazione in Excel per valutare la relazione tra due variabili.
Qualora le variabili da studiare fossero più di due, seguendo la stessa procedura vista per il calcolo del coefficiente di correlazione, si crea la matrice di correlazione.
Per ogni variabile, determinerà un valore di relazione compreso tra -1 e +1 che stimerà la relazione tra le variabili in esame.
Importante tenere a mente, quando si esegue un’analisi di correlazione, di non fraintendere che le variabili in studio siano legate da una relazione causa-effetto.
Questo spesso non è il caso perché ci potrebbero essere altre variabili che non sono presenti nella ricerca e che potrebbero aver influito sui risultati.