
Secondo uno studio di febbraio 2018, l’International Data Group (IDG) ha intervistato 186 leader IT di vari settori scoprendo che il 47% di essi pianifica di aumentare la spesa per l’analisi predittiva nel 2018.
Sarà un caso?! Secondo me no.
In un’epoca di social media e di economia digitale, le informazioni possono viaggiare in tutto il mondo in pochi secondi e i desideri delle persone possono cambiare molto velocemente.
In questo ambiente frenetico, cercare di capire le esigenze di potenziali clienti risulta indispensabile per le aziende al fine di anticipare i loro bisogni e superare la concorrenza.
Tramite l’analisi predittiva, ad esempio, Netflix scopre quali film gli spettatori potranno apprezzare e Amazon prevede che cosa comprerà un cliente, arrivando addirittura a brevettare la “spedizione anticipata”, che consegnerebbe i pacchi a una regione geografica prima che un cliente li acquisti effettivamente.
Vediamo più in dettaglio di cosa si tratta tale metodologia.
Cos’è l’analisi predittiva?
Si può considerare l’analisi predittiva come
“la pratica di estrarre informazioni da set di dati esistenti al fine di determinare i modelli e prevedere i risultati e le tendenze future”
Il termine è stato utilizzato la prima volta da Matt Cutler nel 2003, dal desiderio di trasformare i dati grezzi in informazioni utili che potessero essere utilizzate non solo per comprendere i modelli e le tendenze del passato, ma anche per prevedere con precisione i risultati futuri.
L’analisi predittiva è strettamente legata al data mining e all’apprendimento automatico, poiché utilizza modelli di dati per fare previsioni, dove le macchine acquisiscono informazioni storiche e attuali e le applicano a un modello predittivo.
Tale modello non ti dice cosa accadrà in futuro. Nessuno esattamente sa cosa accadrà domani, o fra una settimana.
Piuttosto afferma che un certo evento ha una certa probabilità di accadere. E ciò dipende dalle variabili che influenzano il problema analizzato.
Maggiore è l’accuratezza del modello utilizzato dall’analisi predittiva, e maggiore è la probabilità che un determinato evento accada nell’immediato futuro.
Per questo motivo, l’analisi predittiva implica la ricerca di relazioni significative tra le variabili e la rappresentazione di tali relazioni nei modelli.
Le variabili che vengono analizzate si possono distinguere in:
- variabili di risposta, che indicano cose che stiamo cercando di prevedere.
- variabili esplicative o predittori, che indicano cose che osserviamo, manipoliamo o controlliamo e che potrebbero riguardare la risposta.
Dopo aver visto l’importanza delle variabili e del modello predittivo per l’analisi predittiva, vediamo ora che essa può essere considerata:
- in base al tipo di approccio all’analisi che viene utilizzato;
- in base alla risposta che viene fornita a chi effettua l’analisi.
Approcci all’analisi predittiva
Secondo Thomas W. Miller, autore del libro Modeling Techniques in Predictive Analytics, esistono essenzialmente tre approcci generali alla ricerca e alla modellazione impiegati nell’analisi predittiva:
1) Approccio tradizionale: esso prevede di definire una teoria o un modello specifico, che si basa su metodi statistici, come la regressione lineare e la regressione logistica. La costruzione del modello comporta l’adattamento ai dati e il loro controllo con la diagnostica. Tali modelli vengono poi convalidati prima dell’utilizzo.

I metodi di adattamento dei dati si adattano ai dati disponibili, rappresentando relazioni non lineari e interazioni tra variabili. I dati poi determinano il modello. Come con i modelli tradizionali, si convalidano i modelli adattativi dei dati prima di utilizzarli per fare previsioni.
3) Approccio modello-dipendente: La ricerca modello-dipendente è il terzo approccio. Inizia con la specificazione di un modello e utilizza tale modello per generare dati, previsioni o raccomandazioni.
Quando si utilizza un approccio di questo tipo, i modelli vengono migliorati confrontando i dati generati con i dati reali. Ci si chiede se consumatori, aziende e mercati simulati si comportano come veri consumatori, aziende e mercati. Il confronto con dati reali serve come forma di convalida.
Simulazioni, metodi di programmazione matematica e strumenti primari di ricerca operativa, sono esempi di ricerca dipendente dal modello.
Quale approccio è il migliore?
Non esiste una risposta giusta e univoca. Le analisi mostrano che quello che funziona meglio è una combinazione di modelli e metodi.
Ad esempio, prendi in considerazione un’applicazione dal campo della ricerca finanziaria: il gestore di un fondo comune che cerca titoli aggiuntivi per il portafoglio di un fondo.
Quest’ultimo assume un ingegnere finanziario che impiega un modello adattativo ai dati (una rete neurale, ad esempio) per cercare tra migliaia di indicatori di performance e titoli, identificando un sottoinsieme di titoli per ulteriori analisi.
Quindi, lavorando con questo sottoinsieme di azioni, l’ingegnere finanziario impiega un approccio basato sulla teoria (CAPM, il modello di capital asset pricing) per identificare una serie più piccola di azioni da raccomandare al gestore del fondo.
Come fase finale, utilizzando la ricerca dipendente dal modello (programmazione matematica), l’ingegnere identifica l’investimento di capitale a rischio minimo per ciascuno degli stock nel portafoglio.
Nel libro sono riportati altri esempi di business, cui l’analisi predittiva aiuta nel prendere decisioni strategiche.
Risposta dell’analisi predittiva
L’analisi predittiva permette di dare una risposta alla previsione che si decide di effettuare. In particolare, esistono risposte che:
A) rispondono alla domanda “Quanto” con una variabile numerica. In questi casi si riferisce a metodi di regressione, che ci aiutano a prevedere una risposta con una grandezza significativa, come la quantità venduta (esempio: Quanto vale il prezzo delle azioni x fra un mese? Quant’è il ritorno dell’investimento dell’investimento y fra un anno?).
B) rispondono alla domanda “Quale” con una variabile categoriale. In questo caso ci si riferisce a metodi di classificazione (esempio: Quale marca sarà acquistata? Quale transazione bancaria è fraudolenta?)
La qualità delle risposte ottenute dall’analisi dipende certamente dai dati a disposizione, ma soprattutto dal tipo di modello predittivo utilizzato.
Per questo motivo, voglio mostrare quali sono i passaggi fondamentali per la creazione di un modello predittivo.
Step per la costruzione di un modello predittivo
La creazione di un modello predittivo richiede un alto livello di competenza dei metodi statistici.
Di conseguenza, è tipicamente il dominio di scienziati di dati, statistici e altri analisti di dati qualificati. Questi ultimi sono supportati da ingegneri informatici, che aiutano a raccogliere dati rilevanti e prepararli per l’analisi, e da sviluppatori di software e analisti aziendali, che aiutano nella visualizzazione di dati, cruscotti e report.
Chi si occupa di costruire un modello predittivo segue le seguenti fasi:
1) Definizione del progetto: Prima attività necessaria è la comprensione dei bisogni, delle priorità, dei desideri e delle risorse dell’organizzazione, al fine di definire l’obiettivo che l’analisi predittiva deve raggiungere stimando i costi necessari all’implementazione e le correlate tempistiche;
2) Preparazione dei dati: occorre ricavare tutti i dati utili in modo che siano pronti per essere utilizzati successivamente nell’analisi. Nell’analisi predittiva, i dati vengono raccolti, puliti e spesso affettati e tagliati in modo tale da essere pronti per essere utilizzati in una fase analitica successiva.
3) Costruzione del modello: in questo step vengono identificate le variabili chiave che permettono di predire gli eventi di interesse. Oltre a questo si deve definire l’algoritmo più adatto all’analisi (ad esempio, algoritmo di regressione o di classificazione).
Questo è il cuore dell’analisi predittiva. La creazione del modello giusto con le giuste variabili predittive richiederà la maggior parte del tempo e delle energie. Ha bisogno di tanta esperienza quanto di creatività. E non c’è mai una soluzione esatta o migliore. È un compito iterativo ed è necessario ottimizzare il modello di previsione più e più volte.
Sebbene possa essere allettante pensare che con l’avvento dei big data, i modelli predittivi saranno più accurati, la statistica mostra che dopo un certo punto, l’inserimento di più dati in un modello di analisi predittiva non fornirà risultati più accurati.
L’analisi di parti rappresentative delle informazioni disponibili (campionamento) può aiutare a velocizzare i tempi di sviluppo dei modelli e consentire loro di essere implementati più rapidamente.
4) Validazione del modello: devono essere effettuati dei test per validare il modello appena creato e costruito. A seconda del modello creato si utilizzano strumenti di validazione differenti (es. analisi dei residui, intervallo di confidenza, per un modello di regressione oppure test di accuratezza come l’f1 score per quello di classificazione).
5) Utilizzo del modello: il modello viene utilizzato per lo scopo per cui è stato creato, e aggiornato con l’inserimento di dati anche in tempo reale.
Vediamo ora i principali settori di applicazione dell’analisi predittiva e i benefici che essi possono portare.
Settori di interesse
Sempre più imprese stanno iniziando ad adottare l’analisi predittiva.
Il marketing, i servizi finanziari e le compagnie assicurative sono stati tra i principali promotori dell’analisi predittiva, così come i grandi motori di ricerca e i fornitori di servizi online. L’analisi predittiva è anche comunemente usata in settori come l’assistenza sanitaria, la vendita al dettaglio e la produzione.
Le applicazioni aziendali per l’analisi predittiva includono:
- il targeting di annunci pubblicitari online;
- l’identificazione di clienti che stanno abbandonando un servizio o un prodotto;
- l’invio di campagne di marketing ai clienti che sono indecisi all’acquisto;
- il miglioramento dell’assistenza clienti;
- l’analisi del comportamento dei clienti per determinare i modelli di acquisto;
- la segnalazione di transazioni finanziarie potenzialmente fraudolente;
- l’identificazione di pazienti a rischio di sviluppare particolari condizioni mediche;
- il rilevamento di guasti imminenti di componenti in apparecchiature industriali prima che si verifichino.
Queste applicazioni consentono di creare una tangibile riduzione dei costi e/o un incremento dei ricavi, grazie in particolare ad una migliore allocazione delle risorse o ad una più rapida identificazione di problemi (quali ad esempio comportamenti fraudolenti o guasti a macchinari).
L’analisi predittiva può fornire ai manager e dirigenti strumenti decisionali per influenzare le previsioni di fatturato, l’ottimizzazione della produzione e persino lo sviluppo di nuovi prodotti. Però, anche se utile, non è adatta a tutti.
Limiti dell’analisi predittiva
Molti data scientist che si trovano a lavorare con modelli predittivi hanno affermato che i principali limiti dell’analisi predittiva sono i seguenti:
– I modelli perdono affidabilità al passare del tempo: Se il modello è stato creato diversi anni fa, potrebbe non prevedere più accuratamente il comportamento corrente delle variabili analizzate.
Maggiore è il tempo trascorso, maggiore è la probabilità che il comportamento di ciò che si sta analizzando sia cambiato.
Alcuni modelli predittivi di Netflix, ad esempio, che sono stati creati sui primi utenti di internet, sono stati ritirati perché gli utenti internet successivi erano sostanzialmente diversi. I pionieri erano più focalizzati sul piano tecnico e relativamente giovani; gli utenti di oggi sono essenzialmente tutti, anche i più anziani e senza competenze tecniche.
– Richiedono una concentrazione mentale tremenda per il corretto funzionamento: questo per il semplice fatto che un minimo errore di distrazione potrebbe causare l’inaffidabilità del modello come la dimenticanza o l’interpretazione errata di una variabile chiave nel modello.
L’esempio grandioso e spaventoso è la crisi finanziaria partita dagli Stati Uniti nel 2008, causata in gran parte da modelli invalidi che prevedevano come i clienti ipotecari avrebbero potuto ripagare i loro prestiti.
I modelli non includevano la possibilità che i prezzi delle case potessero smettere di salire e persino che potessero crollare. Quando hanno iniziato a scendere, si è scoperto che i modelli sono diventati poveri predittori del rimborso del mutuo.
In sostanza, il fatto che i prezzi delle case sarebbero sempre aumentati era un’ipotesi nascosta nei modelli.
– Non sono adatti a tutti i settori: mentre una buona comprensione di analisi predittiva può consentire al data scientist di fare accurate previsioni di business, questa scienza non è all’altezza delle aspettative quando si tratta di politica.
Dopo quanto successo nel marzo 2018 con la vicenda Facebook e Cambridge Analytica, si potrebbe pensare al contrario di quanto appena detto.
Le opinioni sono tante: di fatto, però, non c’è la certezza scientifica che i dati analizzati dalla Cambridge Analytica abbiamo spostato gli equilibri delle elezioni a favore del presidente americano Trump. Se vuoi sapere meglio cosa è successo in questo dibattito, ti consiglio la visione di questo video.
La possibilità di predire il corso imminente di azioni o eventi studiando i dati storici è un enorme vantaggio e le tecnologie di intelligenza artificiale hanno sicuramente la capacità di potenziare il potere della Data Science, e conseguentemente dell’economia, nei prossimi anni.