Un asino e un fagiano
Usa le
statistiche come un ubriaco usa i lampioni:
più come sostegno che come illuminazione.
Ehi, amico. Che faccia
scura. Vai a un funerale?
Non parlarmene. Può darsi che io vada proprio al mio!
Spiegati. Non farmi
stare in ansia.
Ti ricordi quando, l’anno scorso, cercando i funghi, sono
caduto nella scarpata?
E sei stato fortunato. Quel
taglio dell’arteria poteva esserti fatale.
Quando mi hanno
portato all’ospedale hanno dovuto ricucire un po’ e hanno pensato bene di farmi
una trasfusione.
Un bel rabbocco, per
evitare guai peggiori e rimetterti in piedi. Ma cosa c’entra col funerale?
Ecco: ieri sono andato a fare il mio solito check-up, per
vedere se tutto è a posto ¾ sai, la prevenzione ¾ e tra i vari test mi hanno fatto quello dell’Hiv.
E sono positivo! Capisci? Con tutta probabilità, la trasfusione
mi ha infettato. Sono sieropositivo, morirò di Aids!
E non mi lasciano molte speranze: il medico dice che il
test sbaglia una volta sola su 100.
Sta’ attento a giocare
con le probabilità. Intanto, sono anni che il plasma per le trasfusioni viene
controllato, e quindi mi sentirei di escludere la tua ipotesi. Secondo logica,
pertanto, puoi stare tranquillo.
Non capisco
quel “pertanto” e neppure quel “secondo logica”. Il test non sbaglia quasi mai.
Vediamo: sulla base
delle statistiche più aggiornate, i sieropositivi veri a causa di trasfusioni
non sono tanti, diciamo 1 su 10.000, tanto per fissare un ordine di grandezza.
E io sono
proprio uno di questi. Maledizione.
Aspetta: il test ¾ l’hai
detto tu ¾ sbaglia una volta su 100. Quindi, se prendiamo 10.000 persone scelte a
caso e le sottoponiamo al test, accadrà che 1/100 di queste, cioè 100 in
totale, risulteranno sieropositive, senza esserlo.
Ma noi sappiamo che solo
una (su 10.000) lo è veramente. E si spera che questa sia correttamente identificata
dal test, così che possa curarsi.
Capisco dove
vuoi arrivare: il test identifica 101 persone su 10.000, delle quali solo 1 è
malata davvero. Le altre 100 sono falsi positivi, sono errori.
E quindi, secondo
logica, la probabilità che uno di quei 101 identificati dal test sia davvero
infetto è solo di 1 su 100.
Adesso mi sento un po’ meglio, ma 1 su
100 mi fa ancora paura. Cosa posso fare per togliermi il dubbio?
Per toglierti ogni dubbio,
puoi solo rifare il test. C’è una probabilità su 100 che il test sbagli ancora,
però il margine di errore si riduce a 1/(100 x 100) = 1 su 10.000. Rifacendo il
test una terza volta, l’errore si riduce a 1/(100 x 100 x 100) = 1 su
1.000.000.
Non preoccuparti più
delle trasfusioni. Vedrai che andrà tutto bene. Piuttosto, preoccupati dei
computer, tu che sei appassionato di internet.
Che cosa c’entrano i computer? I virus
informatici che circolano su internet possono infettare anche me?
I computer c’entrano,
eccome. Ho visto le statistiche sulla diffusione dell’Aids, a partire dal 1985.
E ho anche letto un articolo che parlava della diffusione dei personal computer
negli stessi anni.
Entrambi gli articoli
erano corredati da grafici, molto simili tra loro, come questo:
Numero |
|
Cosa significa questo grafico?
Significa che, per
entrambi i fenomeni, la diffusione dai casi parte piano piano, in sordina. Poi
il fenomeno esplode ¾ e la linea comincia ad assumere un andamento quasi verticale ¾ per
poi rallentare e curvarsi lentamente, lasciando pensare a un limite superiore.
Ma conta non tanto il numero dei casi ¾
di malati e di PC ¾
quanto il fatto che i grafici dell’andamento nel tempo dei due fenomeni si
assomigliano. I due fenomeni viaggiano a braccetto.
Capisco. C’è una correlazione, un rapporto di
causa-effetto tra l’andamento delle infezioni e il numero di PC in
circolazione.
E io ne ho appena comprato uno nuovo! Càpitano tutte a
me!
Ah ah, ci sei cascato. Il fatto che due
fenomeni presentino, nel tempo, valori paralleli, può essere un indizio, ma non
una prova, dell’esistenza di un rapporto di causa-effetto. In statistica esiste
il concetto di “correlazione spuria”, cioè apparente, ossia falsa.
Due fenomeni possono benissimo essere
governati dalla stessa legge di sviluppo ed essere semplicemente contemporanei,
senza influenzarsi.
Per attestarne la correlazione vera, cioè
un rapporto reale di causa-effetto, è necessario effettuare ulteriori indagini,
per escludere casualità di questo tipo.
Il grafico che abbiamo appena visto
mostra una curva a “S”, detta “logistica”, che è caratteristica della legge di
sviluppo delle popolazioni. Popolazioni di qualsiasi genere, vendite di automobili,
virus, ninfee in un stagno, sottoscrizioni di fondi d’investimento, batteri in
un fermentatore, si comportano, più o meno, in questo modo.
Se si confrontano due popolazioni
qualsiasi, nel tempo, è molto probabile riscontrarne livelli molto elevati di
correlazione, calcolabile statisticamente.
Ma poi l’indagine deve proseguire. Non
sempre vale il motto post hoc, propter
hoc.
Che
razza di scherzo! Ma io sono contento lo stesso. Me la sono cavata. Però
parlami ancora della curva logistica.
È la curva della vita. È una curva
importantissima, fondamentale per lo studio dei sistemi biologici, ma ha anche
applicazioni finanziarie e commerciali di tutto rilievo.
È stata studiata da Vito Volterra negli
anni venti del secolo scorso.
In parole molto semplici, l’andamento a
“S”, prima quasi orizzontale con movimento tranquillo, poi violentemente
accelerato in verticale, quindi in rallentamento fino a raggiungere un valore
massimo, esprime bene la virulenza del fenomeno nascente che viene via via
contrastato da forze contrarie esistenti nell’ambiente, fino a raggiungere un
livello di equilibrio tra la vitalità del fenomeno e la smania dell’ambiente di
riprendersi il suo prestito di risorse.
Aspetta.
Anch’io ho letto di uno scherzo simile: pare che nei paesi industrializzati il
calo delle nascite sia ben correlato al calo del numero delle cicogne. È quindi
vero che sono le cicogne che portano i bambini!
E io ti faccio un esempio di indagine
successiva sull’esistenza di una causa comune ai due fenomeni. Si sa che i
paesi industrializzati sono caratterizzati da un livello di benessere e da
abitudini che portano a ridurre il numero di bambini, ma anche da un degrado
ambientale che porta ad allontanare le cicogne.
Quindi un certo rapporto di causa-effetto
si può anche intravedere.
Ma allora? Allora non può darsi che
computer e Aids siano davvero correlati in qualche modo? Non sono più tanto
tranquillo. Adesso vado in chiesa e accendo un cero al mio santo.
Ottima idea, se può
calmarti. Però sta’ attento: il numero di aggressioni, rapine e omicidi nelle
città è correlato al numero delle chiese.
Stavolta non m’imbrogli. È
logico che sia così. Ormai ho capito. Numero di delitti e numero di chiese sono
entrambi correlati al numero di abitanti. L’aumento del numero degli abitanti
causa l’aumento sia dei crimini sia dei luoghi di culto, ma tra questi ultimi
non c’è un rapporto diretto.
Bravissimo.
Come diceva Leonardo, tristo è quell’allievo che non supera il suo maestro. E
non pensare più al tuo funerale. O, se proprio vuoi pensarci, fa’ in modo che
sia un funerale con centinaia di persone in corteo.
È un altro dei tuoi scherzi.
Come potrei fare? I miei parenti sono pochi e gli amici, lo sai, li preferisco
pochi ma buoni.
Fa’
come ti dico. Devi assicurare a ogni persona che incontri che la stimi molto e
che andrai al “suo” funerale. Vedrai che, per riconoscenza, il tuo corteo sarà
lunghissimo, visto che tutti si sentiranno moralmente vincolati, anche se, in
quel momento, nessuno si chiederà come farai tu a mantenere il tuo impegno.
Sapevo che era un trucco. È un
po’ come quel tale che, avendo paura di una bomba in aereo, ne porta un’altra
con sé, visto che la probabilità che vi siano due bombe sullo stesso aereo è
infinitesima.
Vedo
che qualche trucco lo sai anche tu. A proposito di aerei. Lo sai che sono
pericolosissimi?
No, non lo so. Anzi tutte le
statistiche affermano che, in relazione ai chilometri percorsi, l’aereo è il
mezzo di trasporto più sicuro che esista. Anche del treno.
Ecco il
punto, il trucco statistico. Hai detto “in relazione ai chilometri percorsi”,
vero? Ma questo è solo uno dei modi di calcolare il rischio.
E,
perdonami, è un modo che fa molto comodo alle compagnie aeree. Si basa su un fattore
limitante e fuorviante: considerare l’aereo un mezzo di trasporto e basta.
E non va bene, così?
Sì,
quella è la sua funzione. Pertanto sembrerebbe logico prendere in
considerazione i chilometri percorsi. Poi, come se non bastasse, si moltiplica il
numero dei chilometri per il numero dei passeggeri. Ma può non essere sempre
corretto.
Consideriamo
l’aereo come un meccanismo qualsiasi, al pari di un frigorifero. Chiediamoci: è
più pericoloso l’aereo o il frigorifero?
La
domanda è legittima, ma il metodo dei chilometri non vale più. Il frigorifero
in casa non percorre più di qualche centimetro in tutta la sua vita, eppure
ogni tanto, sia pure raramente, qualcuno muore.
Possiamo
dire che, ad esempio, c’è un morto in incidenti frigoriferi ogni 3 chilometri?
Non avrebbe senso. Però sembra logico dire: c’è un morto ogni n frigoriferi. Quello che sembra logico
per i frigoriferi, perché non dovrebbe valere per gli aerei?
E allora?
Allora
bisogna trovare un altro modo di valutare la pericolosità.
Ascolta:
leggendo le statistiche degli ultimi vent’anni, si trova che, pur con grande
variabilità, in tutto il mondo ci sono stati circa 500 morti all’anno per
incidenti aerei. E gli aerei di linea, in totale, sono circa 10.000 che volano
giorno e notte, percorrendo miliardi di chilometri e migliaia di miliardi di
passeggeri/chilometro.
Ora, si
può affermare che l’aereo è un meccanismo che causa un morto all’anno ogni 20
esemplari! Non è terribile? Quale altro oggetto è così pericoloso?
Se le
automobili fossero così pericolose, i 35 milioni di veicoli circolanti in
Italia dovrebbero causare 1.750.000 morti ogni anno! Invece si “limitano” a
circa 6.000/6.500.
Tra
l’altro, sfogliando le statistiche sugli incidenti aerei, è interessante notare
che alcuni tra i più gravi sono successi a terra, mentre si muovevano
lentamente sulla pista, e le stesse compagnie aeree non fanno fatica ad
ammettere che la maggior parte delle sciagure si verifica al momento del
decollo e dell’atterraggio, non in volo. È come dire che i chilometri non
contano.
Paradossalmente,
i chilometri contano di più per le automobili, che trovano un ostacolo ogni
pochi metri. Ma contano poco o niente per gli aerei in volo, cioè proprio
mentre percorrono i loro chilometri in quasi totale assenza di ostacoli.
Tra
l’altro, cosa significa per un aereo percorrere dei chilometri? Applichiamo la
relatività galileiana: portiamo un aereo a 10 chilometri di quota e, invece di
farlo muovere rispetto alla Terra, facciamo girare la Terra sotto di lui. Che
cosa cambia? in cosa consiste il pericolo dei chilometri? il rischio è lo
stesso? o si azzera? o non esiste del tutto?
Questo ragionamento non fa una
piega, ma allo stesso tempo ho la sensazione di qualcosa che non va.
È il
bello delle statistiche e delle probabilità.
I dati
si possono elaborare in modo da seguire un filo logico che può portare ora a
conclusioni genuine ora a conclusioni che sembrano paradossali; oppure si
possono manipolare allo scopo di sostenere le ipotesi che sta a cuore
dimostrare. Bisogna sempre stare attenti. E, soprattutto, specificare sempre il
modo in cui sono usati i dati.
Qualcuno
ha detto che ci sono le menzogne, le dannate bugie e le statistiche.
Bisogna
stabilire, prima, il metodo. Non basta enunciare le conclusioni. È perfettamente
lecito affermare, ad esempio, che rispetto al tempo di esposizione, può essere
più pericoloso un aereo di un frigorifero ¾ o anche di un leone ¾ mentre rispetto ai chilometri percorsi può essere il contrario.
Per
risolvere un problema è sempre necessario impostarlo nei termini corretti. Se
non si sanno porre le domande, come si possono elaborare o capire le risposte?
Si può
allora arrivare alla conclusione che la domanda “è più pericoloso l’aereo, il
frigorifero o il leone?” è priva di senso, se non si stabilisce prima rispetto
a quale parametro: chilometri percorsi, tempo di utilizzo o numero di
esemplari. E la risposta non è sempre la stessa.
Tornando
agli incidenti stradali, la media di 6.500 morti all’anno significa circa 18
morti al giorno. Quando in un weekend (2 giorni) ci sono 36 morti, cioè il
numero “giusto”, non anomalo statisticamente, i giornali parlano di strage.
Evidentemente i 18 morti del lunedì o del giovedì non hanno lo stesso valore.
Anch’io ho un esempio di calcolo
distorto e truffaldino. Alla festa patronale c’era un contadino famoso per i
suoi salami squisiti a base di fagiano e asino.
Affermava che la sua ricetta
era: 50% fagiano e 50% asino; poi si è scoperto che nell’impasto metteva un
asino e un fagiano!
Tutto il business
procede in base a giudizi
e a
calcoli delle probabilità
e non in base a
certezze.