Un asino e un fagiano

 

 

Usa le statistiche come un ubriaco usa i lampioni:  più come sostegno che come illuminazione.

Andrew Lang

 

 

Ehi, amico. Che faccia scura. Vai a un funerale?

 

Non parlarmene. Può darsi che io vada proprio al mio!

 

Spiegati. Non farmi stare in ansia.

 

Ti ricordi quando, l’anno scorso, cercando i funghi, sono caduto nella scarpata?

 

E sei stato fortunato. Quel taglio dell’arteria poteva esserti fatale.

 

Quando mi hanno portato all’ospedale hanno dovuto ricucire un po’ e hanno pensato bene di farmi una trasfusione.

 

Un bel rabbocco, per evitare guai peggiori e rimetterti in piedi. Ma cosa c’entra col funerale?

 

Ecco: ieri sono andato a fare il mio solito check-up, per vedere se tutto è a posto ¾ sai, la prevenzione ¾ e tra i vari test mi hanno fatto quello dell’Hiv.

E sono positivo! Capisci? Con tutta probabilità, la trasfusione mi ha infettato. Sono sieropositivo, morirò di Aids!

E non mi lasciano molte speranze: il medico dice che il test sbaglia una volta sola su 100.

 

Sta’ attento a giocare con le probabilità. Intanto, sono anni che il plasma per le trasfusioni viene controllato, e quindi mi sentirei di escludere la tua ipotesi. Secondo logica, pertanto, puoi stare tranquillo.

 

Non capisco quel “pertanto” e neppure quel “secondo logica”. Il test non sbaglia quasi mai.

 

Vediamo: sulla base delle statistiche più aggiornate, i sieropositivi veri a causa di trasfusioni non sono tanti, diciamo 1 su 10.000, tanto per fissare un ordine di grandezza.

 

E io sono proprio uno di questi. Maledizione.

 

Aspetta: il test ¾ l’hai detto tu ¾ sbaglia una volta su 100. Quindi, se prendiamo 10.000 persone scelte a caso e le sottoponiamo al test, accadrà che 1/100 di queste, cioè 100 in totale, risulteranno sieropositive, senza esserlo.

Ma noi sappiamo che solo una (su 10.000) lo è veramente. E si spera che questa sia correttamente identificata dal test, così che possa curarsi.

 

Capisco dove vuoi arrivare: il test identifica 101 persone su 10.000, delle quali solo 1 è malata davvero. Le altre 100 sono falsi positivi, sono errori.

 

E quindi, secondo logica, la probabilità che uno di quei 101 identificati dal test sia davvero infetto è solo di 1 su 100.

 

Adesso mi sento un po’ meglio, ma 1 su 100 mi fa ancora paura. Cosa posso fare per togliermi il dubbio?

 

Per toglierti ogni dubbio, puoi solo rifare il test. C’è una probabilità su 100 che il test sbagli ancora, però il margine di errore si riduce a 1/(100 x 100) = 1 su 10.000. Rifacendo il test una terza volta, l’errore si riduce a 1/(100 x 100 x 100) = 1 su 1.000.000.

Non preoccuparti più delle trasfusioni. Vedrai che andrà tutto bene. Piuttosto, preoccupati dei computer, tu che sei appassionato di internet.

 

Che cosa c’entrano i computer? I virus informatici che circolano su internet possono infettare anche me?

 

I computer c’entrano, eccome. Ho visto le statistiche sulla diffusione dell’Aids, a partire dal 1985. E ho anche letto un articolo che parlava della diffusione dei personal computer negli stessi anni.

Entrambi gli articoli erano corredati da grafici, molto simili tra loro, come questo:

 

Numero
di casi


anni

 


Cosa significa questo grafico?

 

Significa che, per entrambi i fenomeni, la diffusione dai casi parte piano piano, in sordina. Poi il fenomeno esplode ¾ e la linea comincia ad assumere un andamento quasi verticale ¾ per poi rallentare e curvarsi lentamente, lasciando pensare a un limite superiore.

Ma conta non tanto il numero dei casi ¾ di malati e di PC ¾ quanto il fatto che i grafici dell’andamento nel tempo dei due fenomeni si assomigliano. I due fenomeni viaggiano a braccetto.

 

Capisco. C’è una correlazione, un rapporto di causa-effetto tra l’andamento delle infezioni e il numero di PC in circolazione.

E io ne ho appena comprato uno nuovo! Càpitano tutte a me!

 

Ah ah, ci sei cascato. Il fatto che due fenomeni presentino, nel tempo, valori paralleli, può essere un indizio, ma non una prova, dell’esistenza di un rapporto di causa-effetto. In statistica esiste il concetto di “correlazione spuria”, cioè apparente, ossia falsa.

Due fenomeni possono benissimo essere governati dalla stessa legge di sviluppo ed essere semplicemente contemporanei, senza influenzarsi.

Per attestarne la correlazione vera, cioè un rapporto reale di causa-effetto, è necessario effettuare ulteriori indagini, per escludere casualità di questo tipo.

Il grafico che abbiamo appena visto mostra una curva a “S”, detta “logistica”, che è caratteristica della legge di sviluppo delle popolazioni. Popolazioni di qualsiasi genere, vendite di automobili, virus, ninfee in un stagno, sottoscrizioni di fondi d’investimento, batteri in un fermentatore, si comportano, più o meno, in questo modo.

Se si confrontano due popolazioni qualsiasi, nel tempo, è molto probabile riscontrarne livelli molto elevati di correlazione, calcolabile statisticamente.

Ma poi l’indagine deve proseguire. Non sempre vale il motto post hoc, propter hoc.

 

Che razza di scherzo! Ma io sono contento lo stesso. Me la sono cavata. Però parlami ancora della curva logistica.

 

È la curva della vita. È una curva importantissima, fondamentale per lo studio dei sistemi biologici, ma ha anche applicazioni finanziarie e commerciali di tutto rilievo.

È stata studiata da Vito Volterra negli anni venti del secolo scorso.

In parole molto semplici, l’andamento a “S”, prima quasi orizzontale con movimento tranquillo, poi violentemente accelerato in verticale, quindi in rallentamento fino a raggiungere un valore massimo, esprime bene la virulenza del fenomeno nascente che viene via via contrastato da forze contrarie esistenti nell’ambiente, fino a raggiungere un livello di equilibrio tra la vitalità del fenomeno e la smania dell’ambiente di riprendersi il suo prestito di risorse.

 

Aspetta. Anch’io ho letto di uno scherzo simile: pare che nei paesi industrializzati il calo delle nascite sia ben correlato al calo del numero delle cicogne. È quindi vero che sono le cicogne che portano i bambini!

 

E io ti faccio un esempio di indagine successiva sull’esistenza di una causa comune ai due fenomeni. Si sa che i paesi industrializzati sono caratterizzati da un livello di benessere e da abitudini che portano a ridurre il numero di bambini, ma anche da un degrado ambientale che porta ad allontanare le cicogne.

Quindi un certo rapporto di causa-effetto si può anche intravedere.

 

Ma allora? Allora non può darsi che computer e Aids siano davvero correlati in qualche modo? Non sono più tanto tranquillo. Adesso vado in chiesa e accendo un cero al mio santo.

 

Ottima idea, se può calmarti. Però sta’ attento: il numero di aggressioni, rapine e omicidi nelle città è correlato al numero delle chiese.

 

Stavolta non m’imbrogli. È logico che sia così. Ormai ho capito. Numero di delitti e numero di chiese sono entrambi correlati al numero di abitanti. L’aumento del numero degli abitanti causa l’aumento sia dei crimini sia dei luoghi di culto, ma tra questi ultimi non c’è un rapporto diretto.

 

Bravissimo. Come diceva Leonardo, tristo è quell’allievo che non supera il suo maestro. E non pensare più al tuo funerale. O, se proprio vuoi pensarci, fa’ in modo che sia un funerale con centinaia di persone in corteo.

 

È un altro dei tuoi scherzi. Come potrei fare? I miei parenti sono pochi e gli amici, lo sai, li preferisco pochi ma buoni.

 

Fa’ come ti dico. Devi assicurare a ogni persona che incontri che la stimi molto e che andrai al “suo” funerale. Vedrai che, per riconoscenza, il tuo corteo sarà lunghissimo, visto che tutti si sentiranno moralmente vincolati, anche se, in quel momento, nessuno si chiederà come farai tu a mantenere il tuo impegno.

 

Sapevo che era un trucco. È un po’ come quel tale che, avendo paura di una bomba in aereo, ne porta un’altra con sé, visto che la probabilità che vi siano due bombe sullo stesso aereo è infinitesima.

 

Vedo che qualche trucco lo sai anche tu. A proposito di aerei. Lo sai che sono pericolosissimi?

 

No, non lo so. Anzi tutte le statistiche affermano che, in relazione ai chilometri percorsi, l’aereo è il mezzo di trasporto più sicuro che esista. Anche del treno.

 

Ecco il punto, il trucco statistico. Hai detto “in relazione ai chilometri percorsi”, vero? Ma questo è solo uno dei modi di calcolare il rischio.

E, perdonami, è un modo che fa molto comodo alle compagnie aeree. Si basa su un fattore limitante e fuorviante: considerare l’aereo un mezzo di trasporto e basta.

 

E non va bene, così?

 

Sì, quella è la sua funzione. Pertanto sembrerebbe logico prendere in considerazione i chilometri percorsi. Poi, come se non bastasse, si moltiplica il numero dei chilometri per il numero dei passeggeri. Ma può non essere sempre corretto.

Consideriamo l’aereo come un meccanismo qualsiasi, al pari di un frigorifero. Chiediamoci: è più pericoloso l’aereo o il frigorifero?

La domanda è legittima, ma il metodo dei chilometri non vale più. Il frigorifero in casa non percorre più di qualche centimetro in tutta la sua vita, eppure ogni tanto, sia pure raramente, qualcuno muore.

Possiamo dire che, ad esempio, c’è un morto in incidenti frigoriferi ogni 3 chilometri? Non avrebbe senso. Però sembra logico dire: c’è un morto ogni n frigoriferi. Quello che sembra logico per i frigoriferi, perché non dovrebbe valere per gli aerei?

 

E allora?

 

Allora bisogna trovare un altro modo di valutare la pericolosità.

Ascolta: leggendo le statistiche degli ultimi vent’anni, si trova che, pur con grande variabilità, in tutto il mondo ci sono stati circa 500 morti all’anno per incidenti aerei. E gli aerei di linea, in totale, sono circa 10.000 che volano giorno e notte, percorrendo miliardi di chilometri e migliaia di miliardi di passeggeri/chilometro.

Ora, si può affermare che l’aereo è un meccanismo che causa un morto all’anno ogni 20 esemplari! Non è terribile? Quale altro oggetto è così pericoloso?

Se le automobili fossero così pericolose, i 35 milioni di veicoli circolanti in Italia dovrebbero causare 1.750.000 morti ogni anno! Invece si “limitano” a circa 6.000/6.500.

Tra l’altro, sfogliando le statistiche sugli incidenti aerei, è interessante notare che alcuni tra i più gravi sono successi a terra, mentre si muovevano lentamente sulla pista, e le stesse compagnie aeree non fanno fatica ad ammettere che la maggior parte delle sciagure si verifica al momento del decollo e dell’atterraggio, non in volo. È come dire che i chilometri non contano.

Paradossalmente, i chilometri contano di più per le automobili, che trovano un ostacolo ogni pochi metri. Ma contano poco o niente per gli aerei in volo, cioè proprio mentre percorrono i loro chilometri in quasi totale assenza di ostacoli.

Tra l’altro, cosa significa per un aereo percorrere dei chilometri? Applichiamo la relatività galileiana: portiamo un aereo a 10 chilometri di quota e, invece di farlo muovere rispetto alla Terra, facciamo girare la Terra sotto di lui. Che cosa cambia? in cosa consiste il pericolo dei chilometri? il rischio è lo stesso? o si azzera? o non esiste del tutto?

 

Questo ragionamento non fa una piega, ma allo stesso tempo ho la sensazione di qualcosa che non va.

 

È il bello delle statistiche e delle probabilità.

I dati si possono elaborare in modo da seguire un filo logico che può portare ora a conclusioni genuine ora a conclusioni che sembrano paradossali; oppure si possono manipolare allo scopo di sostenere le ipotesi che sta a cuore dimostrare. Bisogna sempre stare attenti. E, soprattutto, specificare sempre il modo in cui sono usati i dati.

Qualcuno ha detto che ci sono le menzogne, le dannate bugie e le statistiche.

Bisogna stabilire, prima, il metodo. Non basta enunciare le conclusioni. È perfettamente lecito affermare, ad esempio, che rispetto al tempo di esposizione, può essere più pericoloso un aereo di un frigorifero ¾ o anche di un leone ¾ mentre rispetto ai chilometri percorsi può essere il contrario.

Per risolvere un problema è sempre necessario impostarlo nei termini corretti. Se non si sanno porre le domande, come si possono elaborare o capire le risposte?

Si può allora arrivare alla conclusione che la domanda “è più pericoloso l’aereo, il frigorifero o il leone?” è priva di senso, se non si stabilisce prima rispetto a quale parametro: chilometri percorsi, tempo di utilizzo o numero di esemplari. E la risposta non è sempre la stessa.

Tornando agli incidenti stradali, la media di 6.500 morti all’anno significa circa 18 morti al giorno. Quando in un weekend (2 giorni) ci sono 36 morti, cioè il numero “giusto”, non anomalo statisticamente, i giornali parlano di strage. Evidentemente i 18 morti del lunedì o del giovedì non hanno lo stesso valore.

 

Anch’io ho un esempio di calcolo distorto e truffaldino. Alla festa patronale c’era un contadino famoso per i suoi salami squisiti a base di fagiano e asino.

Affermava che la sua ricetta era: 50% fagiano e 50% asino; poi si è scoperto che nell’impasto metteva un asino e un fagiano!

 

 

Tutto il business procede in base a giudizi

 e a  calcoli delle probabilità

e non in base a certezze.

Charles Elliot

 

Torno all’indice del Libro