Come la statistica può diventare un limite per la scienza

1625
persona-stanca
Tempo di lettura: 7 minuti

La scienza si complica la vita: dovrebbe ricorrere a statistiche più sensate. Un’ analisi sui limiti dell’utilizzo dell’analisi statistica nelle scienze (compresa la medicina). Forse parte della ricerca sta sbagliando qualcosa col rischio di far deragliare migliaia di progetti di ricerca

Vi proponiamo questo articolo del dott. Irineo Cabreros, della Princeton Univeristy. Prima però qualche considerazione introduttiva da parte del prof. Alessandro Giuliani, dell’Isituto Superiore di Sanità.

Qualche considerazione su ‘La scienza si complica la vita: dovrebbe ricorrere a statistiche più sensate’

di Alessandro Giuliani

Che ci sia una crisi informativa della scienza si sapeva da lungo tempo (diciamo più o meno dalla fine degli anni novanta) ma la cosa rimaneva all’interno di conciliaboli nei corridoi o nei bar degli istituti di ricerca o nelle cene dei congressi, magari dopo qualche bicchierino d’amaro. 

Il vaso di Pandora venne scoperchiato dal dirompente articolo di John Ioannidis apparso nel 2005 sulla prestigiosa PLoS Medicine (Ioannidis, J. P. (2005). Why most published research findings are false. PLoS medicine, 2(8), e124.). Il titolo dell’articolo non lasciava molto spazio alle interpretazioni ‘Perchè gran parte dei lavori pubblicati sono falsi’ e, come da attendersi, suscitò un vespaio di reazioni più o meno deliranti da quelle moralistiche (è colpa degli scienziati disonesti) fino a quelle più forcaiole (‘allora lasciamo perdere proprio la statistica che ci ha tradito’ vedi: Giuliani, A. (2019). Put the blame on the formula: an incredible (but real) tale from the top of modern science. Organisms. Journal of Biological Sciences, 3(1), 17-19.).

Molto più responsabilmente, l’autore del pezzo si riferisce all’uso traviato di un mezzo (la significatività statistica) sviluppato per ‘vedere se vale la pena insistere’ e trasformato in sigillo di verità assoluta (e questa posizione è condivisa non solo da buona parte degli scienziati ma da gran parte della letteratura sulla crisi di riproducibilità che l’autore cita).

Però la risposta è ancora fortemente deficitaria e non soddisfa, il pensiero statistico viene ridotto solo al ‘verdetto finale del p-value’ e quindi tenuto distante da tutto il resto del processo scientifico che è molto di più e va dalla scelta della misura (o meglio delle misure che possono anche essere nell’ordine delle migliaia nel caso delle varie ‘omiche’) fino al modello di effetto che si vuole indagare (cumulativo, di interazione, a quale scala di definizione…). Insomma si lasciano inevase tutte quelle domande che definiscono cosa si intende per ‘finding’ (risultato) e che precedono la questione se sia reale o no.

Gran parte del pensiero statistico ha a che fare con tutta questa serie di elementi e implica una compenetrazione tra il contenuto della ricerca e le scelte metodologiche e non una pura ‘verifica finale’.

Alberto Sordi, a chi gli chiedeva come mai non si fosse sposato, rispondeva ‘E che mi metto una estranea in casa?’ a ben vedere il problema è tutto qui: quello che non si ha da fare è il matrimonio tra pensiero metodologico e contenuto specifico delle diverse scienze. Si preferisce una colf che spicci casa e che se ne vada a lavoro finito piuttosto che ‘mettersi in casa’ una presenza problematica, e questo nonostante un diffuso discorrere di interdisciplinarità. Fino a quando non si arriverà a una nuova integrazione tra contenuti specifici delle scienze e metodologia dell’analisi dei dati non ci muoveremo di un passo.

 

‘La scienza si complica la vita: dovrebbe ricorrere a statistiche più sensate’

Non sono un grande mago, ma ho un asso nella manica. Apro un mazzo di carte davanti a un amico e dico: “Scegli una carta, qualsiasi carta”. Subito dopo aver guardato la carta, dico: “Tre di fiori”.

Di solito, non sono i tre fiori. Il trucco non ha funzionato e facciamo una bella risata. Ma circa una volta ogni 52 tentativi, per pura fortuna, indovino. La parte più importante di questo trucco è di non ripeterlo più di una volta su una singola persona. Anche se sei abbastanza fortunato da indovinare correttamente al primo tentativo, una replica fallita interromperà l’incantesimo.

La maledizione del valore p

Partiamo dal presupposto che le scoperte scientifiche, a differenza del mio trucco con le carte, non sono il risultato del solo caso. In quanto tale, un test di base per superare le perplessità degli scienziati è che i risultati possano essere replicati più volte in repliche degli esperimenti.

Tuttavia, nell’ultimo decennio si è cresciuto il timore che tutto ciò possa essere null’altro che un castello di carte. Tradotto in modo semplice significa che molti ricercatori, o forse addirittura anche la maggior parte di loro, temono di aver pubblicato risultati scientifici falsi.

E’ la “crisi di riproducibilità” nella scienza, un timore che ha preso questa definizione a causa delle numerose dimostrazioni sul fatto che molte scoperte scientifiche non possono essere replicate, fatto che ormai è condiviso della maggioranza tra gli scienziati stessi. In uno studio condotto da Nature nel 2016, il 52% dei ricercatori intervistati ritiene che ci sia stata una “crisi significativa”, con solo il 3% che ha negato categoricamente qualsiasi crisi.

Anche se le cause dietro alla crisi di riproducibilità sono molte, maltrattare e interpretare erroneamente le prove statistiche è stato a lungo riconosciuto come una delle cause principali.

Quindi dal punto di vista degli statistici la soluzione era ovvia: una migliore educazione statistica. Ma al centro di una buona statistica c’è un profondo sospetto in ogni verità “ovvia”: tutte le ipotesi devono essere testate.

Blakeley McShane della Northwestern University e David Gal dell’Università dell’Illinois di Chicago hanno deciso di mettere alla prova questa ovvia soluzione. Se una più profonda comprensione delle statistica può davvero impedire a uno scienziato di commettere errori di giudizio, allora sicuramente gli statistici dovrebbero fare meno errori di questo tipo. Quello che invece hanno trovato è stato scoraggiante. Hanno posto a due gruppi, uno composto da statistici professionisti ed uno no, una serie di domande volte a valutare il grado in cui potrebbero essere fuorviati dal valore p, una quantità statistica molto comune nella ricerca scientifica e molto incline all’interpretazione errata. Il risultato è stato che entrambi i gruppi sono stati fuorviati in egual modo. Aggiungendo al danno la beffa, tutti gli statistici inclusi nello studio erano autori di articoli pubblicati nel prestigioso Journal of American Statistics Association, la stessa rivista in cui McShane e Gal avrebbero pubblicato i risultati di questo studio.

Questo risultato mette seri dubbi su qualsiasi soluzione alla crisi di replicabilità basata su un migliore insegnamento della statistica. Se gli statistici altamente istruiti cadono preda delle stesse fallacie statistiche dei loro colleghi non statistici, allora forse la fonte di errore statistico è molto lontana dall’essere corretta con la sola educazione. Piuttosto che l’ingenuità statistica come causa principale, lo studio sembra puntare in profondità alla psicologia umana.

“La tua scoperta è reale?”

La genesi della crisi di riproducibilità può essere fatta risalire al 1925, quando una suggestione estemporanea del gigante delle statistiche Ronald Fisher ha probabilmente alterato l’intera pratica della scienza: il valore p.

Un valore p è un numero compreso tra 0 e 1 che può essere calcolato a partire dai dati a disposizione. Fornisce alcune informazioni limitate, benché lontane da un quadro completo, sulla solidità di una scoperta. La regola empirica di Fisher diceva: se il valore p è inferiore a 0,05, il risultato è “statisticamente significativo”.

Fisher non ha mai inteso che il valore p venisse preso troppo sul serio, ma la sua regola empirica divenne presto il vangelo. Ha fornito una semplice procedura che potrebbe essere applicata a qualsiasi studio e ha permesso agli scienziati di sfumare la pelosità della sperimentazione e dare una semplice risposta “sì o no” alla domanda incredibilmente complicata, “La mia ricerca è reale?” Forse più importante per il suo fascino, il termine “statisticamente significativo” ha un rivestimento seducente di oggettività e rigore. Tutto ciò ha reso l’umile suggerimento di Fisher diffuso a macchia d’olio in quasi ogni disciplina scientifica. Il professore Jefferey Leek scherzando afferma: “Se [Fisher] fosse citato ogni volta che veniva riportato un valore p, il suo giornale avrebbe avuto, per lo meno, 3 milioni di citazioni, diventando il documento più citato di tutti i tempi.” Questo falso senso di certezza con cui i ricercatori possono categorizzare i dati come “buoni” o “cattivi”, “statisticamente significativi” o “non statisticamente significativi”, basati esclusivamente sul valore p è indicato come il problema della “dicotomia delle prove”. La procedura è simile a prendere decisioni di ammissione al college basate solo sulla parte di test psicologico di attitudine alla scuola. Certo, questo numero ti dice qualcosa sull’attitudine del candidato, ed è sicuramente meglio di niente. Ma poiché ci sarebbero a disposizione una miriade di altre informazioni come le attività extrascolastiche degli allievi, i loro risultati precedenti, la loro predisposizione al Problem solving, il test del QI, etc… sembrerebbe ridicolo prendere una decisione complessa sulla base di un singolo numero che ovviamente dà solo un parziale immagine.

Il test del gorilla

Il test realizzato da McShane e Gal ricorda in qualche modo il “test del gorilla”. Nel test viene riprodotto un breve video in cui alcuni bambini si stanno passando un pallone da basket tra di loro e il soggetto è incaricato di contare il numero di passaggi di pallacanestro che si verificano. Quando il video è finito, al soggetto viene chiesto quanti passaggi ha osservato e se ha notato qualcosa di insolito. Un soggetto tipico, nel suo sforzo di contare attentamente i passaggi di pallacanestro, perderà completamente il fatto che una persona vestita da gorilla è entrata nel video, ha ballato e se
ne è andata.

 

In modo simile, McShane e Gal hanno accecato i loro soggetti dall’ovvio distraendoli con valori p gratuiti, alcuni al di sopra della famigerata soglia 0.05 e alcuni sotto. Gli autori hanno scoperto che sia gli statistici che gli scienziati non statistici hanno reagito in modo molto diverso a seconda che il valore p fosse o meno “significativo” secondo la regola empirica di Fisher. (Ho letto anch’io le domande e sono stato ingannato come tutti gli altri.)

Secondo gli autori questo implica che la regola di Fisher è integrata così profondamente nella psiche di tutti gli scienziati – statistici o meno – che nessuna tipo di addestramento statistico può portare alla luce.

Il fatto che una persona non riesca a vedare il gorilla danzante non può essere modificato da una migliore educazione sulla natura dei gorilla o sul basket. Bisogna prendere questo limite psicologico come un fatto inevitabile della natura umana e cercare di organizzare il nostro mondo in modo tale che questo problema possa essere ridotto al minimo. Mantenendo viva la consapevolezza che gli umani sono terribili nel multitasking, allora cerchiamo di evitarlo in molte pratiche scientifiche. Del resto inviare SMS alla guida, quindi essere multitasking alla guida, è già illegale.

Già da tempo del resto gli psicologi sapevano che per studiare come funziona l’intuizione umana la statistica non serve. Non è il caso di educare una carenza innata dell’uomo, forse sarebbe meglio per gli scienziati cercare di minimizzare il numero di calcoli statistici che devono fare per capire il loro lavoro.

Questo non significa affatto che la scienza debba separarsi dalla statistica. Quello che serve sono statistiche migliori, statistiche studiate per proteggerci dal nostro intuito errato piuttosto che ingannarci.

Fonti:
Science doesn’t need to be so complicated. The answer: more sensible statistics (https://massivesci.com/articles/pvalue-science-statistics-crisis/)
Put the blame on the formula: an incredible (but real) tale from the top of modern science. Organisms. Journal of Biological Sciences, 3(1), 17-19.)
Crisi di riproducibilità nella scienza

La scienza è in crisi: i ricercatori non sanno più riprodurre e confermare molti degli esperimenti moderni

The following two tabs change content below.

Alessandro Giuliani

Nato a Roma nel 1959, è sposato e padre di due figlie. E’ Primo Ricercatore presso l’Istituto Superiore di Sanità dove si occupa di modellistica statistica e matematica dei sistemi biologici. Ha sviluppato insieme a Joe Zbilut e Chuck Webber dell’Università di Chicago, la tecnica non lineare di analisi del segnale ‘RQA’ (Recurrence Quantification Analysis). Tiene spesso corsi di metodologia statistica in Università Italiane ed Estere, è autore di più di 300 pubblicazioni su riviste internazionali ‘peer-review’ e di qualche libro di divulgazione scientifica.