Skip to main content

Credo di non sbagliare se affermo che le nozioni di statistica in possesso della stragrande maggioranza degli italiani non vadano oltre l’acuta osservazione del grande poeta romanesco: se tu mangi un pollo ed io no, in termini statistici possiamo affermare che abbiamo mangiato mezzo pollo a testa, anche se a me, per esempio, il pollo non piace proprio. Detta così è la sacrosanta denuncia di un imbroglio, spesso tentato per turlupinare chi ha di meno e convincerlo di essere parte di un mondo di cui invece al massimo può percepire solo vaghi e distanti bagliori. D’altra parte la media aritmetica (tanti polli diviso tante persone) è il solo modo, necessariamente approssimativo, per esprimere con un unico numero la sintesi di una realtà molto più complessa. Se devo stabilire se in Italia si consumino più o meno polli pro capite che in Germania il consumo medio è probabilmente lo strumento più adeguato. Il problema quindi non è il numero, ma l’uso che se ne fa.
Per avere un’immagine più completa e realistica ho però bisogno di possedere altre informazioni. Se associo al consumo di polli il reddito delle persone, svelo immediatamente ogni possibile imbroglio, perché risulterà chiaro che il consumo è funzione della condizione economica; solo che al posto di un unico numero ne avrò una serie di lunghezza uguale al numero di classi di reddito considerate. Volendo poi tenere conto di un altro fattore, per capire ad esempio nelle diverse fasce di reddito come varia il consumo con al variare dell’età delle persone, il numero di dati che devo calcolare aumenta. Non basta più un elenco di numeri, ma serve una tabella, ad esempio con le classi di reddito sulle righe e quelle di età sulle colonne, che contiene N X M valori (dove N indica il numero delle classi di reddito e M quello delle classi di età. Volessi aggiungere un altro parametro, ad esempio il sesso, avrei bisogno di un’ulteriore dimensione, ottenendo così una specie di cubo e così via. Superate le tre dimensioni gli esempi geometrici risultano ostici, ma si può andare avanti a piacimento.
In sostanza, più la mia conoscenza della realtà vuole essere precisa, tanto più grande è il numero di dati che mi occorrono per rappresentarla. Non c’è niente da fare. Si consiglia pertanto di diffidare a priori di chiunque cerchi di convincerci di qualsiasi cosa relativa a fenomeni di un certa complessità esclusivamente esibendo quattro numeri.
C’è poi un altro problema, sul quale nemmeno Trilussa ci può aiutare: come si fa infatti a procurarsi tutti i dati che servono? Per alcuni, tipo quelli anagrafici ed economici, è relativamente semplice perché esistono organismi pubblici, nazionali ed europei come ad esempio l’Istat o Eurostat, che hanno il compito di calcolarli con una certa periodicità. La loro natura pubblica rappresenta, fino a prova contraria, un indice di affidabilità in quanto ad accuratezza ed assenza di forzature. Occorrerà semmai approfondire bene il significato preciso di ciascun dato, che spesso è riconducibile a definizioni standard a volte di difficile comprensione per i non specialisti. Il rischio altrimenti è quello di usare dei numeri corretti che però descrivono un fenomeno in parte diverso da quello a cui si è interessati. Volendo essere pignoli, ma a volte è necessario, bisognerebbe sempre cercare di capire con quali metodologie sono stati calcolati e partendo da quali fonti primarie.
Se le informazioni che servono non sono state calcolate da nessun ente affidabile bisogna procurarsele in qualche altro modo. Il metodo più semplice è quello di chiedere l’informazione desiderata a tutti diretti interessati; portando così a termine un’indagine di tipo esaustivo. La cosa, come si può ben immaginare, funziona solo se il numero di persone coinvolte è piccolo e se il richiedente ha, per qualsiasi motivo, buone probabilità di ricevere una risposta. In tutti gli altri casi questo metodo risulta impraticabile.
Esistono a tale proposito due tipi di approcci, il primo prevede l’utilizzo di metodi a campione e l’altro, disponibile solo da pochissimo, consente di ricavare le informazioni desiderate, rigorosamente in forma anonima, dai dati raccolti per altri scopi da soggetti quali, ad esempio, gli operatori telefonici, i gestori di catene della grande distribuzione, le aziende ferroviarie, le compagnie aeree, ecc. Lavorando su grandi moli di dati è a volte possibile ricavare alcune informazioni, che pure non sono direttamente disponibili, in via totalmente induttiva, associandole alla presenza di marcatori caratteristici che sono invece noti. Ovviamente in questo caso la qualità dei dati ottenuti è intrinsecamente più bassa di quella che si avrebbe con una misura diretta. Questi metodi, per poter essere utilizzati in modo lecito, devono lavorare su dati che non siano riconducibili a persone fisiche identificabili: il garante della privacy ha il compito di vigilare su questo delicatissimo aspetto.
Sui campioni ci sarebbe tantissimo da dire. Basti solo osservare che la definizione stessa di campione è al limite contraddittoria. Un campione è infatti “buono” se è rappresentativo di una determinata realtà e consente perciò di misurarne indirettamente qualche caratteristica sconosciuta. E’ evidente che questa rappresentatività non può essere direttamente verificata a priori: se lo fosse conoscerei infatti anche la caratteristica che mi interessa. A definire campioni che siano ragionevolmente utilizzabili si arriva perciò attraverso qualche calcolo statistico che aiuta a capirne la dimensione minima e, soprattutto, molta esperienza specifica. Naturalmente, dato che la bontà effettiva di un campione, che vuol dire in pratica verificare che la caratteristica che mi interessa misurare sia legata nel modo ipotizzato alle altre note che sono state utilizzate per la sua composizione, può essere accertata solo a posteriori, spesso capita che in presenza di importanti cambiamenti di ordine sociale, fatti eclatanti che abbiano inciso sulle convinzioni consolidate delle persone, ecc., le regole fin lì utilizzate per il suo confezionamento risultino essere sbagliate. Il tormentone di ogni elezione fra previsioni, exit poll e proiezioni ne è la prova inconfutabile.
Anche qui, di conseguenza, meglio diffidare di chi si presenta armato da sfilze di cifre sostenute da pochi e confusi (o troppo semplificati) ragionamenti. I dati sono utili solo se si possiede una sufficiente conoscenza di un argomento, che consenta di comprenderne il significato.
Al termine di questo elenco di considerazioni senz’altro banali per molti un piccolo aneddoto. L’altro giorno, 13 ottobre 2014, due dei quattro computer fissi che ho a casa hanno smesso di funzionare quasi in contemporanea: uno si è bloccato, senza volerne sapere di ripartire, l’altro rifiutava di accendersi, nonostante funzionasse benissimo fino a qualche giorno prima. La probabilità di un evento del genere, uguale al prodotto delle probabilità di guasto di ogni singolo computer (diciamo una volta ogni 2 anni), è talmente bassa da far pensare ad un’azione intenzionale da parte di qualcuno che mi vuole male (cioè ad un complotto), agli effetti collaterali dell’attività di un potere forte che se ne frega dei danni provocati (una sovratensione nella rete elettrica Enel) o ad un segnale sovrannaturale (l’effetto di un fulmine, di quelli con l’indirizzo del destinatario). Dopo le opportune verifiche e riparazioni è risultato che non si trattava di nulla di tutto questo: due banalissimi guasti fra loro del tutto indipendenti. Come a dire: non è vero che a pensar male si indovina sempre. E’ solo una questione di probabilità.

sostieni periscopio

Sostieni periscopio!

tag:

Raffaele Mosca



Chi volesse chiedere informazioni sul nuovo progetto editoriale, può scrivere a: direttore@periscopionline.it