Campioni e universo: cosa c'è da sapere

Nelle prime ore di lunedì 8 settembre conosceremo "esattamente" i risultati delle elezioni legislative nella provincia di Buenos Aires. Ma ci sono persone ansiose che vogliono conoscere "subito" i cognomi dei vincitori e degli sconfitti. Non fidandosi delle proprie intuizioni, consultano i sondaggisti, che basano le loro dichiarazioni su campioni. Forse per ignoranza, molto probabilmente a causa delle pressioni dei loro clienti e giornalisti, pubblicano stime puntuali (e con decimali!), quando dovrebbero pubblicare intervalli, per riflettere l'inevitabile errore implicito in qualsiasi campione. Come dovremmo interpretare i risultati dei sondaggisti?
A questo proposito, ho consultato il francese Augustin Louis Cauchy (1789-1857), che fu convinto da Pierre-Simon Laplace e Joseph-Louis Lagrange, amici di suo padre, a dedicarsi alla matematica. Studiò all'École Polytechnique di Parigi e all'École des Ponts et des Canals. Nel 1830 andò in esilio a Torino e Praga, lavorando come precettore. Tornò a Parigi otto anni dopo e da allora insegnò alla Sorbona. Le sue opere complete furono pubblicate in 27 volumi. Tra queste: la condizione, la congettura, la disuguaglianza, la legge, il problema, la successione e il teorema di Cauchy.
–Al tuo cognome è associata una distribuzione di probabilità.
– Esatto. Una distribuzione di probabilità è una funzione che associa ogni possibile valore di una data variabile alla sua probabilità corrispondente. La curva normale inventata da Carl Friedrich Gauss, nota anche come curva a campana, è così popolare che molte persone associano il prodotto a un marchio. È l'ideale dei pubblicitari: i consumatori dicono Geniol invece di antidolorifico, o Xerox invece di fotocopia. Esistono anche distribuzioni di probabilità binomiale, uniforme, di Simeon-Denis-Poisson e di Laplace, tra le altre.
–Cosa caratterizza la tua?
– Ha una forma simile alla distribuzione normale, ma con code più lunghe e spesse. Viene utilizzato principalmente per illustrare situazioni patologiche, come quelle illustrate da Nassim Nicholas Taleb in "Il cigno nero".
–Torniamo al dunque. Cosa hai da dire a coloro che si mangiano le unghie perché non vedono l'ora di conoscere i risultati delle urne?
– Distinguiamo tra universo e campioni. Un universo è una totalità: ad esempio, tutti i tifosi del Vélez Sarsfield. Un campione è una porzione dell'universo: ad esempio, tutti i membri del club di cui sopra. Uso il plurale perché possono esserci molti campioni dello stesso universo. Nel caso della provincia di Buenos Aires, il risultato dell'universo sarà noto solo quando tutti i voti saranno stati contati.
–Cosa possono fare le persone ansiose?
– Un sondaggio che interroga tutti gli elettori e prega che dicano la verità al sondaggista e non cambino la loro intenzione di voto tra il momento in cui rispondono al sondaggio e quello in cui esprimono il loro voto.
–È chiaro che è molto costoso.
– È proprio per questo che sono stati inventati i campioni, un argomento su cui esiste molta teoria e anche molta esperienza. Nel caso del voto, consultare l'universo è estremamente costoso. In altri casi, è completamente controproducente. Immagina se, per essere sicuro della qualità del tuo sangue, il medico prelevasse non un piccolo campione, ma l'intero campione del tuo corpo. La diagnosi sarebbe priva di errori di campionamento, ma tu moriresti.
– Errore di campionamento, di cosa stai parlando?
–Voglio dire che, anche se l’indagine viene condotta in modo casuale e stratificato, non vi è la certezza assoluta che il valore ottenuto nel campione corrisponda al rispettivo valore nell’universo.
-Poi?
– I valori ottenuti nei campioni non devono essere pubblicati come numeri singoli, tanto meno con decimali, ma piuttosto come intervalli. Ad esempio: il sondaggista non dovrebbe dire che l'intenzione di voto del candidato X è del 32,8%, ma piuttosto che è compresa tra, ad esempio, il 30% e il 34%, con un errore di campionamento pari a Y%.
–Come viene stimato l’errore di campionamento?
– A causa della dimensione del campione, e anche a causa della distribuzione di probabilità che si ritiene esista nell'universo. Questo modo di presentare i risultati può essere meno scioccante, ma è più appropriato. Tra l'altro, quando, dopo un'elezione, i media si congratulano con il sondaggista che ha ottenuto la risposta giusta, lui o lei – interiormente, anche se non lo dice pubblicamente – sa che questo ha comportato un significativo elemento di casualità.
– L’errore di campionamento è inevitabile.
– Sì, l'importante è comprendere il conflitto tra la precisione richiesta per la stima campionaria e il corrispondente errore di campionamento. Chiunque pretenda una stima accurata, anche utilizzando cifre decimali (come il già citato 32,8%), deve sapere che l'errore di campionamento sarà estremamente elevato. D'altra parte, un sondaggista che afferma che le intenzioni di voto per un dato candidato sono comprese tra lo 0% e il 100% non sbaglierà certamente, ma questo risultato è inutile.
–Nel caso elettorale, il problema è peggiore, perché vogliamo sapere quale candidato batterà l’altro.
– Esatto. Il sondaggista professionalmente responsabile deve affermare che l'intenzione di voto del candidato J è compresa tra il 40% e il 44%, mentre quella del candidato K è compresa tra il 39% e il 43%; il tutto con un errore di campionamento del X%. Pertanto, sulla base del sondaggio, non c'è modo di prevedere in modo plausibile l'esito delle elezioni.
–Sarebbe diverso se le intenzioni di voto fossero molto diverse nell’universo, ad esempio se un candidato avesse l’85% dei voti e l’altro il restante 15%.
–Certo, perché in questo caso, anche un sondaggio tecnicamente imperfetto avrebbe potuto predire il risultato finale. Questo non sembra essere il caso nella provincia di Buenos Aires, tra i candidati del Frente La Libertad Avanza (Fronte della Libertà Avanza) e di Fuerza Patria (Forza Patria).
–Siamo pronti al suicidio.
– Assolutamente no. Quello che dobbiamo fare è capire, per non comprare cassette postali. L'universo non può essere falsificato; questo è l'universo (anche se, nel caso delle elezioni, le intenzioni di voto possono essere modificate). E quando le intenzioni di voto sono molto simili in tutto l'universo, è molto difficile per noi sapere qualcosa prima del prossimo 7 settembre.
– Nonostante ciò, fino al giorno delle elezioni, alcune stazioni radiofoniche e televisive dedicheranno la maggior parte della loro programmazione ad anticipare i risultati e a fare congetture sulle possibili conseguenze.
–Beh, dobbiamo pur divertirci con qualcosa mentre aspettiamo che le urne "parlino". Ma non chiediamo né alla teoria dei sondaggi né a chi li usa professionalmente cosa non siano in grado di fornire. Perché la difficoltà sta nell'universo, non nei campioni.
–Don Augustin, grazie mille.

lanacion