Petabyte Age e metodo scientifico

Ne parlò Luca DeBiase un paio di settimane fa, poi Sergio Maistrello ne diede anch’egli indicazione, approfondendone qualche aspetto.
Poi recentemente Bonaria Biancu me lo segnalò come qualcosa che avrebbe potuto interessarmi, e infatti così fu.
Qui finisce la parte con i passati remoti.
Sto parlando di un articolo di Chris Anderson (qui trovate l’originale) dedicato alle nuove metodologie di ricerca scientifica rese possibili dai supercomputer e dagli algoritmi di data-mining e map-reducing di Google, dove sostanzialmente si dice che non è più necessario, secondo il vecchio modello di indagine scientifica, porre inizialmente un’ipotesi sul funzionamento di qualcosa ed in seguito procedere con le verifiche per saggiarne l’attendibilità.

Sia ben chiaro, da molto tempo l’epistemologia ha chiarito che le “spiegazioni scientifiche” non sono altro che “verità locali” utili per spiegare un fenomeno, tant’è che ci son state situazioni storiche in cui tutto l’insieme delle credenze, ovvero lo sfondo/contesto su cui le affermazioni acquistano senso, è stato messo a soqquadro da qualche innovazione concettuale o tecnologica oppure concettuale indotta dalle scoperte che la tecnologia, come protesi dell’occhio e della mano quindi tecnologia dell’intelligenza, ha reso possibili.
Per dire, nessuno scienziato serio afferma oggi che l’acqua bolle a cento gradi.
Per dire, il problema non è il fatto che l’acqua bolle a cento gradi, quanto la fiducia cieca di certi scienziati arroganti nell’affermare che questo fenomeno è sempre accaduto e sempra accadrà e quindi corrisponde a una “verità” universale assoluta.
Come per il teorema di Pitagora, basato sui postulati di Euclide: qualcuno a metà Ottocento si è accorto che Pitagora non funzionava se il triangolo è disegnato su una sfera, e tutto questo ha portato rapidamente alla formulazione di geometrie non-euclidee e alla crisi dei fondamenti matematici, costringendo la scienza ad ammettere che tutte le credenze precedentemente possedute altro non erano che una verità locale, un caso particolare (quel luogo della mente dove la somma degli angoli interni di un triangolo è 180°) di una realtà/pensiero molto più complesso.
Le affermazioni scientifiche scommettono sui principi e sui modi di funzionamento dei fenomeni naturali, e epistemologia moderna esige che gli scienziati siano criticamente consapevoli della portata euristica limitata del loro affermare, tutto qui. Pensiero debole. “Per quanto ne sappiamo, funziona così”: questa è una frase scientifica corretta.
Tra l’altro un grandissimo del’epistemologia del Novecento, Thomas Kuhn, ha mostrato come le rivoluzioni scientifiche avvengano per rottura – non semplice allargamento/superamento – dei paradigmi concettuali, in quei momenti storici in cui una intera visione-del-mondo (l’insieme delle credenze sul com’è è fatto il mondo e come funziona, le categorie stesse della sua pensabilità) deve essere smantellata e ricostruita alla luce di nuovi atteggiamenti metodologici, spesso indotti dalle stesse nuove scoperte che più progredite tecnologie hanno reso disponibili.
E qui torniamo (sorry, ma la filosofia della scienza e del linguaggio sono vecchie passioni) all’articolo di Anderson su come il nostro vivere nell’era dei Petabyte condizionerà e forse modificherà radicalmente il modo di fare scienza. In sostanza, mi sembra si affermi che la triade ipotesi-modello-esperimento sia in realtà figlia di un’epoca in cui non era nemmeno pensabile il prendere in considerazione masse sterminate di dati, di gran lunga superiori alle capacità di elaborazione cognitiva umana, per la mancanza di una tecnologia (gli algoritmi di ricerca di Google e i supercomputer) in grado di trarre correlazioni statistiche significative.
Quindi gli scienziati degli ultimi quattrocento anni, prigionieri inconsapevoli del loro paradigma concettuale, hanno elaborato e utilizzato il metodo scientifico (che il Novecento ha sottoposto a vaglio critico con l’epistemologia) quale unica possibilità di incrementare la conoscenza “certa”. Non c’era altro modo, il pensiero non aveva altre possibilità metodologiche di afferrare qualcosa della cosiddetta realtà. Il concetto di causa-effetto poi, profondamente radicato in noi nonostante critiche filosofiche millenarie, portava sempre guardacaso a pensare situazioni sperimentali vincolate all’elaborazione di ipotesi che poi potessero essere saggiate nei test di laboratorio. Da come scrivo, mi sembra chiaro che si stia sfiorando la tautologia, perché l’impostazione stessa dell’esperimento era sempre frutto di un pensiero “interno” ad una rappresentazione concettuale predefinita (nella mente del ricercatore, nella sua visionedelmondo), dove certe ipotesi potevano nascere ed altre no.
Se potevo porre un’ipotesi, mi stavo comunque muovendo all’interno del noto, o comunque lì vicino (vedi abduzione, di quell’altro grandissimo che è Peirce), perché non è umano indagare l’ignoto partendo da ciò che non so.
Anderson invece ci mostra come recenti progressi scientifici siano stati compiuti ignorando completamente il significato e la struttura di ciò che si andava indagando. Anzi, questo fatto di non porre a priori ipotesi interpretative è tra l’altro di squisita di metodologia semiotica, laddove buona narratologia invita a sospendere le domande sul senso di un testo, per prendere in considerazione le componenti morfologiche e sintattiche prima ancora di quelle semantiche.
Poter setacciare enormi masse di dati (ma avete presente un petabyte?) alla ricerca di correlazioni statistiche significative, indipendentemente dal contenuto che questi dati veicolano, vuol dire far emergere configurazioni di senso da sistemi complessi senza che ciò che emerge sia condizionato dal tipo di interrogazione che faccio, dall’ipotesi euristica che cerco di indagare, dallo sguardo con cui accolgo i fenomeni, dando così necessariamente loro un nome prima ancora di sapere di cosa si tratti, rendendoli eloquenti soltanto per come sono capace di leggerli (mi sovviene Lombroso, in qualche modo, e l’attribuire tratti caratteriali sulla base di conformazioni craniche)

Con una vecchia battuta, sappiamo che il senso di una domanda è la direzione in cui cercare la risposta, perché la domanda (la forma della domanda) orienta la risposta, suscita uno sguardo specifico a scapito di tutto quello che rimane fuori dal pensiero interrogante; se invece l’indagine la compie qualcosa di inumano, possono emergere aspetti della realtà che per definizione noi umani al momento non possiamo cogliere, visto che per conoscere dobbiam fare domande, e per fare domande ci costruiamo un modello a partire dalle nostre pre-comprensioni e insomma non possiamo uscire da noi stessi. Tutto qui: qualcuno è in ansia? Cosa può imparare la scienza da Google?

E allora, ho tradotto l’articolo di Anderson, aiutandomi con GoogleTranslate, ma non veniva bene, poi con BabelFish (yes, 42) l’ho un po’ sistemato, e lo metto qui.

LA FINE DELLA TEORIA
Il profluvio di dati renderà il metodo scientifico obsoleto?
di Chris Anderson

“Tutti i modelli sono errati, ma alcuni sono utili”

Così affermò George Box 30 anni fa, e aveva ragione. Ma che scelta avevamo? Soltanto i modelli, dalle equazioni cosmologiche alle teorie di comportamento umano, sembravano poter consistentemente, anche se imperfettamente, spiegare il mondo intorno noi. Finora. Oggi le aziende come Google, che si sono sviluppate in un’era di dati sovrabbondanti, non devono accontentarsi di modelli errati. Effettivamente, non devono affatto accontentarsi dei modelli.

Sessanta anni fa, gli elaboratori digitali hanno reso le informazioni leggibili. Venti anni fa, Internet le ha rese raggiungibili. Dieci anni fa, i primi crawlers dei motori di ricerca hanno reso [Internet] un’unico database. Ora Google e le aziende simili stanno setacciando l’epoca più “misurata” della storia umana, trattando questo corpus voluminoso come laboratorio della condizione umano. Sono i bambini dell’epoca del Petabyte (Petabyte Age).

L’epoca del Petabyte è differente perché il “di più” è differente. I kilobyte sono stati immagazzinati sui dischetti. I megabyte sono stati immagazzinati sui dischi rigidi. I terabyte sono stati immagazzinati nei disc-arrays. I Petabytes sono immagazzinati nella nuvola. Mentre ci siamo mossi lungo quella progressione, siamo passati dall’analogia della cartella (folder) all’analogia dell’archivio all’analogia delle biblioteche a – bene, con i petabyte siamo fuori dalle analogie organizzative.

Alla scala del petabyte, le informazioni non sono una questione di semplici tassonomie a tre e quattro dimensioni e ordini, ma di statistiche dimensionalmente non conoscibili. Richiedono un metodo interamente differente, che ci richiede di lasciar perdere l’idea di poter imbrigliare i dati come qualcosa che possa essere visualizzato nella relativa totalità. Ci costringe in primo luogo a osservare matematicamente i dati, e solo in seguito stabilire un contesto [per la loro interpretazione]. Per esempio, Google ha conquistato il mondo della pubblicità con nient’altro che matematica applicata. Non ha finto di conoscere qualcosa circa la cultura e le convenzioni della pubblicità – ha semplicemente supposto che avere migliori dati, con migliori attrezzi analitici, avrebbe condotto al successo. E Google ha avuto ragione.

La filosofia fondante di Google è che non sappiamo perché questa pagina è migliore di quellaltra: se le statistiche dei collegamenti ricevuti [incoming links] dicono così, va già bene. Nessun’analisi semantica o causale è richiesta. Ecco perché Google può tradurre le lingue senza realmente “conoscerle” (data un’uguale mole di dati, Google può tradurre facilmente Klingon in Farsi come può tradurre il francese in tedesco). E perché può abbinare gli annunci pubblicitari ai contenuti senza alcuna conoscenza o presupposizioni circa gli annunci o il contenuto.

Parlando alla Conferenza “Emerging Technology” di O’Really questo marzo passato, Peter Norvig, direttore di ricerca di Google, ha offerto un aggiornamento alla massima di George Box: “Tutti i modelli sono errati e sempre più potrete farne a meno [succeed without them]”.

Questo è un mondo in cui le quantità enormi di dati e di matematica applicata sostituiscono ogni altro attrezzo che potrebbe essere applicato. Supplendo a ogni teoria di comportamento umano, dalla linguistica alla sociologia. Dimentica la tassonomia, l’ontologia e la psicologia. Chi sa perché le persone fanno le cose che fanno? Il punto è le fanno, e possiamo seguirli e misurare tutto con una fedeltà senza precedenti. Con abbastanza dati, i numeri parlano da soli.

Tuttavia, il grande obiettivo qui non è la pubblicità. È la scienza. Il metodo scientifico è costruito intorno alle ipotesi verificabili. Questi modelli, per la maggior parte, sono sistemi visualizzati nelle menti degli scienziati. I modelli allora quindi testati e gli esperimenti confermano o falsificano i modelli teorici di come il mondo funziona. Ciò è il modo in cui la scienza ha funzionato per centinaia di anni.

Gli scienziati sono formati per riconoscere che una correlazione non è una causa, che nessuna conclusione dovrebbe essere tratta semplicemente sulla base di una correlazione fra X e Y (potrebbe essere una semplice coincidenza). Invece, devono essere compresi i meccanismi soggiacenti in grado di collegare i due fenomeni. Una volta che avete un modello, potete con una certa fiducia collegare gli insiemi di dati. I dati senza un modello sono soltanto rumore.

Ma dovendo affrontare enormi quantità di dati, questo tipo di approccio scientifico – supposizione ipotetica, modello, test – sta diventando obsoleto. Consideriamo la fisica: i modelli newtoniani erano approssimazioni grossolane della verità (errati al livello atomico, ma ancora utili). Cento anni fa, la meccanica quantistica su base statistica ha offerto una immagine molto migliore – ma la meccanica quantistica è un altro modello e, pur essendo difettoso, è senza dubbio una rappresentazione [caricature] di una realtà di fondo più complessa. La ragione per cui la fisica è andata ricercando nella speculazione teorica grandi modelli n-dimensionali unificati durante le ultime decadi (“la bella storia” di una disciplina affamata di dati) è che non sappiamo fare gli esperimenti che falsificherebbero le ipotesi – le energie sono troppo alte, gli acceleratori troppo costosi, ecc.

Ora la biologia sta puntando nella stessa direzione. I modelli che ci hanno insegnato a scuola riguardo i caratteri “dominanti” e “recessivi” dei geni, che ci conducono verso un processo rigorosamente mendeliano, sono risultato essere una semplificazione ancora maggior della realtà che le leggi del Newton. La scoperta delle interazioni geni-proteine e di altre funzioni della epigenetica ha sfidato la visione del DNA come destino e perfino introdotta la prova che l’ambiente può influenzare le caratteristiche ereditarie, il che era considerato geneticamente impossibile.

In breve, più comprendiamo la biologia, più ritroviamo (interpretiamo) noi stessi da un modello in grado di spiegarla.

Ora esiste un modo migliore. I Petabytes ci permettono di dire: “La correlazione è abbastanza.” Possiamo smettere di cercare nuovi modelli. Possiamo analizzare i dati senza ipotesi circa cosa potrebbero mostrare. Possiamo gettare i numeri nei più centri di calcolo il mondo abbia mai veduto e lasciare che le procedure statistiche trovino i modelli in cui la scienza non può trovare.

Il migliore esempio pratico di questo è il sequenziamento “shotgun” del genoma di J. Craig Venter. Aiutato da sequenziatori a alta velocità e da supercomputer che analizzano statisticamente i dati che redigono, Venter è passato dal sequenziare organismi individuali ad ordinare gli interi ecosistemi. In 2003, ha cominciato a sequenziare gran parte dell’oceano, ritracciando il viaggio del capitano Cook. E in 2005 ha cominciato a sequenziare l’aria. Nel processo, ha scoperto migliaia di specie precedentemente sconosciute di batteri e di altre forme di vita.

Se le parole “scoprire una nuova specie” vi riportano alla mente Darwin e illustrazioni di uccelli, forse siete bloccati nel vecchio senso di fare scienza. Venter può non dirvi quasi niente circa le specie che ha trovato. Non sa a che cosa assomigliano, come vivono, o qual è la loro morfologia. Non ha Neppure il loro intero genoma. Tutto che ha è un segnale di ritorno [blip] statistico – una sequenza unica che, essendo diverso da ogni altra sequenza nel database, deve per forza di cose rappresentare una nuova specie.

Questa sequenza può correlarsi con altre sequenze che assomigliano a quelle delle specie che conosciamo meglio. In quel caso, Venter può fare alcune congetture circa gli animali – ad esempio il fatto che convertano la luce solare in energia in un modo particolare, o che discendono da un antenato comune. Ma oltre a quello, non ha migliore modello di questa specie di quello che Google ha della vostra pagina di MySpace. Sono soltanto dati. Ma analizzandoli con risorse computazionali di qualità-Google, Venter ha fatto avanzare la biologia più di chiunque altro della sua generazione.

Questo genere di pensiero è sul punto di diventare mainstream. In febbraio, il National Science Foundation ha annunciato il Cluster Exploratory, un programma che finanzia ricerca destinata a “girare” su una piattaforma di computazione distribuita a grande scala, sviluppata da Google e IBM insieme con sei università pilota. Il cluster consisterà di 1.600 processori, parecchi Terabyte di memoria e centinaia di Terabyte di archivio, insieme al software, dove saranno compresi Tivoli dell’IBM e versioni opensource del Google File System e MapReduce. I primi progetti di ricerca prevedono simulazioni del cervello e del sistema nervoso e altre ricerca biologiche che si pongono da qualche parte tra il wetware (gli umani) e il software.

Imparare a usare un “calcolatore” di questa scala può essere una sfida. Ma l’occasione è grande: la nuova disponibilità dei gran quantità dei dati, con gli attrezzi statistici per sgranocchiare questi numeri, offre un intero nuovo modo di comprendere il mondo. La correlazione sostituisce la causa e la scienza può avanzare anche senza modelli coerenti, teorie unificate, o senza avere realmente nessuna alcuna spiegazione meccanicistica.

Non c’è motivo di aderire ai nostri vecchi metodi. È tempo di chiedere: che cosa può imparare la scienza da Google?

3 pensieri su “Petabyte Age e metodo scientifico

  1. Dree

    Avevo notato che girava ‘sta cosa in giro ma non ci avevo capito una bella cippa… Ora ho capito! E da un discorso del gangherologo… Incredibboli! :-D

    Rispondi
  2. vvuemme

    Proprio ieri sera avevo inserito questo indirizzo nel mio GReader :)
    Felice tu mi abbia scovato via FF, stamattina ho sorriso trovandoti in posta e pensando a quanto mi piacciono questi sincronismi.

    Un bel post, sono stata anche io dietro a tutta la vicenda a partire da keplero.org
    Mi riservo di esprimermi più compiutamente nel mio, prossimamente!

    Rispondi

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *