Dal WEB dei documenti al Web dei Dati per una conoscenza interconnessa

Linked Open Data: perché solo Open data non basta, neppure in Italia.
By TITTICIMMINO | Published: DECEMBER 24, 2010
Il valore di una licenza “open” sta nel fatto che i dati rilasciati con tale licenza possono essere condivisi e ri-usati senza restrizioni. Per poter rivolgersi alla comunità degli sviluppatori l’apertura delle licenze è il primo step: senza questo passo il resto è come un castello di carte.

Ma la licenza “open” ha anche un altro valore: per effettuare mash up di dati o per linkarli se i dati sono allocati in differenti database , tipo Europeana o DBpedia, è necessario avere schemi di licenze compatibili per evitare di incorrere in alcuni set di dati per i quali la licenza d’uso sia restrittiva, restituendo così, di fatto, un insieme di dati incompleto o per nulla efficace.

Un validissimo esempio di Linked Data è quello dei Linked Geo Data, i dati spaziali sono cruciali per interconnettere risorse geografiche garantendo faciltà di browsing e di authoring.

Linked Open Data: cui prodest?

Andiamo per ordine: perchè solo Open Data non basta.

Il web dei documenti diventa il web dei dati, questi descrivono “cose” che hanno “proprietà” a cui corrispondono determinati “valori”.
Immaginando una tabella: le righe sono le “cose” , ogni colonna rappresenta le “proprietà”, e l’intersezione rappresenta la proprietà della cosa.
In sintesi tendiamo a pensare a dati in questo modo: “cosa”, “proprietà”, “valore”.
Ogni “cosa” può avere più proprietà e più cose possono essere in relazione. Dal punto di vista grafico, immaginando un grafo i nodi sono le cose e gli archi le relazioni tra le cose.

Precipua questione è quella della identificazione delle cose globalmente e univocamente dal punto di vista di un database. La chiave di volta dei Linked Data sono gli URIs che appunto consentono la identificazione di cui sopra. GLi URIs identificano le cose che vengono descritte, piuttosto che azioni su quelle cose, e se due persone creano dati usando lo stesso URI, allora essi stanno descrivendo la stesa cosa rendendo facile il merging di dati provenienti da data sources distinti, con la possibilità di riconoscere la distinzione tra le risorse e le rappresentazioni di tali risorse: lo stesso URI potrebbe restituire una diversa rappresentazione della risorsa, come ad esempio HTML o XML o JSON.
Quindi, se abbiamo intenzione di pubblicare i dati sul web, abbiamo bisogno di uno standard per esprimere i dati in modo che un client ricevente i dati possa capire che cosa è una cosa, che cosa è una proprietà, che cosa è un valore e, dal momento che questo è il web, anche cos’è un link. Questa è la norma fondamentale di cui abbiamo bisogno e questo è ciò che dà RDF: i dati espressi in formato RDF possono usare URI provenienti da differenti siti web. Se due insiemi di dati utilizzano lo stesso URI poi è molto facile lavorare quando parlano della stessa cosa, ad esempio, permettendo di riunire le informazioni pubblicate da una scuola con le informazioni rilevate da indagini statistiche altrove pubblicate secondo lo standard , naturalmente. E la cosa grandiosa del modello RDF (che fa uso di URI per identificare le proprietà) è che quelle serie di dati possono essere combinate automaticamente, perché lo standard consente di sapere dove cercare le informazioni necessarie.

Usare URI HTTP facilita il recupero di un documento dal web. Ciò consente di programmare, on-demand, l’accesso alle informazioni. Gli sviluppatori non devono scaricare enormi database mentre sono interessati ad una piccola parte di quei dati. Come possiamo creare facilmente dati strutturati e riutilizzabili da formati Excel o (peggio) dai file PDF? Come affrontare i cambiamenti nel tempo, e registrare la provenienza delle informazioni che mettiamo a disposizione? Come possiamo rappresentare le informazioni statistiche? O informazioni sulla localizzazione? Queste sono cose che si imparano mettendosi all’opera!

E ‘ complicato cominciare ad adottare i Linked Data, sia per ragioni sociali, culturali che per motivi tecnologici. Non succederà nulla dalla sera alla mattina, ma a poco a poco ci saranno gli effetti di rete: URI più condivisi, più vocabolari condivisi, il che rende più facile da adottare i Linked Data patterns offrendo più vantaggi per tutti.

Una volta descritti i dati e modellizzati, occorre interrogarli e questo avviene con un linguaggio standard per query: lo SPARQL.
In realtà, ciò che è necessario è la creazione di serie di dati più grandi, riunendo i linked data più granulari in elenchi e grafici, questo è essenzialmente quello che fa SPARQL.

Dunque per pubblicare Linked Data occorre
1) comprendere i principi (Uso di RDF data model con RDF links, link tipizzati tra due risorse, per collegare i dati relativi alle stesse cose)
2) comprendere i dati (con i Vocabolari condivisi FOAF SIOC Dublin Core, geo, SKOS, Review)
3) scegliere URI (http URIs) per le cose espresse nei dati (cose come Persone, posti, eventi, libri, film, concetti, foto, commenti, reviews)
4) linkare ad altri data set (con i link RDF)
In sintesi RDF è il formato per i Linked Data; RDF usa URIs per dare un nome alle cose; quando un URI è chiamato, esso restituisce descrizioni RDF delle cose chiamate con gli stessi e sempre via RDF si descrivono le relazioni tra le cose. Infine lo zenit si raggiunge linkando differenti data set.

A dispetto di problemi e questioni che si potrebbero sollevare circa le difficoltà di sviluppatori o esiguità di risorse, ritengo che il Linked Open Data data sia l’approccio migliore a disposizione per la pubblicazione di dati in un ambiente estremamente vario e distribuito, in modo graduale e sostenibile.

Perché? Linked Open Data significa pubblicare i dati sul web mentre si lavora con il web.

Linked, Open, Data!

Giorgio Jannis

Abitiamo linguaggi, i territori sono conversazioni.

Dal WEB dei documenti al Web dei Dati per una conoscenza interconnessa

Lascia un commento Annulla risposta