Nelle settimane scorse sia il comune che la provincia di Roma hanno pubblicato alcune serie di dati amministrativi in modalità open data. Comune e provincia hanno seguito strategie diverse nella scelta sia dei dati che delle licenze, come pure nelle regole e nelle finalità delle classiche competizioni indette per stimolare il riuso di questi dati. A mio parere l’approccio che sotto diversi aspetti sembra più solido è quello seguito dalla provincia, almeno per il momento. Vorrei però esaminare alcuni aspetti negativi che sono grosso modo comuni ai due esperimenti.

Sottolineo che ho esaminato i due siti con spirito critico ma costruttivo, e che sono consapevole degli inevitabili problemi di dentizione, in particolare per quanto riguarda la varietà dei dati pubblicati. Qualcuno si attende che proprio la pubblicazione di questi dati e il loro riutilizzo inneschino meccanismi virtuosi con benefici sia sulla qualità dai dati che sul valore dei prodotti e dei servizi che ne potranno derivare. Sono curioso di vedere quali applicazioni usciranno dai concorsi lanciati dai due enti.

Detto questo, ecco i principali problemi che ho osservato.

La scelta dei dataset

Accanto a dataset la cui utilità sembrerebbe evidente, come l’elenco degli esercizi commerciali o i dati sui flussi di traffico, ce ne sono altri la cui utilità appare veramente dubbia. Riporto qualche esempio.

Dietro a queste scelte si può intuire in primo luogo una certa confusione tra dati pubblici e dati statistici, entrambi importanti ma evidentemente diversi, e forse l’intenzione di rimpinguare un portafoglio di dati pubblici “veri” relativamente esiguo.

Per valutare i contenuti dei dataset, lasciando da parte quelli prevalentemente statistici e quelli di cardinalità esigua, ne ho considerati due tra quelli più interessanti, uno pubblicato dal comune e uno dalla provincia.

La qualità dei dati

Il dataset “Esercizi commerciali presenti sul territorio comunale. Settembre 2012” contiene più di 80.000 record che per ciascun esercizio indicano cinque attributi: macroattivà, attività, specializzazione, indirizzo e numero civico. Per esempio, ad una pasticceria in vicolo della Torretta 18 sono associate la macroattività “Artigianato”, l’attività “Laboratori artigiani” e la specializzazione “Pasticceria”. Anche se si tratta di pochi dati (perché ad esempio non c’è l’insegna o la geolocalizzazione?), purtroppo anch questi si rivelano poco utili.

Per motivi pratici ho eseguito un primo controllo di questi dati prendendo in esame gli esercizi commerciali di via della Giuliana, dove abito da venti anni. Si tratta di una via abbastanza centrale, lunga circa 600 metri e con molte decine di negozi di vario tipo. Per pigrizia ho usato Google Maps in modalità Street View per confrontare gli esercizi esistenti con quelli presenti nell’elenco pubblico. Nei casi in cui Google Maps non era aggiornato mi è stato facile supplire a memoria. I risultati sono stati piuttosto deludenti.

Su 64 esercizi contenuti nell’elenco, 22 sono sicuramente corretti, 13 sono sicuramente sbagliati, 10 sono descritti in termini così generici da non essere riconoscibili e tra i restanti 19 si trovano anomalie varie come record ripetuti o indirizzi corrispondenti ad abitazioni (anche se non escludo che alcune attività abbiano sede in un appartamento, ma non ho potuto verificare). Infine, 5 esercizi davanti ai quali passo da venti anni non sono neanche nell’elenco.

In totale, almeno il 20% dei dati sono vecchi di anni, con punte di 15 anni per una torrefazione al n° 41 (in realtà la mia banca fino a dieci anni fa) ma con una media sui tre-quattro anni, come per la drogheria al n° 59 (in realtà un ristorante aperto qualche anno fa). Contando anche i 5 esercizi che mancano la percentuale sale al 28%.

Evidentemente la data di aggiornamento “Settembre 2012” nel nome del dataset non si riferisce al contenuto amministrativo ma a quello tecnologico, all’estrazione dei dati dall’archivio amministrativo. Ma c’è allora da chiedersi dove sono i dati amministrativi veri e aggiornati, che non possono non esistere dal momento che non si può immaginare che il comune di Roma non abbia rilasciato agli esercizi attualmente presenti nella strada tutte le autorizzazioni amministrative necessarie.

Altro punto critico è la mancanza di informazioni su una delle categorie più ricercate, quella dei locali pubblici, che nell’elenco sono indicati tutti sotto l’anonima etichetta “Altro” rendendo così impossibile distinguere tra bar, ristoranti o pub. Per fare un confronto, ho sfogliato il catalogo dei dati pubblici del comune di Milano scoprendo un dataset “Pubblici esercizi” che riporta correttamente la tipologia del locale e giustamente anche altri dati, compresa l’insegna sulla quale l’esercente paga una tassa e che quindi è sicuramente nota al comune.

La semantica

Passando ora alla provincia di Roma, ho preso in considerazione il dataset “Monitoraggio traffico stradale” che contiene la velocità e il flusso orario del traffico rilevati ogni dieci minuti in circa 30.000 punti della rete stradale provinciale. I record riportano il nome della strada, una o più coppie di punti geografici corrispondenti ad uno o più segmenti, la data e l’ora di rilevazione e i dati di traffico (direzione, velocità e flusso orario).

Mentre non ho modo di verificare la qualità dei dati, questo dataset mostra problemi di semantica abbastanza seri. Per ogni dataset è necessario indicare il significato dei dati, anche in relazione alle modalità con cui sono stati prodotti. Non viene invece spiegato né cosa rappresentino i segmenti riportati in ogni record (uniti peraltro in una sola stringa di lunghezza variabile) né dove (rispetto ai segmenti) e come vengano calcolati velocità e flusso orario.

Ma il punto davvero critico è che la direzione del flusso è indicata solo in termini relativi (“1” o “-1”). In pratica, questi dati potrebbero dire che in via Cristoforo Colombo il traffico è scorrevole lungo uno dei sensi di marcia, ma non quale sia questo senso. Un’indeterminazione comprensibile in un contesto di meccanica quantistica ma non in uno di innovazione urbana. A parte gli scherzi, aggiungo che il 15 ottobre ho chiesto chiarimenti al punto di contatto indicato sul sito ma non ho ancora ricevuto risposta.

Aggiornamento del 30/10/2012 – Finalmente ieri mi è stato risposto che “entro pochi giorni” verrà pubblicata una versione aggiornata del dataset “Monitoraggio flussi traffico” che conterrà “l’elenco ordinato delle coordinate”. Questo permetterebbe di dedurre il senso di marcia a cui si riferiscono di dati di flusso. Nessuna risposta invece sulla richiesta di dotare tutti i dataset di una congrua informazione semantica. Interessante anche la motivazione del ritardo di due settimane nella risposta: “la struttura amministrativa che si occupa di fornirci i dati del traffico è incardinata in un altro settore e quindi abbiamo dovuto girare l’informazione ai colleghi”. Quindi chi gestisce la pubblicazione degli open data sul web, e il relativo punto di contatto, non conosce nel dettaglio la natura e le modalità di produzione dei dati.

Conclusione

Se dovessi riassumere il mio stato d’animo al termine di questo breve esame direi che pubblicare open data inutili, di bassa qualità o non documentati non rappresenta un investimento ma un costo, perché non se ne può trarre alcun ritorno. Delle molte possibili app basate su questi dati, in entrambe le categorie proposte dalla provincia di Roma per l’App Contest Openroma, molte non potranno essere realizzate finché i processi amministrativi a monte non produrranno dati di migliore qualità.

Annunci