Data.xx ya no existen excusas
Hace unos días me recomendaron un caso de estudios de la escuela de negocios de Harvard, en el cual se abordaba el caso del portal del gobierno federal de los Estados Unidos Data.gov, una suerte de ícono de las plataformas open data y probablemente el primer portal de publicación de información pública. Por otra parte esta recomendación coincidió con la lectura de una noticia sobre cuales son las instituciones que en mi país reciben la mayor cantidad de solicitudes de información reguladas en la ley de transparencia, cuanto más fácil sería la vida para el ciudadano si es que los servicios públicos entregaran esa información sin mediar solicitud.
Hoy que el tema del Open Gov y en particular el acceso a la información pública y su expresión en bases de datos públicos es tema obligado en cualquier diseño de política pública y modernización del Estado, por lo que el análisis de este caso resulta muy interesante a la hora de identificar las claves del proceso.
Si bien el análisis de caso, cae en las anécdotas de su diseño y construcción, así como algunos episodios de la vida laboral y personal de Vivek Kundra ex-CIO del Gobierno Federal de USA, hay algunos elementos interesantes, que me permito resumir:
El documento plantea algunos desafíos y cuestionamiento que enfrentaron al momento de su diseño y posterior implementación, y que probablemente en cualquier proceso similar se volverán a dar:
- ¿los datos en el modelo deben mostrarse como un repositorio plano o interpretados? muchas autoridades les gusta más la segunda opción ya que existe «temor de las interpretaciones de terceros» argumento que he escuchado en un par de oportunidades, se escuchan voces que dicen que pasa si de una determinada base de datos se sacan conclusiones sin el contexto?, y por lo tanto plantea que debe existir la «interpretación oficial», si bien es relevante dicha interpretación es relevante que exista la posibilidad de procesamiento independiente de la data, desde su fuente primaria, tal como lo menciona la OCDE en sus recomendaciones de acceso a información pública.
- Un segundo desafío es la gestión de la metadata, es decir el tipo de marcaje a definir para los datos, la cual es una tarea que requiere de un gran esfuerzo y que además se irá depurando en el tiempo. Es importante destacar que este es un proceso continuo y que se dará un aprendizaje de esto en el tiempo.
- Finalmente el problema de siempre la confidencialidad y la tensión que se produce con la protección de datos personales, la pregunta es ¿dónde poner la cerca?, esta al menos es una discusión abierta, pero en general existe una mayor tendencia hacia el secretísimo que a la apertura.
El caso destaca las ideas fuerza que se adoptaron al momento de diseñar e implementar Data.gov
- Focalizarse en el acceso, la plataforma debe permitir un acceso lo más cerca a la fuente original posible, incluso plantea que los datos residen (archivos) en las instituciones generadoras..
- Plataforma abierta, debe permitir no sólo la descarga sino además la interacción vía API u otros aplicativos.
- Datos desagregados al máximo nivel posible, sin que se entre en atentar contra la privacidad y los datos personales de los individuos.
- Crecimiento y mejoramiento por la vía del aporte de los usuarios (feedback)
- Las agencias que publican deben hacerse responsables de la caducidad de los datos, así como de evitar problemas asociados a la privacidad.
- Reacción rápida de las agencias públicas en el proceso de publicación y mantención de la data.
- Uso de buenas prácticas hoy existente en temas de publicación de datos y gestión de información
Como ven ya existe bastante información al respecto y como lo muestra el caso de los Estados Unidos lo que se requiere es el coraje para abordar el tema.
Gracias Alejandro por tu artículo. Quería agregar que me ha tocado ver ciertos riesgos al publicar datos en estos portales, en el sentido de que muchas veces los esfuerzos quedan en eso, sólo subir muchos archivos con algunos metadatos de dudosa calidad.
Por ejemplo, en general los datos no consideran actualizaciones, y cuando lo hacen sólo está disponible la última versión de los datos. Cuando se descubre un error, generalmente no hay un procedimiento estándar de notificación al creador de estos datos para corregirlos. Por otro lado, el enlazar datos (que les agrega un tremendo valor) es algo que siempre queda para después, cuando debiese ser un trabajo que va en paralelo.
En fin, podría seguir con una buena lista de temas que faltan, pero lo importante es destacar que un data.xx no es sólo subir y subir datos, requiere un trabajo permanente. Como dije en el evento C+G, los datos son un bien público y debiesen ser tratados con el mismo celo que los puentes y carreteras.
Salu2,
Alvaro
Como siempre, un excelente artículo. ¿Conoces algún otro portal en America Latina de OpenGov que recomiendes explorar?
Muchos saludos desde este hemisferio 🙂
Chile – http://datos.gob.cl/
Lima – http://www.munlima.gob.pe/datos-abiertos-mml.html
Montevideo – http://www.montevideo.gub.uy/institucional/datos-abiertos/introduccion
Hay algunos otros, pero estos son lo más «grandes» que conozco. Espero que te sirva.
Mil gracias!
http://www.manzanamecanica.org/2011/12/disponible_el_codigo_del_portal_datagov.html