Preservación

Hace un par de meses que en mi cabeza ronda la idea de "la necesidad de una infraestructura centralizada para la preservación de los datos gubernamentales". Quizás porque el proyecto subyacente es una mezcla de mis dos especialidades: Infraestructura + Datos. Luego de lanzar la idea, sin mucho desarrollo, una respuesta fué que esta problemática es la misma que los libros, donde la solución es asegurar la preservación mediante la distribución en distintas bibliotecas. Nada más cierto, ese es el modelo que se debe seguir, veamos que es lo que dice el "otro DCC" al respecto.


El "Digital Curation Centre" (DCC en UK): "El objetivo del centro es proporcionar un enfoque nacional para la investigación y el desarrollo en cuestiones de preservación y promover conocimientos y buenas prácticas, tanto nacionales como internacionales, para la gestión de todos los resultados de la investigación en formato digital". Partes de las problemáticas que se deben tratar con la preservación digital están: Obsolescencia tecnológica, Conservación, Autenticidad y Confianza. El enfoque que tiene el DCC es sobre los datos generados para materias científicas y académica. Pensemos que los datos gubernamentales serán de interés para alguna de las ramas científicas, como por ejemplo para los estudios sociológicos.

El DCC propone un modelo para manejar el ciclo de vida de preservación, que en parte se refleja en la figura presentada arriba en esta entrada. Sobre una eventual propuesta de infraestructura centralizada para alojar los datos el DCC publicó un Estudio de Infraestructura Nacional de Datos, donde luego de revisar la realidad de distintos países, se destacan algunos antecedentes:

1.- No existen ni políticas ni infraestructura centralizada a nivel nacional
2.- Las políticas son institucionales y de organismos de financiación de investigación
3.- Las soluciones nacionales se plantean como distribuidas, entregando el ambiente requerido
4.- Los costos y la provisión de infraestructura son temas abiertos

Podemos concluir entonces, que más que una "infraestructura centralizada" lo más conveniente es implementar un modelo distribuido para asegurar la preservación de los datos, al estilo de The Dataverse Network Project, que se asemeja a "una red de bibliotecas" para datos académicos/científicos.

Es importante notar que el mundo de los datos generados desde las áreas académicas y científicas están concentrando la atención, como es el caso del libro recientemente publicado por Microsoft Research "The Fourth Paradigm: Data-Intensive Scientific Discovery". Esta área de interés, el dominio científico/académico, pudo ser uno de los evaluados para los casos de estudio desarrollados en la tesis y quizás quedaba fuera por "presentar demasiados datos y no tener la infraestructura para alojarlos".


En el mismo tema de preservación, pero ahora relacionado con "linkeddata" y datos de gobierno, es justamente en UK, donde siguiendo los pasos de EEUU, Australia y Nueva Zelanda están lanzando su plataforma para exponer datos en la Web, pero esta vez asesorados por TBL, uno de sus primeros documentos generados dice relación con el diseño de URI para el sector público, donde se destaca las siguientes recomendaciones novedosas:
  • "El conjunto de URI (URI set, ver figura arriba en esta entrada) que se promueven para la reutilización deben ser diseñados para durar al menos 10 años" (final de la página 3).

  • "Sobre el dominio de un Conjunto de URI que se promueven para la reutilización: ... se mantenga a perpetuidad; No contenga el nombre del departamento o agencia ... ya que puede ser reasignada" (punto 3 en la página 6).
El hecho de colocar como primer lineamiento el de Diseño de URI no es casualidad, claramente se está siguiendo el stack de la Web Semántica.


No hay comentarios: