Vocabulario del Catálogo de conjuntos de datos

1. Introducción

Este documento describe el vocabulario utilizado para representar catálogos de conjuntos de datos, o datasets. Este vocabulario, conocido como dcat (Dataset Catalog), es un esquema internacionalmente reconocido, propuesto como parte del trabajo del Grupo de Interés de eGovernment del W3C1.

No se indica ningún método de implantación, ni de utilización de los datos expresados en dcat, ya que podrían ser utilizados diversos medios como SPARQL endpoints, RDFa, RDF/XML o Turtle.

Los ejemplos que se incluyen utilizan la notación Turtle, simplemente por su facilidad en la interpretación.

1.1.Vocabularios externos utilizados

En este documento se detalla una serie de clases y propiedades, que componen el vocabulario. Se ha intentado componer este vocabulario utilizando otros esquemas u ontologías estándar ya existentes.

A continuación se muestra un listado con los vocabularios externos utilizados para componer dcat, con los prefijos que se utilizan en el documento para abreviar los espacios de nombres correspondientes.

Vocabulario Prefijo Espacio de nombres

Sintaxis RDF

rdf

http://www.w3.org/1999/02/22-rdf-syntax-ns#

Esquema RDF

rdfs

http://www.w3.org/2000/01/rdf-schema#

Esquema XML

xsd

http://www.w3.org/2001/XMLSchema#

SKOS

skos

http://www.w3.org/2004/02/skos/core#

DCMI Metadata Terms

dct

http://purl.org/dc/terms/

DCMI Types

dctype

http://purl.org/dc/dcmitype/

FOAF (Friend of A Friend)

foaf

http://xmlns.com/foaf/0.1/

voID

void

http://rdfs.org/ns/void#

Dataset Catalog

dcat

http://vocab.deri.ie/dcat#

1.2.Codificación de valores de las propiedades

No se debería utilizar valores como “desconocido” o “no aplica” para las propiedades, incluso si en la fuente original apareciera especificado. En su lugar la propiedad simplemente sería omitida.

1.3 Grafo RDF

Grafo RDF del conjunto de Datos

Clase: Catálogo

Un catálogo de datos es una colección de metadatos sobre conjuntos de datos o datasets.

  • Clase RDF: dcat:Catalog 

  • Subclase RDF de: dct:Collection 

  • Nota de uso: Típicamente, un catálogo de datos basado en web se representa como una instancia de esta clase 

  • Ver también: Clase: Registro de catálogo, Clase: Dataset 

2.1.Propiedad: página web principal

La página web del catálogo.

  • Nota de uso: foaf:homepage es una propiedad funcional inversa, lo que significa que debería ser única e identificar de forma precisa el catálogo. Esto permite especificar varias descripciones del catálogo cuando se usan diferentes URIs. 

2.2.Propiedad: agente editor

La entidad responsable de publicar el catálogo en la Web.

2.3.Propiedad: cobertura espacial/geográfica

El área geográfica cubierta por el catálogo.

  • Rango: dct:Location (Región espacial o lugar determinado) 

2.4.Propiedad: tema/categoría

Valores del sistema de organización del conocimiento, en inglés Knowledge Organization System (KOS), usado para clasificar los conjuntos de datos –datasets– del catálogo.

2.5.Propiedad: título

El nombre que recibe el catálogo.

2.6.Propiedad: descripción

Descripción en texto libre del catálogo.

2.7.Propiedad: licencia

Licencia bajo la cual el catálogo puede ser usado o reutilizado, no los conjuntos de datos o datasets, que lo componen. Incluso si la licencia del catálogo se aplica a todos los datasets, se debería replicar en cada uno de los datasets.

  • Nota de uso: para permitir el análisis automático de los conjuntos de datos es importante usar identificadores canónicos para licencias conocidas. Consulta un listado de la guía de voiD2. 
  • Ver también Propiedad: licenciade la Clase Dataset. 

2.8.Propiedad: dataset

Un conjunto de datos o dataset, que forma parte del catálogo.

Propiedad: registro de catálogo

Un registro del catálogo, que compone el catálogo.

Clase: Registro de catálogo

Un registro en el catálogo de datos, que describe un único dataset.

  • Clase RDF: dcat:CatalogRecord 

  • Nota de uso: esta clase es opcional y no todos los catálogos la usarán. Existe para los catálogos donde se hace distinción entre los metadatos sobre un dataset y metadatos sobre la entrada de un dataset en el catálogo. Por ejemplo, la propiedad fecha de publicación del dataset indica la fecha en la que la agencia que publica la información la hizo pública, mientras que la fecha de publicación del registro del catálogo es la fecha cuando el dataset fue añadido al catálogo. Cuando estas fechas difieren, o cuando sólo se conoce la segunda, la fecha de publicación sólo se debería especificar para el registro del catálogo. 

  • Ver también: Clase: Dataset 

Si se utilizan grafos con nombre, las tripletas RDF que describen la entrada del catálogo, el dataset y sus distribuciones deberían estar incluidas en un grafo cuyo identificador sea el URI del registro del catálogo.

En los catálogos basados en web, la URL de la página web del catálogo debería ser utilizada como una URI para el registro del catálogo si este es un enlace permanente.

Propiedad: fecha de publicación en el catálogo

La fecha en la que el dataset se añade al catálogo.

  • Rango: rdfs:Literal con el tipo xsd:date, usando el formato de fechas y horas ISO 86013. Básicamente, la fecha se codifica como un literal según el formato "YYYY-MM-DD". Si no se conoce un día o mes específico, se indicará 01. 
  • Nota de uso: indica la fecha de listado del dataset en el catálogo, no la fecha de publicación del dataset en sí. 

  • Ver también Propiedad: fecha de lanzamiento del Dataset 

3.2.Propiedad: fecha de actualización/modificación

La fecha más reciente conocida en la que se modificó o actualizó la entrada del catálogo.

  • Rango: rdfs:Literal con el tipo xsd:date, usando el formato de fechas y horas ISO 8601. Básicamente, la fecha se codifica como un literal según el formato "YYYY-MM-DD". Si no se conoce un día o mes específico, se indicará 01. 

  • Nota de uso: esta propiedad indica la fecha de último cambio de una entrada del catálogo, por ejemplo, los metadatos de la descripción del dataset, no la fecha de cambio del dataset en si. 

  • Ver también Propiedad: fecha de actualización/modificación del Dataset 

3.3.Propiedad: dataset

Enlaza el registro del catálogo con el recurso dataset (dcat:Dataset) descrito en el registro.

4.Clase: Dataset

Una colección de datos publicados o almacenados en una única fuente y disponible para el acceso o descarga en uno o más formatos.

  • Nota de uso: esta clase representa al actual dataset publicado por el agente publicador. En casos donde se establece una distinción entre el actual dataset y su entrada en el catálogo, es necesario utilizar la clase registro del catálogo (dcat:CatalogRecord) para el segundo caso. 

  • Ver también Clase: Registro de catálogo 

4.1.Propiedad: fecha de actualización/modificación

La fecha de más reciente actualización o cambio del dataset.

  • Rango: rdfs:Literal con el tipo xsd:date, usando el formato de fechas y horas ISO 8601. Básicamente, la fecha se codifica como un literal según el formato "YYYY-MM-DD". Si no se conoce un día o mes específico, se indicará 01. 

  • Nota de uso: El valor de esta propiedad indica un cambio en el dataset actual, no en el la entrada del catálogo. La omisión de esta propiedad puede indicar que el dataset no ha cambiado nunca desde su publicación inicial, que se desconoce, o que el dataset se actualiza continuamente. 

  • Ejemplo: 2010-05-07 

  • Ver también Propiedad: frecuencia 

4.2.Propiedad: título

Nombre del dataset.

4.3.Propiedad: descripción

Descripción de texto libre del conjunto de datos.

4.4.Propiedad: agente editor

Una entidad responsable para hacer el conjunto de datos disponible.

  • Ver también: Clase: Organización/Persona 

4.5.Propiedad: fecha de lanzamiento

Fecha de lanzamiento o publicación del dataset.

  • Rango: rdfs:Literal con el tipo xsd:date, usando el formato de fechas y horas ISO 8601. Básicamente, la fecha se codifica como un literal según el formato "YYYY-MM-DD". Si no se conoce un día o mes específico, se indicará 01. 

  • Nota de uso: se incluirá la primera fecha conocida de lanzamiento del dataset. 

  • Ejemplo: 2010-05-07 

4.6.Propiedad: frecuencia

La frecuencia con la que el dataset es publicado.

  • Nota de uso: Los valores deberían proceder de un vocabulario controlado. Podrían ser utilizados valores de intervalos de tiempo de placetime.com4

4.7.Propiedad: identificador

Un identificador único del dataset.

  • Nota de uso: el identificador debe ser utilizado para crear la URI permanente y única para el dataset, aunque puede ser útil representarlo en esta propiedad. 

4.8.Propiedad: cobertura espacial/geográfica

Cobertura espacial del dataset.

  • Nota de uso: debería utilizarse un vocabulario controlado como Geonames5

4.9.Propiedad: cobertura temporal

El periodo temporal que cubre el dataset.

  • Rango: dct:PeriodOfTime (intervalo de tiempo definido por su inicio y final) 

  • Nota de uso: debería usarse un vocabulario controlado como los intervalos de tiempo de placetime.com

4.10.Propiedad: licencia

La licencia bajo la que el dataset es publicado y puede ser reutilizado.

  • Nota de uso: usando identificadores canónicos de licencias conocidas se permitirá el análisis automático de los datasets. Compruébese la Guía de voiD6 para ver una lista. 

4.11.Propiedad: nivel de detalle

Describe el nivel de detalle de los datos.

  • Nota de uso: el detalle es generalmente geográfico o temporal, pero también pude tener otra dimensión. Por ejemplo, Persona puede describir el nivel de detalle de un dataset sobre estadísticas de ingresos de la población. 

  • Ejemplo: en data.gov, se usan conceptos como: country (país), county (condado), longitude/latitude (coordenadas), region (región), plane (avión), airport (aeropuerto). 

4.12.Propiedad: diccionario de datos

Ofrece información descriptiva que ayuda a la comprensión de los datos. Suele consistir en una tabla con explicación sobre significados, interpretación de valores, y abreviaturas o códigos usados en los datos.

  • Nota de uso: no tiene un uso consistente, sin embargo se puede enlazar a un documento relacionado con el dataset. Se recomienda representarlo mediante una URL de un documento web, como su URI. Los datasets estadísticos, como caso particular, pueden tener descripciones más estructuradas por lo que se podría utilizar el trabajo sobre SDMX+RDF7. 

4.13.Propiedad: calidad de los datos

Describe la calidad de los datos.

  • Nota de uso: se espera que los catálogos definan subpropiedades más específicas para definir las características. Por ejemplo, en datos estadísticos se podría describir la calidad de los muestreos, modos de recopilación, ajustes, etc. 

4.14.Propiedad: tema/categoría

La categoría principal del dataset. Un dataset puede tener múltiples temas.

  • Nota de uso: se utilizan conjuntos de conceptos skos:Concept organizados en esquemas de conceptos (skos:ConceptScheme) para categorizar los datasets. 

4.15.Propiedad: palabra clave/etiqueta

Una etiqueta o palabra clave para describir el dataset.

4.16.Propiedad: documentos relacionados

Un documento relacionado con el dataset, como documentación técnica, página de la agencia pública, cita, etc.

  • Nota de uso: se debería incluir la URI del documento relacionado. 

4.17.Propiedad: distribución de dataset

Conecta un dataset con sus distribuciones disponibles.

5.Clase: Distribución

Representa una forma específica de un conjunto de datos. Cada dataset puede tener distintas formas, que pueden representar diferentes formatos del dataset, diferentes puntos de consulta, etc. Ejemplos de distribuciones: fichero CSV, fichero XLS, canal RSS, etc.

  • Nota de uso: mediante esta clase se representa la disponibilidad general de un dataset, pero no indica información sobre el método de acceso al dato en concreto (descarga directa, API o  página web). Si se conoce el método de acceso al dataset, se debería usar una de sus subclases. 

  • Ver también Clase: Descarga, Clase: Servicio Web, Clase: Canal de sindicación (Feed) 

 

5.1.Propiedad: URL de acceso/descarga

Esta propiedad apunta a la localización de una distribución. Esta puede ser un enlace de descarga directa, un enlace a una página HTML que incluye el enlace al dato actual, canal RSS, Servicio Web, etc. La semántica del tipo de acceso se determina por el dominio de (Distribución, Canal de sindicación (Feed), Servicio Web, Descarga).

  • Nota de uso: el valor es una URL. 

  • Ver también Clase: Descarga, Clase: Servicio Web, Clase: Canal de sindicación (Feed) 

5.2.Propiedad: tamaño

Indica el tamaño de una distribución.

  • Nota de uso: se usa generalmente con un nodo en blanco descrito usando las propiedades rdfs:label y dcat:bytes, que indica el tamaño.  

  • Ejemplo:  

    :distribution dcat:size [dcat:bytes 5120^^xsd:integer; rdfs:label "5KB"] 

5.3.Propiedad: formato

Indica el formato de la distribución.

  • Nota de uso: se utiliza valores de tipos MIME8.  

6.Clase: Descarga

Representa una distribución de un dataset que se puede descargar.

  • Nota de uso: la propiedad accessUrl de una distribución Download debería ser un enlace directo al fichero de descarga. 

  • Ver también Clase: Distribución, Clase: Servicio Web, Clase: Canal de sindicación (Feed) 

7.Clase: Servicio Web

Representa un Servicio Web que permite el acceso a los datos de un dataset.

  • Nota de uso: describe el servicio web usando accessUrl, format y size.  

  • Ver también Clase: Distribución, Clase: Descarga, Clase: Canal de sindicación (Feed) 

8.Clase: Canal de sindicación (Feed)

Representa la disposición de un dataset como un canal de sindicación RSS, Atom o similar.

  • Nota de uso: describe el canal de sindicación usando accessUrl, format y size.  

  • Ver también Clase: Distribución, Clase: Descarga, Clase: Servicio Web 

9.Clase: Categoría y esquema de categorías

El sistema de organización del conocimiento (Knowledge Organization System o KOS) usado para representar temas/categorías de los datasets en el catálogo.

  • Nota de uso: es necesario usar o skos:inScheme o skos:topConceptOf en cada skos:Concept, de otra forma no sería posible determinar a qué esquema pertenece cada concepto. 

  • Ver también Propiedad: tema/categoría del catálogo y Propiedad: tema/categoría del dataset. 

10.Clase: Organización/Persona

  • Nota de uso: FOAF (Friend of A Friend) ofrece suficientes propiedades para describir estas entidades. 

11.Extensión del vocabulario

Como cualquier modelo RDF, este vocabulario se puede extender de forma sencilla usando propiedades RDF adicionales en cualquier lugar. Los operadores del catálogo pueden elegir entre las propiedades existentes en vocabularios o crear sus propios vocabularios personalizados.

  • Se pueden utilizar clases adicionales, ya existentes o creadas ad hoc

  • Las extensiones que se usan en un catálogo particular deberían ser documentadas para que el resto de los usuarios puedan conocer las propiedades adicionales disponibles. 

  • Como norma general, se desaconseja la creación de nuevas subclases y subpropiedades de los términos usados en dcat, como nuevos tipos de distribuciones, ya que podría romper las consultas SPARQL que los consumidores de datos hacen para obtener información. 

  • Como siempre en RDF, si se necesita utilizar nuevas clases o propiedades, no se deben introducir nuevos términos en espacios de nombres ajenos, sino que se establecerá un nuevo espacio de nombres propio y se definirán los nuevos términos en él. 

1 Grupo de Interés de eGovernment del W3C: http://www.w3.org/egov/

2 VoId Guide. Announing the Licence of the Dataset http://rdfs.org/ns/void-guide#sec_1_3_Announcing_the_license_of

3 Date and Time Formats: http://www.w3.org/TR/NOTE-datetime

4 Gregorian Calendar URI Space: http://www.placetime.com/interval/gregorian/

5 Geonames: http://www.geonames.org/

6 Announcing the licese of a dataset: http://vocab.deri.ie/void/guide#sec_1_3_Announcing_the_license_of

7 Publishing Statistical Data: http://groups.google.com/group/publishing-statistical-data

8 MIME Media Types: http://www.iana.org/assignments/media-types/