Extraer metadatos de DILVE
Esta sección explica cómo gestionar la descarga inicial de la información de DILVE, así como la programación de extracciones periódicas y la utilización de la API de DILVE para mantener actualizados los metadatos en sistemas externos.
El uso correcto de DILVE supone que los usuarios tengan repositorios locales, sincronizados con DILVE. DILVE está optimizado para funcionar así. No es correcto lanzar querys a DILVE cada vez que un usuario les haga una consulta. Para ello habrá que hacer una descargar inicial del repositorio, y actualizaciones periódicas. También se deben llevar copias locales de los recursos (imágenes, etc.).
DILVE tiene dos mecanismos para obtener los datos: extracciones y la DAPI (API de llamadas HTTP de DILVE). El más adecuado para descargas iniciales y actualizaciones son las extracciones. La DAPI sirve para circunstancias muy concretas en la que no se necesite obtener un gran volumen de registros, p.ej. o para obtener los recursos asociados a un ISBN.
Las descargas de imágenes se deben hacer, preferiblemente, con la DAPI porque el mismo entorno podrá servir para descargar imágenes de la URL proporcionada por la editorial, o de la URL construida para acceder a DAPI y, además, se puede controlar la fecha de modificación de la imagen.
Extracción inicial del catálogo de DILVE
Debido al tamaño del catálogo completo de DILVE, para hacer una extracción inicial de toda la información es necesario hacer extracciones parciales con las que se podrán recibir archivos de metadatos de un tamaño manejable para los sistemas informáticos.
El criterio de selección más sencillo para preparar las extracciones parciales es la fecha de publicación de los libros. Los tramos para los años más lejanos en el pasado pueden ser de varios años, pero para las publicaciones más recientes se recomienda utilizar tramos de meses. En caso de que en las extracciones se estén adjuntando archivos, los tramos deberán ser menores.
Para establecer el tamaño de las extracciones parciales se debe tener en cuenta dos factores:
- Los usuarios tienen número máximo de registros por extracción, que generalmente es de 100.000 registros.
- El método de envío que se seleccione en la extracción determinará el tamaño máximo. Los envíos a un servidor FTP externo permiten archivos grandes, las extracciones al buzón DILVE el usuario tiene más limitaciones y los envíos por correo electrónico tienen un límite máximo de 30MB por lo que el número de registros incluidos en la extracción deberá ser menor.
- Si se selecciona la opción de adjuntar archivos de imágenes o PDF, el tamaño del ZIP resultante de la extracción será mucho mayor, por lo que se recomienda utilizar tramos de fechas de publicación menores.
Para las extracciones sin adjuntos, la aproximación a los tramos posibles podría ser la siguiente:
- Sin fecha de publicación
- Anteriores a 1995 (01/1900 - 12/1994)
- Entre 1995 y 1999 (01/1995 - 12/1999)
- Entre 2000 y 2002 (01/2000 - 12/2002)
- Entre 2003 y 2004 (01/2003 - 12/2004)
- Entre 2005 y 2006 (01/2005 - 12/2006)
- Entre 2009 y 2010 (01/2009 - 12/2010)
- Tramos anules entre 2011 y 2020
- Tramos semestrales a partir de 2021
- Una última extracción entre el mes en el que se haga la extracción y 12/2999.
Para consultar el detalle de cómo configurar las extracciones parciales, se puede consultar la sección Extraer datos > Configurar extracciones.
Configuración de extracciones periódicas de metadatos
Una vez descargada la información de DILVE que se necesite, para mantener actualizados los metadatos en sistemas externos, se pueden configurar extracciones periódicas que permitan recibir de forma automática los nuevos registros de DILVE o las modificaciones que se realicen en los registros existentes.
Si la extracción incluye toda la información de DILVE, se recomienda configurar una extracción periódica cada 12 horas o diaria, ya que la extracciones semanales acumulan muchos cambios y el tamaño de los archivos puede ser muy grande.
Para consultar el detalle de cómo configurar las extracciones parciales, se puede consultar la sección Extraer datos > Configurar extracciones.
Utilización de la API de DILVE para extracciones personalizadas
DILVE dispone de una API que permite realizar consultas personalizadas para obtener información específica del catálogo de DILVE.
Para mantener actualizado un sistema externo a DILVE, se deben configurar las siguientes llamada a la API de DILVE:
- getRecordStatusX: para obtener los ISBN de los libros que han sido modificados o añadidos a DILVE entre dos fecha concretas (la fecha de envío de esta consulta será la fecha de inicio de la siguiente llamadas).
- getRecordX: para obtener los metadatos de los ISBN obtenidos en la consulta anterior.
- getResourceX: para descargar los recursos asociados a los ISBN obtenidos en la primera consulta. Los recursos que hayan sido informados como una URL a la web de la editorial, deberán descargarse utilizando la propia URL, y no a través de esta consulta a la API de DILVE.
Para conocer en detalle la funcionalidad de la API de DILVE, se puede consultar la Guía de uso.