ENTREVISTA A ... RDA

El lugar donde escribo principalmente sobre bibliotecas, archivos, tecnologías de la información, transformación digital, cultura, documentación y sobre temas del ámbito de la información ... y difundo mis hobbies de fotografía e ilustración digital (en las otras pestañas del blog) ¡Muchas gracias por tu visita!
La inteligencia artificial (IA) está sacudiendo todos los terrenos en los que se introduce, y el mundo de la archivística también siente su impacto.
Su aplicación en archivos, principalmente universitarios y de investigación, nos abre un amplio panorama en cuanto a la optimización de tareas, la mejora en el acceso a la información y el fortalecimiento del valor de los fondos documentales que se custodian.
Lo importante es comenzar poco a poco, con objetivos claros y realistas, y apoyarse en comunidades y recursos existentes.
¡Dejemos claro una cosa …! La IA no sustituye al archivista, sino que le aporta herramientas potentes para enriquecer su trabajo. En el contexto universitario, su potencial es enorme: desde facilitar la investigación hasta agilizar la gestión documental.
La IA como “archivera”
La IA, mediante técnicas como el procesamiento del lenguaje natural (PLN) y la visión artificial*, logra la extracción de metadatos de documentos escaneados, también nos auxiliará en el poder generar descripciones automáticas (palabras clave, abstracts, nombres, etc.), incluso el reconocimiento de texto manuscrito en fondos históricos (HTR Handwritten Text Recognition, ) a través de modelos entrenados, un ejemplo la herramienta Transkribus. Todo esto, se englobaría en la labor de la descripción archivística.
En cuanto al proceso de clasificación y organización documental, existen soluciones IDP (Procesos Inteligentes de Documentos) capaces de clasificar automáticamente documentos en series o tipologías, según su contenido.
Además de identificar duplicados o versiones mediante análisis de similitud semántica y/o visual. La detección de un contenido sensible (como son los datos personales) para facilitar el tratamiento correcto y conforme a la normativa de la protección de datos.
En cuanto a la búsqueda de información y recuperación documental, la IA permite, mediante motores de búsqueda semánticos:
• Buscar por conceptos y no solo por palabras exactas.
• Responder preguntas sobre el contenido (tipo "¿qué decisiones tomó el consejo de gobierno en 1995?" en vez de “consejo de gobierno 1995”).
El problema del comienzo … ¿Qué se necesita para empezar?
Recursos básicos
• Digitalización y organización previa de los fondos.
• Acceso a herramientas compatibles (algunas gratuitas, otras con coste).
• Personal con conocimientos básicos en tratamiento documental y disposición a aprender nociones clave de IA.
Herramientas accesibles.
Aquí os dejo unos ejemplos:
Finalidad: Transcripción manuscrita. Herramienta: Transkribus. Observaciones: Gratuita para uso limitado; muy útil en fondos antiguos.
Finalidad: Clasificación documental. Herramientas: Doccano, LightTag. Observaciones: Herramientas de código abierto para entrenar modelos.
Finalidad: OCR mejorado. Herramienta: Tesseract + IA. Observaciones: Se puede integrar en flujos de trabajo simples.
Finalidad: Búsqueda semántica. Herramienta: ChatGPT, Haystack. Observaciones: Se puede entrenar un modelo con tu fondo documental.
Retos y precauciones
Aplicaciones prácticas en un archivo universitario
La IA no sólo transforma los archivos como institución, sino también la forma en que trabaja el propio archivista
EL uso de asistentes personales como ChatGPT, Claude o Copilot pueden ayudar a la redacción de informes, elaborar textos para exposiciones virtuales o generar borradores de instrumentos de descripción archivística.
Para trabajar con documentos multilingües, la realización de resúmenes o traducir catálogos, manuales o documentos de trabajo, el uso de aplicaciones de traducción automática mejorada como DeepL, o Google Translate + revisión, serían opciones muy acertadas.
Recordemos que hoy en día la aplicación del reconocimiento óptico de caracteres (OCR) es normal y que nos ayuda a buscar en documentos escaneados. Y eso, es una aplicación/solución inteligente. Una solución que nos facilita enormemente el acceso a la información.
Como he mencionado arriba, a la hora de trabajar con fondos históricos digitalizados, la integración de plataformas como Transkribus, no sólo nos ayuda a la transcripción, sino también a la generación de índices temáticos automáticamente.
También nos ahorraría tiempo y trabajo en tareas repetitivas, en las que únicamente el personal archivero, comprobaría y supervisaría que todo fuese correcto, como:
Creación masiva de metadatos a partir de plantillas y extracción automática con herramientas como Python, OpenRefine o scripts conectados a OCRs.
Detección de errores o inconsistencias en bases de datos documentales gracias a modelos entrenados para revisar estructuras de metadatos.
En cuanto a la visualización de datos archivísticos: utilizar Power BI, Tableau o Flourish para generar mapas cronológicos, árboles jerárquicos o diagramas de flujo que faciliten la consulta o análisis de fondos documentales complejos.
![]() |
Imagen creada por IA |
Si hablamos del análisis y minería de texto (Text Mining), existen herramientas como Voyant Tools, spaCy o Gensim que permiten analizar grandes volúmenes de texto para identificar temas recurrentes, extraer nombres propios, fechas o lugares, detectar relaciones entre documentos (útil en fondos de investigación).
Existen otras herramientas/aplicaciones enfocadas a la curación de contenidos y vigilancia tecnológica: Configurar alertas y resúmenes automáticos con herramientas como Feedly + Leo (IA) o Perplexity AI para mantenerte actualizado sobre nuevas normativas, herramientas y tendencias en archivística.
Cuando hablamos de gestión de datos, de procesamiento del lenguaje natural (en inglés NLP, que es la combinación de modelos de lingüística computacional, machine learning y aprendizaje profundo para procesar el lenguaje humano. La lingüística computacional es la ciencia de entender y crear modelos de lenguaje humano con computadoras y herramientas de software), es fundamental comprender las diferencias entre una base de datos y un dataset.
Por un lado, está la BASE DE DATOS, que es una estructura organizada que almacena la información de manera sistemática, es decir, de manera ordenada.
Es donde los registros, datos y detalles se almacenan en tablas, formadas éstas en filas y columnas, lo que permite un acceso rápido y eficiente a la información.
Base de datos = gestión operativa diaria.
Base de Datos → Gestión continua, múltiples usuarios, estructura compleja
Por otro lado, está el DATASET, que se refiere a una colección de información que se utiliza en análisis y procesamiento. A modo general, un dataset es un conjunto de datos. Conjunto de datos que puede presentarse en muchas formas, desde textos e imágenes, hasta registros y valores numéricos.
Dataset = análisis y conocimiento extraído
Dataset → Análisis puntual, estructura simple, uso individual o académico
Comenzamos este post aclarando y enfatizando que la digitalización va más allá de escanear documentos.
Es una pieza clave dentro de la transformación digital, que redefine cómo se crean, gestionan y ofrecen los servicios documentales en el entorno digital actual.
En bibliotecas, archivos, centros de documentación y de gestión informacional, este proceso es clave para la conservación, difusión y eficiencia operativa.
Existen varios TIPOS DE DIGITALIZACIÓN según su propósito:
Ilustración creada por IA |
Imagen creada por IA |
Continuo con el tema de los repositorios. En esta tercera entrega, trataré aspectos sobre la creación de un repositorio.
Os dejo a continuación los enlaces de las entregas anteriores por si queréis una lectura más continua.
Recordemos que un repositorio es un conjunto de SERVICIOS prestados por una INSTITUCIÓN que sirve para publicar en Internet (lo más común es en acceso abierto*) una base de datos que incluye los documento digitales o digitalizados que conforman los fondos/colecciones de una unidad de información (en nuestro caso, biblioteca o archivo)
Los repositorios se han convertido en el espacio de crecimiento de los servicios de información, son como otro paso en la evolución de tratamiento de la información y su acceso/difusión.
La CREACIÓN DE UN REPOSITORIO es un proceso detallado, pero con una buena planificación y los recursos adecuados, puede ser una herramienta valiosa para preservar y compartir el conocimiento.
Imagen tomada de la web Implementación de un repositorio para apoyo a la gestión administrativa. |
Para que sea más sencillo los PASOS A REALIZAR, expondré de modo claro y muy "esquemático" lo más importante:
PASO 1. Diagnóstico y Estrategia
Antes de empezar, es importante hacer un diagnóstico para entender las necesidades de la institución. Esto incluye:
Definir los objetivos: ¿Para qué se creará el repositorio? ¿Qué se espera lograr con él?
Recursos necesarios: ¿Cuántos recursos humanos, financieros e infraestructuras se requieren?
Tipos de materiales: ¿Qué tipo de documentos o archivos se almacenarán? ¿Serán digitales desde el principio o necesitarás digitalizar materiales físicos?
Si necesitas digitalizar materiales físicos (como libros o fotos), este proceso debe estar bien planificado, ya que puede ser costoso. Es recomendable seguir las normas y estándares de digitalización establecidos para garantizar que todo esté bien hecho. También se debe decidir si crear un repositorio propio o unirse a un repositorio cooperativo ya existente.
PASO 2. Cobertura Legal
Es importante asegurarse de que todo el contenido que se suba al repositorio tenga los derechos adecuados. De acuerdo con la ley de propiedad intelectual, necesitarás la autorización de los autores o de sus herederos para incluir sus trabajos.
En muchos repositorios institucionales, los investigadores pueden subir versiones de sus artículos científicos, siempre y cuando esto esté permitido por las revistas.
PASO 3. Recursos
3.1.Hardware
Necesitarás servidores para almacenar el repositorio. Dependiendo de la cantidad de documentos y usuarios, puedes optar por un sistema local (en la institución) o externo (en la nube). Las decisiones clave incluyen:
Presupuesto: ¿Cuánto puedes gastar?
Volumen de documentos: ¿Cuántos archivos planeas almacenar?
Acceso y consultas: ¿Cuántos usuarios accederán al repositorio?
3.2.Software
La mayoría de los repositorios usan software libre, lo que significa que puedes obtenerlo sin tener que pagar licencias. Esto tiene varias ventajas:
Adaptabilidad: Se puede modificar según las necesidades.
Bajos costos: Es gratuito.
Independencia: No dependes de un proveedor específico.
Existen varios sistemas de software para repositorios, como DSpace y EPrints, que son muy populares. La elección dependerá del tipo de documentos que quieras almacenar. En el caso de España el más usado es DSpace.
Dspace es un software de código abierto para la creación de repositorios y bibliotecas digitales que provee herramientas para la administración de colecciones digitales. Soporta una gran variedad de datos, incluyendo libros, tesis, fotografías,videos, datos de investigación y otras formas de contenido.
3.3Metadatos
Los metadatos son la información que describe los documentos (como el autor, el título o la fecha). Es importante seguir estándares internacionales como el Dublin Core para asegurar que toda la información esté organizada y sea fácil de encontrar.
Se recomienda que los propios autores suban sus documentos al repositorio, añadiendo los metadatos básicos. Luego, un equipo de bibliotecarios puede revisar y completar la información.
Es aconsejable también implementar el uso de metadatos PREMIS: para asegurar la preservación a largo plazo de los objetos digitales del repositorio, y también de METS, otro estándar usado para codificar los metadatos descriptivos, administrativos y estructurales, basado en XML.
Dentro de la descripción de los documentos, es fundamental otro aspecto a recalcar: Etiquetar y los insights.
PASO 4. Implementación
4.1.Planificación de Tareas
Es crucial tener un calendario que establezca qué se hará y cuándo. Esto ayuda a no perder el rumbo del proyecto.
4.2.Publicación y Evaluación
Una vez creado el repositorio, es importante evaluar su visibilidad. Existen guías y herramientas para evaluar cómo está funcionando el repositorio, como la Guía para la evaluación de repositorios institucionales de investigación . Enlace para su descarga
4.3.Preservación y Seguridad
Uno de los mayores desafíos es asegurar que el repositorio se mantenga seguro y accesible a largo plazo. Los tres aspectos clave son:
a) Preservación: Los datos no se perderán ni se dañarán.
b) Accesibilidad: Los usuarios podrán acceder a los datos sin problemas.
c) Comprensibilidad: Los datos seguirán siendo útiles, incluso con el paso de los años y el cambio de tecnologías. (superando la obsolescencia)
PASO 5. Promoción del Repositorio
El siguiente paso es dar a conocer el repositorio.
Primero, es fundamental formar (instruir/orientar) a los usuarios dentro de la institución para que sepan cómo utilizarlo. Luego, se debe promover externamente para atraer más usuarios, utilizando herramientas en línea y redes sociales.
Al tener un repositorio bien organizado y promocionado, se asegura que los recursos digitales sean accesibles para todos y se mantengan a largo plazo.
Recursos para ampliar datos sobre el contenido del post.
Vídeo-ponencia de la Universidad Politécnica de Valencia (UPV) Creación de repositorios (Duración:13:23)
Recursos sobre DSPACE:
Vídeotutorial DSpace 7 como repositorio de datos (funcionalidades) Julián Timal - Experto técnico en DSpace 7
Vídeotutoriales Minitutoriales DSPACE 7.4
* La cultura del "Open Access" está cambiando la forma en que compartimos el conocimiento, haciendo que la investigación sea más accesible, transparente y útil para todos. Promueve la colaboración global y la igualdad en el acceso a la información, lo que puede acelerar la innovación y el progreso en diversos campos.