miércoles, 28 de mayo de 2025

Bases de datos vs Datasets

Cuando hablamos de gestión de datos, de procesamiento del lenguaje natural (en inglés NLP, que es la combinación de modelos de lingüística computacional, machine learning y aprendizaje profundo para procesar el lenguaje humano. La lingüística computacional es la ciencia de entender y crear modelos de lenguaje humano con computadoras y herramientas de software), es fundamental comprender las diferencias entre una base de datos y un dataset.



Por un lado, está la BASE DE DATOS, que es una estructura organizada que almacena la información de manera sistemática, es decir, de manera ordenada. 

Es donde los registros, datos y detalles se almacenan en tablas, formadas éstas en filas y columnas, lo que permite un acceso rápido y eficiente a la información.

Base de datos = gestión operativa diaria.

Base de Datos → Gestión continua, múltiples usuarios, estructura compleja


Por otro lado, está el DATASET, que se refiere a una colección de información que se utiliza en análisis y procesamiento. A modo general, un dataset es un conjunto de datos.  Conjunto de datos que puede presentarse en muchas formas, desde textos e imágenes, hasta registros y valores numéricos.

Dataset = análisis y conocimiento extraído

Dataset → Análisis puntual, estructura simple, uso individual o académico





Para comprender aún mejor esta diferencia, vamos a imaginarnos que estamos dentro de una biblioteca

Así pues, la base de datos es como la biblioteca entera.
Imaginad una gran sala llena de estanterías, donde se guardan muchos libros (que en este caso serían distintos tipos de información). En esa biblioteca podéis tener diferentes secciones: una con novelas, otra con enciclopedias, otra con revistas, etc. Todo está organizado para que se pueda encontrar lo que se busca fácilmente.

Y un dataset (o conjunto de datos) es como un solo libro o incluso una sola tabla dentro de esa biblioteca. Es una colección de datos sobre un tema específico, como por ejemplo: una lista con los nombres y edades de los usuarios de una determinada facultad , o una tabla con los préstamos realizados en un semestre


En resumen, la base de datos es el “contenedor grande”, en nuestro ejemplo, la biblioteca. Y el dataset es un “conjunto específico de datos”, en nuestro ejemplo, un libro o una tabla.
La base de datos es el TODO y el dataset es solo UNA PARTE de toda la información que se tiene, enfocada, centrada en un solo tema.



EJEMPLOS PRÁCTICOS PARA TENER CLARA LA DIFERENCIA ENTRE BASES DE DATOS Y DATASETS

Vamos a la práctica aplicando ejemplos. 

Ejemplo de base de datos en una biblioteca.

Nombre: Academic Search Ultimate (de EBSCOhost)
Tipo: Base de datos bibliográfica y de texto completo
Uso: Una biblioteca universitaria suscribe esta base de datos para ofrecer acceso a artículos académicos, revistas científicas, informes y otros documentos en diversas disciplinas. 
El personal bibliotecario y los usuarios pueden buscar literatura científica a través de una interfaz avanzada, filtrando por autor, materia, tipo de documento, etc.

Contenido de la base de datos: 
  • Artículos de revistas académicas
  • Reseñas
  • Libros electrónicos
  • Actas de congresos
  • Documentos de trabajo


Ejemplo de dataset en una biblioteca

Nombre: Estadísticas de uso de recursos electrónicos (año 2024)
Tipo: Dataset interno
Uso en biblioteca: Un dataset generado por el sistema de gestión de recursos electrónicos de la biblioteca, que recoge métricas sobre cuántas veces se accedió a cada base de datos, número de descargas de artículos, uso por facultad, etc. 
Este dataset se usa para análisis internos, justificación de renovaciones de licencias o mejora de servicios.

Contenido (campos típicos del dataset):
  • Nombre del recurso electrónico
  • Número de sesiones
  • Número de descargas
  • Fecha de uso
  • IP o facultad de origen (anonimizado*) 

Pongamos otro ejemplo más:

1.[SCOPUS]

Tipo de recurso: Base de datos
Proveedor: Elsevier
Disponible en línea

Scopus es una base de datos bibliográfica multidisciplinar que ofrece resúmenes y citas de literatura científica revisada por pares. Incluye herramientas para análisis de producción científica, métricas y tendencias de investigación.

Acceso restringido a usuarios autorizados
Etiquetas: Ciencias, Tecnología, Medicina, Bibliometría
Ubicación: Bases de datos A-Z

2.[Estadísticas de préstamo por facultad, 2023]

Tipo de recurso: Conjunto de datos (Dataset)
Publicado por: Biblioteca XXX, 2023
Disponible en línea

Este conjunto de datos recoge el número de préstamos realizados por facultades durante el año 2023. Contiene campos como nombre de la facultad, total de préstamos mensuales y datos agregados.
Formato: CSV
Disponible en: Repositorio institucional
Etiquetas: Estadísticas de biblioteca, Uso de recursos, Análisis institucional
Colección: Informes y estadísticas anuales



Recursos a consultar para ampliar este tema:


Solis, D. C. Solis, Diego Caceres. “Datasets: Qué Son y Cómo Acceder a Ellos: OpenWebinars.” OpenWebinars.Net, 1 May 2023, openwebinars.net/blog/datasets-que-son-y-como-acceder-a-ellos/. Accessed 28 May 2025.

Jesús. “Base de Datos vs Dataset: Cuándo y Cómo Utilizar Cada Uno.” Tutoriales Dongee, 5 Feb. 2024, www.dongee.com/tutoriales/base-de-datos-vs-dataset/. Accessed 28 May 2025.

65 Datasets Found.” Dataset - Datos Abiertos de La Biblioteca Nacional de España, datosabiertos.bne.es/en/dataset. Accessed 28 May 2025.

“Datasets: Qué Es, Tipos y Dónde Encontrarlos: Blog UE.” Universidad Europea, 10 Feb. 2025, universidadeuropea.com/blog/datasets-que-es/. Accessed 28 May 2025.



No hay comentarios:

Publicar un comentario