miércoles, 23 de noviembre de 2022

Recuperación de la información


Términos como recuperación de textos, recuperación documental y recuperación de información son utilizados indistintamente para referirse a lo mismo.

La recuperación de información es el conjunto de actividades orientadas a facilitar la localización de determinados datos, y las interrelaciones que estos tienen a su vez con otros datos. Existen varias disciplinas vinculadas a esta actividad como la lingüística, la documentación o la informática.



Imagen tomada de: Olvera Lobo, Mª Dolores. “Evaluación de sistemas de recuperación de información: aproximaciones y nuevas tendencias”. En: El profesional de la información, 1999, noviembre, v. 8, n. 11, pp. 4-14.



El proceso de recuperación de información 
consiste en
 EXTRAER LO QUE SE AJUSTA A LAS ESPECIFICACIONES DE UNA DEMANDA.



FASES.


FASE 1

 * Traducción del documento en un lenguaje de indexación. La expresión que resulta de este proceso se llama modelo de búsqueda del documento. Se trata de representar el documento por una serie de descriptores que lo determinen lo más directamente posible para su posterior búsqueda. 

FASE 2

* Expresión de la petición de información en el mismo lenguaje del modelo de búsqueda. Se obtiene el denominado perfil de búsqueda. 

FASE 3

* Comparación sistemática de los modelos de búsqueda de los documentos con el perfil de búsqueda, a fin de seleccionar los que se ajusten a este. 

En esta fase, se trabaja con los descriptores de búsqueda. Se debe tener en cuenta todas las formas posibles de expresión de un concepto. Si no se tiene en cuenta esto, se puede perder mucha información. La selección debe ser apropiada y ajustada, ya que si seleccionamos de modo muy amplio, podríamos obtener datos de interés nulo. Por ello la importancia  de elaborar muy bien el perfil de búsqueda.

Al seleccionar los descriptores para la búsqueda, habrá que tener en cuenta todas las posibles formas de expresión de un concepto en la indexación de los documentos (sinónimos, conceptos más generales y más específicos, etc.) ya que de otro modo podrían perderse cantidades importantes de información. 


¡Debemos ser precisos y exhaustivos!


FUNCIONAMIENTO


El funcionamiento de un sistema de recuperación de información se puede medir analizando los datos (o documentos) recuperados ante una consulta. Dos son las principales medidas:

• Precisión: volumen de datos relevantes entre el total de datos recuperados

• Exhaustividad: volumen de datos relevantes entre el total de datos relevantes en el repositorio o la BD


Ambas medidas tienden a evolucionar en sentido inverso (Ley de Cleverdon). Cuanto más crece la precisión más disminuye la exhaustividad, y al contrario.

Esto es debido a que miden factores distintos, el ruido y el silencio:



• Ruido: información recuperada no relevante

• Silencio: información no recuperada que es relevante

Así que debemos contar que si la selección es demasiado amplia, se obtendrán documentos carentes de interés.

De ahí la importancia de preparar adecuadamente el perfil de búsqueda, operación que resulta así la más importante en el proceso de recuperación de información.




PREPARACIÓN DE PERFILES DE BÚSQUEDA


El perfil de búsqueda parte de una petición de información en lenguaje natural, y consta esencialmente de tres elementos: 

Identificación de los conceptos.

Desarrollo y expansión de los conceptos, mediante una colección de términos. Es, pues, necesario desarrollar cada concepto teniendo en cuenta los sinónimos, palabras más genéricas, más específicas, etc., para lo cual será apreciable la ayuda de un thesaurus (conjunto de términos de una bases de datos).

Expresión de las relaciones entre los términos, mediante operadores lógicos (AND, OR, NOT) 


A la hora de elaborar un  perfil para una búsqueda temática, (materias), no olvidaros que también es posible realizar por autores, revistas, idiomas ... Se puede recurrir a usos como el truncado. El truncado es el artificio mediante el cual el ordenador considerará aciertos a todos los términos que contengan determinados fragmentos de palabras, sean cualesquiera las letras que se hallen antes o después de los mismos. 

Truncar un término que se utiliza para ampliar una búsqueda de acuerdo a su raíz o la familia léxica (palabras que tienen la misma raíz) de una palabra. Los símbolos de truncamiento / comodín varían según la base de datos ( * (asterisco) y ? (signo de interrogación)) 

Símbolos:

Asterisco (*): recuperaría documentos que contuvieran los términos introducidos

Interrogación (?): sustituiría el interrogante por cualquier digito

Comillas ("): Se utiliza para buscar los términos tal cual se han introducido, es decir, se tratarán como frase.


Existen tres tipos de truncado: - De sufijo: (biblio*) - De prefijo: (*biblio) - De infijo: (*biblio*)

 De todas formas no se debe abusar del truncado porque puede conducir a la recuperación de muchos documentos irrelevantes. 


Para las relaciones entre términos y conceptos mediante los operadores lógicos, se recuren a:

 * El operador OR permite obtener un nuevo conjunto formado por los documentos que contienen indistintamente el término A o el B (operación de unión) 

* El operador de intersección, AND, permite obtener un conjunto formado por los documentos que contienen simultáneamente los términos A y B. 

* El operador de exclusión, NOT, permite formar conjuntos de documentos que contienen el término A, pero no el B. 

En general, se relacionarán con la lógica OR los términos correspondientes a un mismo concepto; con la lógica AND los conceptos que deben estar presentes simultáneamente y con la lógica NOT, aquellos que se desee excluir.



Operadores de posición: 




Una vez preparado el perfil de búsqueda, se efectuará la comparación con los modelos de búsqueda de los documentos, para obtener los que se ajustan al perfil. 

Finalmente habrá que comprobar si los documentos obtenidos satisfacen los requisitos del peticionario, es decir, la relevancia de dichos documentos para la búsqueda solicitada. Muy a menudo, la información que en verdad se necesita no coincide exactamente con lo que se pide. Ello se debe, normalmente, a que el usuario no conoce con precisión sus necesidades, o no es capaz de expresarlas de forma adecuada.

La RELEVANCIA es una medida del grado en que determinado elemento responde a una consulta. Su medida es frecuentemente subjetiva, ya que responden a la consulta en función del conocimiento de quién evalúa y del que pregunta.


MEDIDAS DE RECUPERACIÓN

Los modelos de recuperación tratan de calcular el grado en que determinado elemento de información responde a determinada consulta. En general esto se consigue calculando los coeficientes de similitud (Coseno, Phi, etc). Los tres modelos más utilizados son: 

Booleano: se crea un conjunto con los elementos de la consulta y otro con los documentos, y se mide la correspondencia.

Vectorial: en el que la consulta y los términos del documento se representan mediante dos vectores, y se mide el grado en que ambos vectores divergen. 

Probabilístico: se calcula la probabilidad en que el documento responde a la consulta. Frecuentemente utiliza retroalimentación. La retroalimentación se basa en que el usuario indique que documentos se parecen más a su respuesta idónea, para así reformular la consulta.





No hay comentarios:

Publicar un comentario