La recuperación de información (IR) se puede definir como un programa de software que se ocupa de la organización, el almacenamiento, la recuperación y la evaluación de la información de los repositorios de documentos, en particular la información textual. La recuperación de información es la actividad de obtener material que generalmente se puede documentar en una naturaleza no estructurada, es decir , generalmente texto que satisface una necesidad de información dentro de grandes colecciones que se almacenan en computadoras. Por ejemplo, la Recuperación de Información puede ser cuando un usuario ingresa una consulta al sistema.
No sólo los bibliotecarios, los buscadores profesionales, etc. se involucran en la actividad de recuperación de información, sino que hoy en día cientos de millones de personas se involucran en RI todos los días cuando usan motores de búsqueda web. Se cree que la recuperación de información es la forma dominante de acceso a la información. El sistema de infrarrojosayuda a los usuarios a encontrar la información que necesitan, pero no devuelve explícitamente las respuestas a la pregunta. Notifica sobre la existencia y ubicación de documentos que pudieran constar de la información requerida. La recuperación de información también amplía el soporte a los usuarios para explorar o filtrar la colección de documentos o procesar un conjunto de documentos recuperados. El sistema busca en miles de millones de documentos almacenados en millones de computadoras. El programa de correo electrónico proporciona un filtro de spam, medios manuales o automáticos para clasificar los correos electrónicos de modo que puedan colocarse directamente en carpetas particulares.
Un sistema IR tiene la capacidad de representar, almacenar, organizar y acceder a elementos de información. Se requiere un conjunto de palabras clave para buscar. Las palabras clave son lo que la gente busca en los motores de búsqueda. Estas palabras clave resumen la descripción de la información.
¿Qué es un modelo IR?
Un modelo de Recuperación de Información (IR) selecciona y clasifica el documento que requiere el usuario o que el usuario ha solicitado en forma de consulta. Los documentos y las consultas se representan de manera similar, de modo que la selección y clasificación de documentos se puede formalizar mediante una función de coincidencia que devuelve un valor de estado de recuperación (RSV) para cada documento de la colección. Muchos de los sistemas de Recuperación de Información representan el contenido de los documentos mediante un conjunto de descriptores, llamados términos, pertenecientes a un vocabulario V. Un modelo IR determina la función de coincidencia consulta-documento según cuatro enfoques principales:
La estimación de la probabilidad de relevancia del usuario rel para cada documento d y consulta q con respecto a un conjunto R q de documentos de entrenamiento: Prob (rel|d, q, R q )
Tipos de modelos IR
Componentes de Recuperación de Información/Modelo IR
- Adquisición: en este paso, se lleva a cabo la selección de documentos y otros objetos de varios recursos web que consisten en documentos basados en texto. Los rastreadores web recopilan los datos requeridos y los almacenan en la base de datos.
- Representación: Consiste en una indexación que contiene términos de texto libre, vocabulario controlado, técnicas manuales y automáticas. ejemplo: Resumen contiene resumen y descripción bibliográfica que contiene autor, título, fuentes, datos y metadatos.
- Organización de archivos: Hay dos tipos de métodos de organización de archivos. es decir , Secuencial : Contiene documentos por datos de documento. Invertida : Contiene término por término, lista de registros bajo cada término. Combinación de ambos.
- Consulta: un proceso de IR comienza cuando un usuario ingresa una consulta en el sistema. Las consultas son declaraciones formales de necesidades de información, por ejemplo, strings de búsqueda en motores de búsqueda web. En la recuperación de información, una consulta no identifica de manera única un solo objeto en la colección. En su lugar, varios objetos pueden coincidir con la consulta, quizás con diferentes grados de relevancia.
Diferencia entre recuperación de información y recuperación de datos
Recuperación de información | Recuperación de datos |
---|---|
El programa de software que se ocupa de la organización, el almacenamiento, la recuperación y la evaluación de la información de los repositorios de documentos, en particular la información textual. | La recuperación de datos se ocupa de la obtención de datos de un sistema de gestión de bases de datos como ODBMS. Es un proceso de identificación y recuperación de datos de la base de datos, en función de la consulta proporcionada por el usuario o la aplicación. |
Recupera información sobre un tema. | Determina las palabras clave en la consulta del usuario y recupera los datos. |
Es probable que los pequeños errores pasen desapercibidos. | Un solo objeto de error significa una falla total. |
No siempre está bien estructurado y es semánticamente ambiguo. | Tiene una estructura y una semántica bien definidas. |
No proporciona una solución al usuario del sistema de base de datos. | Proporciona soluciones al usuario del sistema de base de datos. |
Los resultados obtenidos son coincidencias aproximadas. | Los resultados obtenidos son coincidencias exactas. |
Los resultados están ordenados por relevancia. | Los resultados están desordenados por relevancia. |
Es un modelo probabilístico. | Es un modelo determinista. |
Interacción del usuario con el sistema de recuperación de información
La tarea del usuario: se supone que la información primero debe traducirse en una consulta por parte del usuario. En el sistema de recuperación de información, hay un conjunto de palabras que transmiten la semántica de la información que se requiere, mientras que, en un sistema de recuperación de datos, se utiliza una expresión de consulta para transmitir las restricciones que satisfacen los objetos. Ejemplo: Un usuario quiere buscar algo pero termina buscando con otra cosa. Esto significa que el usuario está navegando y no buscando. La figura anterior muestra la interacción del usuario a través de diferentes tareas.
- Vista Lógica de los Documentos: Hace mucho tiempo, los documentos se representaban a través de un conjunto de términos de índice o palabras clave. Hoy en día, las computadoras modernas representan documentos mediante un conjunto completo de palabras, lo que reduce el conjunto de palabras clave representativas. Esto se puede hacer mediante la eliminación de palabras vacías, es decir, artículos y conectores. Estas operaciones son operaciones de texto. Estas operaciones de texto reducen la complejidad de la representación del documento de texto completo a un conjunto de términos de índice.
Pasado, presente y futuro de la recuperación de información
1. Desarrollos iniciales: a medida que aumentaba la necesidad de mucha información, se hizo necesario crear estructuras de datos para obtener un acceso más rápido. El índice es la estructura de datos para una recuperación más rápida de la información. Durante siglos, se realizó una categorización manual de jerarquías para los índices.
2. Recuperación de información en bibliotecas:Las bibliotecas fueron las primeras en adoptar sistemas IR para la recuperación de información. En la primera generación, consistió en la automatización de tecnologías anteriores y la búsqueda se basó en el nombre del autor y el título. En la segunda generación, incluía búsquedas por encabezamiento de materia, palabras clave, etc. En la tercera generación, consistía en interfaces gráficas, formularios electrónicos, funciones de hipertexto, etc.
3. La Web y las Bibliotecas Digitales: Es más económica que varias fuentes de información, brinda mayor acceso a las redes debido a la comunicación digital y da libre acceso para publicar en un medio más grande.
Publicación traducida automáticamente
Artículo escrito por siddhi2420 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA