Способы информационного поиска дать формально механическую семантически описательную

Способы информационного поиска дать формально механическую семантически описательную

Основные понятия информационного поиска. Релевантность, пертинентность и их отличие.

Информационный поиск (ИП) (англ. Information retrieval) — процесс поиска неструктурированной документальной информации и наука об этом поиске.

История

Термин «информационный поиск» был впервые введён Кельвином Муром в 1948 в его докторской диссертации, опубликован и употребляется в литературе с 1950.

Сначала системы автоматизированного ИП, или информационно-поисковые системы (ИПС), использовались лишь для управления информационным взрывом в научной литературе. Многие университеты и публичные библиотеки стали использовать ИПС для обеспечения доступа к книгам, журналам и другим документам. Широкое распространение ИПС получили с появлением сети Интернет. У русскоязычных пользователей наибольшей популярностью пользуются поисковые системы Google, Яндекс и Рамблер.

Информационный поиск как процесс

Поиск информации представляет собой процесс выявления в некотором множестве документов (текстов) всех таких, которые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты, сведения, данные.

Процесс поиска включает последовательность операций, направленных на сбор, обработку и предоставление необходимой информации заинтересованным лицам.

В общем случае поиск информации состоит из четырех этапов:

  • определение (уточнение) информационной потребности и формулировка информационного запроса;
  • определение совокупности возможных держателей информационных массивов (источников);
  • извлечение информации из выявленных информационных массивов;
  • ознакомление с полученной информацией и оценка результатов поиска.

Виды поиска

Полнотекстовый поиск — поиск по всему содержимому документа. Пример полнотекстового поиска — любой интернет-поисковик, например www.yandex.ru, www.google.com. Как правило, полнотекстовый поиск для ускорения поиска использует предварительно построенные индексы. Наиболее распространенной технологией для индексов полнотекстового поиска являются инвертированные индексы.

Поиск по метаданным — это поиск по неким атрибутам документа, поддерживаемым системой — название документа, дата создания, размер, автор и т. д. Пример поиска по реквизитам — диалог поиска в файловой системе (например, MS Windows).

Поиск по изображению — поиск по содержанию изображения. Поисковая система распознает содержание фотографии (загружена пользователем или добавлен URL изображения). В результатах поиска пользователь получает похожие изображения. Так работают поисковые системы:

  • Xcavator
  • Retrievr
  • PolarRose
  • Picollator Online by Recogmission

Методы поиска

Адресный поиск

Процесс поиска документов по чисто формальным признакам, указанным в запросе.
Для осуществления нужны следующие условия:

  1. Наличие у документа точного адреса
  2. Обеспечение строгого порядка расположения документов в запоминающем устройстве или в хранилище системы.

Адресами документов могут выступать адреса веб-серверов и веб-страниц и элементы библиографической записи, и адреса хранения документов в хранилище.

Семантический поиск

Процесс поиска документов по их содержанию.
Условия:

  • Перевод содержания документов и запросов с естественного языка на информационно-поисковый язык и составление поисковых образов документа и запроса.
  • Составление поискового описания, в котором указывается дополнительное условие поиска.

Принципиальная разница между адресным и семантическим поисками состоит в том, что при адресном поиске документ рассматривается как объект с точки зрения формы, а при семантическом поиске — с точки зрения содержания.
При семантическом поиске находится множество документов без указания адресов.
В этом принципиальное отличие каталогов и картотек.
Библиотека — собрание библиографических записей без указания адресов.

Читайте также:  Простой способ сделать клетку

Документальный поиск

Процесс поиска в хранилище информационно-поисковой системы первичных документов или в базе данных вторичных документов, соответствующих запросу пользователя.

Два вида документального поиска:

  1. Библиотечный, направленный на нахождение первичных документов.
  2. Библиографический, направленный на нахождение сведений о документах, представленных в виде библиографических записей.

Фактографический поиск

Процесс поиска фактов, соответствующих информационному запросу.
К фактографическим данным относятся сведения, извлеченные из документов, как первичных, так и вторичных и получаемые непосредственно из источников их возникновения.

Различают два вида:

  1. Документально-фактографический, заключается в поиске в документах фрагментов текста, содержащих факты.
  2. Фактологический (описание фактов), предпологающий создание новых фактографических описаний в процессе поиска путем логической переработки найденной фактографической информации.

Информационный поиск как наука

Информационный поиск — большая междисциплинарная область науки, стоящая на пересечении когнитивной психологии, информатики, информационного дизайна, лингвистики, семиотики, и библиотечного дела.

ИП рассматривает поиск информации в документах, поиск самих документов, извлечение метаданных из документов, поиск текста, изображений, видео и звука в локальных реляционных базах данных, в гипертекстовых базах данных таких, как Интернет и локальные интранет-системы.

Существует некоторая путаница, связанная с понятиями поиска данных, поиска документов, информационного поиска и текстового поиска. Тем не менее, каждое из этих направлений исследования обладает собственными методиками, практическими наработками и литературой.

В настоящее время ИП — это бурно развивающаяся область науки, популярность которой обусловлено экспоненциальным ростом объемов информации, в частности в сети Интернет. ИП посвящена обширная литература и множество конференций. Одной из наиболее известных является TREC, организованной в 1992 Министерством обороны США совместно с Институтом Стандартов и Технологий (NIST) с целью консолидации исследовательского сообщества и развития методик оценки качества ИП.

Запрос и объект запроса

Говоря о системах ИП, употребляют термины запрос и объект запроса.

Запрос — это формализованный способ выражения информационных потребностей пользователем системы. Для выражения информационной потребности используется язык поисковых запросов, синтаксис варьируется от системы к системе. Кроме специального языка запросов, современные поисковые системы позволяют вводить запрос на естественном языке.

Объект запроса — это информационная сущность, которая хранится в базе автоматизированной системы поиска. Несмотря на то, что наиболее распространенным объектом запроса является текстовый документ, не существует никаких принципиальных ограничений. В частности, возможен поиск изображений, музыки и другой мультимедиа информации. Процесс занесения объектов поиска в ИПС называется индексацией. Далеко не всегда ИПС хранит точную копию объекта, нередко вместо неё хранится суррогат.

Задачи информационного поиска

Центральная задача ИП — помочь пользователю удовлетворить его информационную потребность. Так как описать информационные потребности пользователя технически непросто, они формулируются как некоторый запрос, представляющий из себя набор ключевых слов, характеризующий то, что ищет пользователь.

Классическая задача ИП, с которой началось развитие этой области, — это поиск документов, удовлетворяющих запросу, в рамках некоторой статической коллекции документов. Но список задач ИП постоянно расширяется и теперь включает:

  • Вопросы моделирования;
  • Классификация документов;
  • Фильтрация документов;
  • Кластеризация документов;
  • Проектирование архитектур поисковых систем и пользовательских интерфейсов
  • Извлечение информации, в частности аннотирования и реферирования документов;
  • Языки запросов и др.

Релева́нтность (англ. relevant ) — применительно к результатам работы поисковой системы и экспертной системы — степень соответствия запроса и найденного, то есть уместность результата. В более общем смысле, одно из наиболее близких понятию качества «релевантности»«адекватность», то есть оценка степени соответствия, но и степени практической применимости результата, а также степени социальной применимости варианта решения задачи.

Читайте также:  Способ снятия показаний какие весы

Пертине́нтность (англ. pertinent ) — cоотношение объёма полезной информации к общему объёму полученной информации. Коротко — это пользосоответствие может быть выражено в виде процента наподобие КПД (коэффициент полезного действия).

Пертине́нтность (англ. pertinent ) — соответствие найденных информационно-поисковой системой документов информационным потребностям пользователя

Источник

Способы информационного поиска дать формально механическую семантически описательную

15. Технологии информационного поиска

Информационный поиск — процесс извлечения информации из информационной системы в соответствии с признаками этой информации.

Информационным поиском (ИП) называется некоторая последовательность операций, выполняемых с целью отыскания документов, содержащих определенную информацию (с последующей выдачей самих документов или их копий), или с целью выдачи фактических данных, представляющих собой ответы на данные вопросы. Термин «ИП» ввел в информатику американский математик Кэлвин Муэрс в 1947 году.

Побудительная причина ИП — информационная потребность, выраженная в форме информационного запроса. Объектами ИП могут быть документы, сведения о их наличии и (или) местонахождении, фактографическая информация.

К методам поиска информации относятся: метод алгоритмизации; метод весовых коэффициентов; статистические методы анализа запросов и результатов выдачи информации; методы анализа и синтеза; моделирование; ранжирование; кластерный анализ; метод исследования операций.

ИП различают следующим образом:

• в зависимости от цели — адресный (формально-механический) и семантический (тематический);

• от объекта поиска — документный и фактографический;

• от степени использования технических средств — ручной или автоматизированный.

• в зависимости от функциональной роли — доминирующие/второстепенные, центральные/периферические, устойчивые/ситуативные потребности.

Все виды ИП пересекаются, так как их цели и объекты часто взаимосвязаны. Например, документный и фактографический виды поиска могут быть как адресными, так и семантическими.

ИП производится при помощи информационно-поисковых систем (ИПС). ИПС — это комплекс связанных друг с другом отдельных частей, предназначенный для выявления в каком-либо множестве элементов информации, отвечающих на предъявленный информационный запрос. Массив элементов информации, в котором производится ИП, называется поисковым массивом.

ИПС подразделяются на документальные и фактографические. Документальные ИПС в ответ на вводимые в них информационные запросы выдают оригиналы, копии или адреса хранения документов, содержащих требуемую информацию. Подкласс документальных ИПС, выдающих лишь библиографические описания (БО) искомых документов, иногда называют библиографическими ИПС.

В отличие от документальных ИПС фактографические поисковые системы предназначены для выдачи непосредственно требуемой информации (например, температуры кипения какой-либо жидкости; структурных или молекулярных формул химических соединений, обладающих некоторыми свойствами, и т.д.).

Принципиальных различий между документальными и фактографическими ИПС нет. Если провести аналогию, то документальные ИПС отличаются от фактографических не в большей степени, чем первичные научные документы от справочников. Основным признаком, объединяющим документальные и фактографические ИПС в один общий класс, является то, что и первые, и вторые могут по запросам выдавать такую и только такую информацию, которая была ранее в них введена.

Любая документальная ИПС — от ручной до автоматизированной — включает в себя следующие элементы: информационно-поисковый язык (ИПЯ), правила перевода текстов документов и запросов с естественного языка на ИПЯ, формальные правила (алгоритмы) поиска, технические устройства, реализующие алгоритмы поиска, фонд документов (или их адресов), записанных на каких-либо носителях информации.

ИП осуществляется по определенным правилам, определяющим стратегию поиска, т.е. способы достижения оптимального результата. Стратегия ИП зависит от типа поисковой задачи, критериев выдачи и характера диалога между потребителями информации и ИПС.

Читайте также:  Укажите оптимальные способы стерилизации хирургических перчаток тест

В общем случае процедура ИП состоит из четырех этапов:

• уточнения информационной потребности и формулировки запроса;

• определения совокупности держателей информационных массивов;

• извлечения информации из информационных массивов;

• ознакомления пользователя с полученной информацией и оценки результатов поиска.

Наиболее эффективный метод поиска документов, содержащих научную информацию — прочитать каждый документ некоторой библиотеки. Но такой способ практически неосуществим, поскольку число документов обычно бывает слишком большим, чтобы все их можно было прочитывать при каждом информационном запросе. Поэтому приходится использовать другой, менее эффективный метод, при котором ИП производится не по самим текстам документов, а по кратким характеристикам содержания или определенным внешним признакам документов. Для этого каждый документ снабжается поисковым образом документа (ПОД) — характеристикой, в которой кратко выражается основное смысловое содержание документа. В виде такой же краткой характеристики — поискового предписания или поискового образа запроса (ПОЗ) — должен быть сформулирован и информационный запрос. Благодаря этому процедура ИП может быть сведена к простому сопоставлению ПОД с заданным ПОЗ. Если ПОД в необходимой и достаточной степени совпадает с ПОЗ, считается, что этот документ отвечает на информационный запрос. Такое сопоставление оправдано лишь тогда, когда поисковый образ и поисковое предписание формулируются в терминах одного и того же языка, и притом такого, в котором каждая фраза допускает одно и только одно толкование.

В ПОД в краткой форме выражается лишь основное смысловое содержание документа. Поэтому такой метод не может обеспечить отыскания в библиотеке всех документов, содержащих требуемую информацию. Кроме того, в числе найденных документов могут быть такие, которые фактически не отвечают на данный информационный запрос. Эти документы образуют так называемый «поисковый шум».

Важно иметь в виду, что информация, содержащаяся в научных документах, объективно подчиняется закону рассеяния. Полнота и точность поиска представляют собой конкурирующие показатели: повышение одного из них ведет к снижению другого. Увеличивая полноту поиска, мы неизбежно уменьшаем его точность и наоборот, увеличивая точность поиска, уменьшаем его полноту.

Эффективность ИП определяют показатели, характеризующие нахождение релевантных документов. Они делятся на семантические (точность и полнота поиска, коэффициент информационного шума и коэффициент потерь) и технико-экономические (оперативность поиска, стоимость и трудоемкость поиска).

Простейшим ПОД является его заглавие. По заглавию книги или статьи читатель в большинстве случаев может судить о том, представляет ли для него интерес эта книга или статья и стоит ли с ней знакомиться подробней.

Аннотация и реферат документа также суть его поисковые образы. С увеличением объема реферативных журналов (РЖ) число помещаемых в них аннотаций и рефератов стало настолько большим, что РЖ пришлось снабжать дополнительным справочным аппаратом — системой указателей, значительно облегчающих для читателей решение информационно-поисковых задач. Таким образом, РЖ, а также РЖ с системой указателей — это простейшие документальные ИПС, рассчитанные на индивидуальное использование.

Существует три основных типа информационно-поисковых задач:

• ретроспективный информационный поиск, т.е. отыскание письменных документов (всех или части), в которых содержатся сведения по определенному вопросу;

• срочное оповещение отдельных специалистов (абонентов) о публикациях, представляющих для них потенциальный интерес. Данный тип информационного поиска называется избирательным (адресным) распределением информации (ИРИ). Он производится по постоянным информационным запросам (так называемым «профилям интересов»), которые формулируются самими потребителями. Это особый случай ИП;

• поиск имен специалистов, располагающих информацией по определенному вопросу.

Источник

Оцените статью
Разные способы