Профессиональный поиск информации в сети интернет
статья по теме
Рассмотрены основные средства интернет-поиска
Скачать:
Вложение | Размер |
---|---|
professionalnyy_poisk_informatsii_v_seti_internet.docx | 23.12 КБ |
Предварительный просмотр:
ПРОФЕССИОНАЛЬНЫЙ ПОИСК ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ
Интернет-поиск – важный элемент работы в Сети. Точное количество веб-ресурсов современного интернета вряд ли кому-либо точно известно. В любом случае, счет идет на миллиарды. Для того чтобы можно было использовать информацию, необходимую в данный конкретный момент, не важно, в рабочих или развлекательных целях, сначала нужно ее найти в этом постоянно пополняемом океане ресурсов.
Для того чтобы интернет-поиск был успешным, должны быть выполнены два условия: запросы должны быть хорошо сформулированы и задавать их нужно в подходящих местах. Другими словами, от пользователя требуется, с одной стороны, умение переводить свои поисковые интересы на язык поискового запроса, а с другой – хорошее знание поисковых систем, доступных инструментов поиска, их достоинств и недостатков, что позволит выбирать в каждом конкретном случае наиболее подходящие средства поиска.
В настоящее время не существует какого-либо одного ресурса, удовлетворяющего всем требованиям к интернет-поиску. Поэтому при серьезном подходе к поиску неизбежно приходится задействовать разные инструменты, используя каждый в наиболее подходящем случае.
Основные средства интернет-поиска можно разделить на следующие основные группы:
• локальные программы для поиска в интернете.
Наиболее популярным средством поиска являются поисковые машины – так называемые интернет-поисковики (Search Engines). Тройка лидеров в общемировом масштабе достаточно стабильна – это Google, Yahoo! и Bing. Во многих странах к этому перечню добавляются собственные локальные поисковики, оптимизированные для работы с местным контентом. С их помощью теоретически можно найти любое конкретное слово на страницах многих миллионов сайтов. С точки зрения пользователя основной недостаток поисковиков – это неизбежное наличие информационного шума в результатах. Так принято называть попавшие по тем или иным причинам в список выдачи результаты, не соответствующие запросу.
Несмотря на многие различия, все интернет-поисковики работают по схожим принципам и с технической точки зрения состоят из похожих подсистем. Первая структурная часть поисковика – специальные программы, применяемые для автоматического поиска и последующего индексирования веб-страниц. Такие программы обычно называют пауками, или ботами. Они просматривают код веб-страниц, находят расположенные на них ссылки и тем самым обнаруживают новые веб-страницы. Есть и альтернативный способ включения сайта в индекс. Многие поисковики предлагают владельцам ресурсов возможность самостоятельно добавить сайт в свою базу. Как бы то ни было, затем веб-страницы скачиваются, анализируются и индексируются. В них выделяются структурные элементы, находятся ключевые слова, определяются их связи с остальными сайтами и веб-страницами. Производятся и другие операции, результатом выполнения которых становится формирование индексной базы поисковика. Эта база – второй главный элемент любого поисковика. Сейчас не существует какой-либо одной абсолютно полной индексной базы, которая содержала бы сведения обо всем контенте интернета. Поскольку разные поисковики используют разные программы поиска веб-страниц и строят свой индекс с помощью разных алгоритмов, индексные базы поисковиков могут существенно различаться. Некоторые сайты оказываются проиндексированными несколькими поисковиками, однако всегда остается определенный процент ресурсов, включенных в базу только какого-либо одного поисковика. Наличие у каждого поисковика такой оригинальной и непересекающейся части индекса позволяет сделать важное практическое заключение: если вы пользуетесь только одним поисковиком, пусть даже самым крупным, вы обязательно потеряете некоторый процент полезных ссылок.
Следующая часть интернет-поисковика – собственно программы поиска и сортировки результатов. Эти программы решают две основные задачи: сначала находят в базе страницы и файлы, соответствующие поступившему запросу, а затем сортируют полученный массив данных в соответствии с различными критериями. От эффективности их работы во многом зависит успех в достижении целей поиска.
Последний элемент интернет-поисковика – пользовательский интерфейс. Кроме обычных для любых сайтов требований к эстетике и удобству, к интерфейсам поисковиков предъявляется еще одно важное требование: они должны предлагать различные инструменты составления и уточнения запросов, а также сортировки и фильтрации результатов. Преимущества поисковых машин – великолепный охват источников, сравнительно быстрое обновление содержимого базы и хороший выбор дополнительных функций.
Главный инструмент работы с поисковиками – это запрос.
Для интернет-поиска используются также специальные приложения, устанавливаемые на локальном компьютере. Это могут быть как простые программы, так и довольно сложные комплексы поиска и анализа данных. Наиболее распространены поисковые плагины для браузеров, панели для браузеров, предназначенные для работы с каким-либо конкретным поисковым сервисом, и метапоисковые пакеты с возможностями анализа результатов.
Веб-каталоги – это ресурсы, в которых сайты распределяются по тематическим категориям. Если с поисковиками пользователь работает только посредством запросов, то в каталоге есть возможность просматривать тематические разделы целиком. Второе принципиальное отличие каталогов от автоматических поисковиков – это то, что в их наполнении, как правило, непосредственно участвуют люди, которые просматривают ресурсы и относят сайт к той либо иной категории. Веб-каталоги принято делить на универсальные и тематические. Универсальные стараются охватить максимум тем. В них можно найти все, что угодно: от сайтов о поэзии до компьютерных ресурсов. Другими словами, широта поиска у них максимальная. Тематические же каталоги специализируются на определенной тематике, обеспечивая за счет сокращения широты охвата ресурсов максимальную глубину поиска.
Преимущества каталогов – сравнительно высокое качество ресурсов, поскольку каждый сайт в нем просматривается и отбирается человеком. Тематическая группировка сайтов позволяет удобно располагать сайты близкой тематики. Такой режим работы хорош для обнаружения новых для вас сайтов по интересующей теме – он точнее применения поисковой машины. Веб-каталоги рекомендуется использовать для первого знакомства с какой-либо предметной областью, а также поиска по нечетким запросам – у вас будет возможность «побродить» по разделам каталога и точнее определиться с тем, что именно вам требуется.
Недостатки веб-каталогов известны. В первую очередь, это медленное пополнение базы, поскольку включение сайта в каталог предполагает участие человека. В отношении оперативности веб-каталог – не соперник поисковикам. Кроме того, веб-каталоги существенно уступают поисковикам по размерам баз.
Говоря о интернет-поиске, нельзя обойти вниманием ряд терминов, которые тесно связаны с этой сферой и часто используются для описания и оценки поисковиков. Например: широта и глубина интернет-поиска. Широким называют поиск, который захватывает как можно большее количество источников информации. При этом достаточным считается хотя бы упоминание о том или ином подходящем запросу сайте. Глубина поиска относится к подробности индексирования и последующего поиска каждого конкретного ресурса. Например, многие поисковики по-разному подходят к индексированию разных сайтов. Крупные и популярные сайты индексируются в максимальном объеме, роботы стараются не упустить ни одной страницы такого ресурса. В то же время на других сайтах может быть проиндексирована только заглавная страница и пара страниц содержания. Эти обстоятельства, естественно, сказываются и на последующем поиске. Глубокий поиск работает по принципу «лучше включить в результаты лишнюю информацию, чем упустить какие-либо относящиеся к теме поиска данные».
Достаточно часто можно встретить такие понятия, как глобальный и локальный интернет-поиск. При локальном интернет-поиске учитывается географическое местоположение пользователя и предпочтение отдается результатам, так или иначе связанным с конкретной страной или местностью. При глобальном поиске эта информация не учитывается, и поиск ведется во всех доступных ресурсах.
При составлении запроса на интернет-поисковиках действуют различные режимы поиска. К типовым режимам поиска, которые встречаются на большинстве интернет-машин, можно отнести простой и расширенный поиск. Простой поиск позволяет в одном запросе указать только один поисковый признак. Расширенный поиск дает возможность составить запрос из нескольких условий, связав их логическими операторами.
Для уточнения поисковых запросов используются различные фильтры . Фильтрами называют те или иные вспомогательные средства составления запроса, которые не относятся к содержательной стороне условий запроса, а ограничивают результаты поиска каким-либо формальным признаком. Так, например, применяя при поиске фильтр типа файла, пользователь не сообщает системе сведений, относящихся к теме своего запроса, а просто ограничивает полученные результаты определенным типом файлов, указанным в условии своего запроса.
Для большинства пользователей универсальные поисковики являются основным, а зачастую и единственным средством интернет-поиска. Они предлагают хороший охват источников, а также набор инструментов, достаточный для решения основных поисковых задач.
Рынок универсальных поисковиков достаточно велик. Мы постарались проанализировать наиболее известные поисковые системы, а результаты представили в виде таблицы 1.
Источник
«Информационные Ресурсы России» №3, 2007
Эффективный поиск информации для ведения научной деятельности
В своей книге «Реорганизация знаний» профессор Ким Вельтман пишет, что в настоящее время «ученый, занимающийся научной деятельностью, тратит 90% своего времени на поиск документов, 5% на их изучение и всего 5% на науку» [1]. Это говорит о неэффективном подходе ведения научной деятельности. Современным ученым необходима универсальная система поиска информации, которая позволит во многом сократить время на поиск нужных документов, на формирование найденных материалов в единую систему знаний, позволит вести работу с ними много эффективнее.
I. Что нужно для организации эффективного поиска и обработки информации?
1) инструментарий, который поможет составить грамотный запрос;
2) осуществление поиска, отталкиваясь от потребностей пользователя и уровня требуемой ему детализации результатов;
3) правильно организовать работу с найденными материалами.
Исторически стратегии доступа к знаниям и информации развивались в трех областях: а) в библиотечной среде; б) в области ИКТ; в) в среде людей, которые пытаются внедрить информационные технологии в библиотечную среду.
В данной статье рассказывается, как, используя многолетний опыт перечисленных групп людей, можно создать, на наш взгляд, эффективный инструмент поиска и обработки научной информации и организации последующей с ней работы. Работа в данном направлении ведется под руководством голландского профессора, доктора культурологических наук Кима Вельтмана.
Обратимся к библиотечной среде
Библиотеки, архивы, музеи предоставляют доступ к знаниям и информации на следующих уровнях:
a) достоверные данные в классификационных системах, где хранятся термины и отношения между ними;
b) словари, где даны определения слов;
c) энциклопедии, которые дают более детальную информацию к термину или слову;
d) каталоги, которые связывают слова и термины с заголовками книг;
e) частичные содержания в форме индексов, обзоров, аннотаций к полнотекстовым ресурсам.
Все это в комплексе составляет идеальный инструмент для ведения научной деятельности, опыт работы которым необходимо заимствовать.
Но есть один большой минус данного инструмента. Правильное использование справочных залов требует специальной подготовки и длительной тренировки. Великие коллекции, такие как Британская библиотека, имеют более чем 300000 книг в справочных залах как вход (навигатор) в хранилища библиотеки, в которых хранится более 15 миллионов книг. В результате, пользователи, которые не являются специалистами в работе с библиотечными каталогами и не знают стандартного написания заголовков искомых документов, просто беспомощны в поиске нужных материалов без квалифицированных работников библиотек. Это заставляет современного человека искать альтернативные способы поиска информации и доступа к знаниям. Таким альтернативным способом является интернет.
Интернет как инструмент поиска научной информации
Благодаря доступности и простоте использования, поисковые машины стали едва ли не основным инструментом молодых ученых для получения информации. Сейчас такие поисковые системы, как Google, Yandex, хранят огромные массивы информации. Но среди нескольких тысяч страниц, выдаваемых в ответ на поисковый запрос, пользователю реально нужно лишь несколько из них. Несмотря на попытки поисковых систем оптимизировать алгоритм поиска, проблема поиска семантически верных документов так и не решена. Для этого нужно так описывать документы, чтобы поисковые системы понимали их семантику. Поэтому активно развивается идея так называемой семантической сети, которая, как планируется, позволит находить документы без поискового спама.
Для решения задачи создания логичной и удобной системы поиска информации информационные технологии прошли ряд этапов, начиная от системы определения языков разметки SGML к гипертекстовой разметке (HTML), и далее к расширяемому языку разметки XML, предназначенному для хранения структурированных данных. Тем временем, на пике развития XML-технологий гипертекста шло развитие идеи создания веба, который будет больше, чем просто килобайты структурированного текста, связанные ссылками. Если разметка текста позволяет проверить логику утверждений, это позволит сделать «логический веб». Такое предположение и его популяризация положили начало массовому развитию семантической сети, построенной на истинных утверждениях. Метаданные приобрели большое значение, люди стали создавать персональные онтологии и на их основе строить информационные ресурсы, объединяя которые строить семантическую сеть.
Но, к сожалению, возникла небольшая проблема – попытка создать семантическую сеть, базирующуюся на персональных онтологиях, претендующих на истинность, без средств, позволяющих каким-либо образом проверить истинность хранящихся в них утверждений. Ученый не может делать выводы и заключения, основанные на недостоверной, непроверенной информации. Значит, это противоречит подходам ведения научной деятельности [2]. Возможно, нужно искать другой подход.
Большой вклад, который внесли ИКТ, — это то, что за последние 50 лет были оцифрованы огромные объемы информации, хранящиеся в библиотеках, архивах, что позволило осуществлять удаленный доступ к этим хранилищам документов, накапливая их в своей БД.
Таким образом, имея возможность доступа к информации библиотек и архивов посредством интернета и используя опыт доступа к знаниям библиотечных справочных залов, можно создать систему, позволяющую во многом сократить время на поиск нужных документов, организовать эффективную работу с ними.
Сейчас в МГУКИ под руководством профессора Кима Вельтмана ведется работа над демо-версией такой системы. Она называется Системы для Универсального Медиапоиска (SUMS — System for Universal media searching).
Система для универсального медиапоиска
Основой SUMS являются тематические пакеты научных знаний. Их идея заключается в создании банка информации, интегрирующего различные категории знаний в единый пакет, который позволяет взглянуть на предмет как на логически-организованную структуру знаний. Также пакеты научных знаний нацелены объединить теорию и практику, предоставляя возможность проведения анализа, детального изучения цифровой копии реального медиаобъекта (книги, объекта изобразительного искусства, строения, скульптуры и др.). Одной из возможностей SUMS является автоматизация процесса обновления и сбора информации в пакетах научных знаний по заданному предмету посредством сети Интернет по протоколу Z39.50.
Пакеты знаний
Вся информация отдельного пакета разделена на три области знаний (указатели, медиаобъекты и интерпретации), которые подразделяются на уровни. Указатели используются для описания медиаобъектов. Они подразделяются на следующие уровни: классификационные системы, словари, энциклопедии, библиографии и частичное содержание (краткий обзор, оглавления). Вторая область знаний, это сами медиобъекты – электронные версии книг, картин, инструментов и других источников знаний. Третья область знаний – интерпретации, позволяет описывать и анализировать медиаобъекты и используется для ведения научной деятельности. Данная область содержит четыре уровня: внутренний анализ, внешний анализ, реставрация и реконструкция. Вместе все перечисленные области знаний составляют 10-ти уровневую систему.
Поиск
SUMS ведет поиск в тематическом пакете знаний, сформированном экспертами в данной области. Таким образом, проблема нахождения семантически неверных документов отпадает. Это можно сравнить с поиском информации в тематическом зале библиотеки, когда вся информация собрана на определенную тему. Остается вопрос оптимального поиска нужных материалов среди огромного объема информации пакета знаний.
SUMS использует принцип шести основных вопросов: Кто? Что? Где? Когда? Как? Почему?
Вопрос Кто предполагает знания о личностях, Что об объектах, Где о расположении, Когда предоставляет доступ к хронологическим знаниям, Как — к инструкциям, Почему — к причинам и следствиям. Задавая вопрос (или несколько вопросов сразу), пользователь получает информацию, соответствующую запросу и выбранному уровню знаний.
Рассмотрим пример. Пусть пользователь, работая с пакетом «Перспектива в изобразительном искусстве», задает вопрос Кто. В ответ на запрос, он получает большой список имен персон (писателей, художников, изобретателей и т.д.). Следующий шаг зависит от потребностей пользователя. Это может быть просто изучение предмета или ведение научной деятельности, поэтому необходимо ограничить поиск по профессии (Кто?), предмету (Что?), месту (Где?) или промежутку времени (Когда?). Выбрав художника в Европе с 1500-го по 1800-ый год, пользователь получает список личностей, соответствующих его запросу. Список может включать и практиков (людей, которые использовали знания перспективы на практике, но не писали о предмете), и теоретиков (тех, кто изучал и развивал предмет). Пользователь может просто просмотреть список художников, принимавших активное участие в развитии перспективы, и получить более подробные сведения о каждом из них (биографические сведения, книги по предмету, творческие работы и др.). Если пользователь заранее знает, что имя персоны, которую он хочет изучать, например, — Леонардо да Винчи. Для этого он набирает данное имя в поле “Кто?” и сразу переходит к искомой персоне, получая при этом возможность просмотреть список книг личности, манускриптов, рисунков или картин.
Вопрос “Что?” открывает доступ к объектам или предметам изучения. Опять же пользователь может получить доступ ко всему списку либо выбрать ограниченное подмножество.
При использовании вопроса “Где?” становится доступным список мест (страны-города — библиотеки, музеи, архивы), где есть информация по выбранному предмету. Предусмотрено два способа визуализации информации. В первом случае пользователь получает список мест, выбрав одно из которых, получает соответствующую информацию. Во втором случае пользователь использует карту мира как инструмент навигации. От континента к стране, от страны к городу, к улице, музею, и в итоге он получает искомый объект изучения. В связи с широким и успешным внедрением географических информационных систем (ГИС) в интернете такая возможность навигации будет очень востребована.
В случае вопроса “Когда?” пользователь имеет дело с историческими периодами или с хронологическим списком событий. Работая с пакетом знаний по перспективе, вопрос “Когда?” дает пользователю список всех книг по перспективе на выбранный период времени. Возможность работы с историческими периодами позволяет получить представление о том или ином предмете в конкретный промежуток времени, что дает большие возможности анализа развития изучаемого направления.
Если пользователь задает вопрос “Как?”, то он получает доступ к книгам – инструкциям или техническим описаниям.
Вопрос “Почему?” содержит знания, которые объясняют следствия, причины и условия различных достижений и открытий.
Эти различные шесть вопросов не исключают друг друга. Это всего лишь различные пути получения одной и той же информации. Например, если пользователь хочет найти определенный трактат Леонардо да Винчи, скажем, «Манускрипт А», то он задает вопрос “Кто?”, находит Леонардо да Винчи, список его книг и выбирает искомую. Если известна только дата, в этом случае задается вопрос “Когда?” – 1492 г., и получается результат. Также пользователь может задать вопрос “Что?”, выбрать термин перспектива, найти Леонардо да Винчи, выбрать все его работы, среди которых есть «Манускрипт А». Если пользователь — эксперт и точно знает имя автора, название труда и дату, то, задав данные критерии поиска, он получает искомый манускрипт.
Выбор вопроса зависит от того, хочет ли пользователь найти отдельный медиаобъект и его описание либо хочет получить библиографические, хронологические сведения о предмете. Описанный поиск позволяет получить доступ к одним и тем же фактам, но используемым в разном контексте. Наиболее сложным в данном подходе является определение того, какой из вопросов — наиболее эффективный путь к получению этих фактов.
Стратегии поиска
Еще один очень важный аспект процесса поиска связан с такими понятиями, как ширина и глубина. Часто пользователю необходимо найти значение одного слова или термина. Но иногда, чтобы понять значение термина или темы, необходимо найти набор терминов, имеющих связь с искомым термином. Расширяя границы поиска, мы также расширяем границы информации, которая предоставляется пользователю в ответ на запрос. Для реализации этой возможности предусмотрено использование семи основных стратегий поиска: Поисковый гид, Прямая стратегия, Персональная терминология, Поля баз данных, Предметные заголовки, Стандартная классификация, Множественные классификации, Научная классификация. Преимущество такого подхода в том, что в зависимости от потребностей и научного уровня пользователя система помогает ему логично и правильно ориентироваться, переходить от своего первоначального интереса (термина) к терминологии, которая явилась результатом многовековой деятельности ученых и далее к самим источникам знаний (медиаобъектам).
Рис.1. Система для универсального медиапоиска.
Работа с источниками (омниссылки и омнииндекс)
Когда направление определено, как правило, возникает ряд особенностей при работе с литературой. Основная сложность — это поиск источников, на которые ссылается автор, и работа с найденным. С появлением гипертекста появилась возможность устанавливать прямые связи между информационными источниками – гипертекстовыми документами, в виде которых легко представить любую печатную книгу. Это была революция, которая дала техническую возможность незамедлительно обращаться к источникам, описываемым в книге.
Но между тем большинство людей, ссылаясь на источники, не используют всех тех возможностей гипертекстовых ссылок, применяя которые можно значительно увеличить их функциональность.
За время работы над проектом был разработан прототип омниссылок [3], где каждое слово в тексте связанно гиперссылкой с различного рода объектами. Например, каждое слово в книге о Леонардо да Винчи может быть связано с таким же словом в базе данных манускриптов, что дает возможность найти все манускрипты Леонардо, где встречается данное слово.
Гиперссылки обычно имеют связь один к одному, между словом и объектом (текст, веб-сайт, изображение и т.д.). Омниссылки могут работать с различными уровнями знаний: одно и то же слово, имеющее омниссылку, может быть связано с: 1) термином из классификационной системы; 2) определением в словаре; 3) объяснением в энциклопедии; 4) заголовком в каталоге или библиографии; 5) частичным содержанием в форме резюме или обзора; 6) полным содержанием статьи или книги. Таким образом, омниссылки дают возможность получить доступ к знаниям на разных уровнях.
Недавно был разработан механизм использования омниссылок для поиска информации в различных источниках. Используя данный механизм, достаточно лишь кликнуть на интересующее слово в тексте, и система выдаст употребление этого слова во всех связанных книгах с возможностью просмотра источника.
Источник