Способы организации поисковых системах

Как правильно организовать поиск в Интернете

Проблема поиска во Всемирной паутине не в том, что информации мало, а в том, что ее много. Поиск информации в Интернете — краеугольный камень эффективной работы в Сети. Владение навыками поиска делает Интернет для пользователя полезным как во время работы, так и во время отдыха.
Для организации поиска в Интернете существуют специализированные службы, называемые поисковыми системами.

Поисковые системы.

Поисковые системы — программно-аппаратный комплекс с web -интерфейсом, предоставляющий возможность поиска информации в Интернете.
Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на FTP-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet. Для поиска информации с помощью поисковой системы пользователь формулирует поисковый запрос. По запросу пользователя поисковая система генерирует страницу результатов поиска. Такая поисковая выдача может сочетать различные типы файлов, например: веб-страницы, изображения, аудиофайлы. Некоторые поисковые системы также извлекают данные из баз данных и каталогов ресурсов в Интернете.
Цель поисковой системы заключается в том, чтобы находить документы, содержащие либо ключевые слова, либо слова как-либо связанные с ключевыми словами. Поисковая система тем лучше, чем больше документов, релевантных запросу пользователя, она будет возвращать. Результаты поиска могут становиться хуже из-за особенностей алгоритмов. Например, на запрос домашние животные поисковый сервер «Яндекс» (подробнее о нем см. ниже) выдает более 14 000 000 ссылок на страницы, содержащие нужные, на его взгляд, сведения. Однако далеко не все так гладко: при посещении некоторых найденных страниц выясняется, что искомой информации на них недостаточно, а то и вовсе нет.
Чтобы искать с максимальной результативностью необходимо знать как работают поисковые серверы и правильно составлять запрос на поиск информации.

Принципы работы поисковых систем

Поисковые системы работают, храня информацию о многих web -страницах, которые они получают из HTML страниц. Основные составляющие поисковой системы: поисковый робот, индексатор, поисковик. Обычно системы работают поэтапно. Сначала поисковый робот получает контент, затем он просматривает содержимое web -сайтов. Только после этого индексатор генерирует доступный для поиска индекс. Индексатор — это модуль, который анализирует страницу, предварительно разбив её на части, применяя собственные лексические и морфологические алгоритмы.
В основе работы большинства современных поисковиков лежит индекс цитирования, который вычисляется индексатором в результате анализа ссылок на текущую страницу с других страниц Интернета. Чем их больше, тем выше индекс цитирования анализируемой страницы, тем выше эта страница будет отображена в результатах поиска и тем выше страница будет представлена в списке найденных ресурсов.

Правила построения поисковых запросов

Как уже отмечалось, в Интернете существует множество поисковых серверов, отечественных и зарубежных.
Российские поисковые серверы: Яндекс (www.yandex.ru); Рамблер (www.rambler.ru); Апорт (www.aport.ru) и Gogo ( www . gogo . ru ).

Зарубежные поисковые серверы: Google ( www . google . com ); Altavista ( www . altavista . com ) и Yahoo ! ( www . yahoo . com ).
Для поиска на русском языке лучше подходят российские серверы, на иностранном — зарубежные, хотя, Google неплохо справляется с поиском на многих языках. Несмотря на заявления многих владельцев поисковых систем, что запросы могут быть написаны практически на языке, который люди используют для общения между собой, это далеко не так. Благодаря внедрению новых языковых технологий поисковые системы стали гораздо лучше понимать пользователя. Поисковики теперь ищут не только запрашиваемое слово, но и его словоформы, что позволяет делать результаты поиска более точными. Например, если в поисковом запросе присутствует слово умный, то его результаты будут содержать не только это слово, но и его производные: умного, умная, а также ум и даже разум. Естественно, страницы со словоформами будут не в числе первых результатов поиска, но элементы искусственного интеллекта налицо. Этот факт полезно учитывать при построении поисковых запросов.
Следует помнить о том, что поисковые системы при обработке запроса не учитывают регистр символов, а применять знаки препинания в поисковых запросах вовсе не обязательно, так как они также игнорируются поисковыми серверами. Однако при построении сложных расширенных запросов, результаты поиска по которым обычно гораздо ближе к ожидаемым, используют традиционные знаки препинания. Большинство поисковых систем может бороться с опечатками. Если поисковому серверу покажется, что в слове допущена ошибка или опечатка, то он предупредит об этом той же фразой: Быть может, вы искали….

Читайте также:  Закрытый способ определения поставщиков федерального закона 44 фз

Cлова для запроса поисковому серверу

Есть выражение «Машина должна работать, человек — думать», и сказано оно как раз о такой ситуации. Задача пользователя при составлении поискового запроса — выделить ключевые слова, задача поискового сервера — наилучшим образом обработать введенный запрос. Рассмотрим пример, иллюстрирующий типичные ошибки начинающих пользователей при поиске в Интернете. На запрос «Загадки о музыкальных инструментах» поисковик не выдал полезных результатов. Тогда пользователь решает исправить запрос, дополнив его и написав: «Загадки для детей о музыкальных инструментах» — результаты поиска оказались еще хуже предыдущего. Для данного примера неплохим решением явился поиск по ключевому слову «загадки». В Интернете много таких сайтов, а зайдя на сам сайт и немного поискав по его разделам, вполне можно найти интересующую информацию. Сформулируем несколько правил составления запросов:

  • выбирайте только самые важные ключевые слова, касающиеся рассматриваемой темы;
  • слов не должно быть слишком много, но и не слишком мало;
  • при неудовлетворительных результатах поиска, используйте более «мягкие» условия для запроса или попробуйте поискать в другой поисковой системе, т.к. механизмы работы поисковиков неодинаковые, следовательно, результаты также могут различаться.

Расширенный поиск

Для обеспечения более эффективного поиска в Интернете поисковые системы предоставляют возможность расширенного поиска, а также поиска с использованием языка запросов. Расширенный поиск — возможность поиска с указанием множества различных параметров. Для этого в поисковиках предусмотрены отдельные страницы, на которых можно задать такие параметры. Принципы работы расширенного поиска похожи у большинства поисковиков.
Рассмотрим дополнительные возможности поиска на примерах поисковиков Яндекс и Google потому что Яндекс — самый популярный поисковый сервер в русскоязычном Интернете, а Google — самый популярный поисковик в мире. При поиске в Интернете «Яндекс» одним из первых стал учитывать морфологию русского языка, то есть использовать различные формы слова, о чем говорилось выше. Зайдя на сайт www.yandex.ru, пользователь может ввести запрос и тут же получить результаты поиска, а можно использовать ссылку Расширенный поиск, используя пиктограмму , и перейти на соответствующую страницу (см. рисунок ниже), на которой тонко настроить параметры поиска.

Страница расширенного поиска «Яндекса»

Рассмотрим дополнительные возможности, которые можно использовать на странице расширенного поиска: указать собственное местоположение (Москва), указать в каком виде должна быть представлена информация (Тип файла), период времени в котором ищем информацию (за сутки, за 2 недели, за месяц, От..До), на каком языке должна быть представлена информация (Русский, Английский Еще), а также можно указать URL -адрес сайта и т.д
Выбор (Точно как в запросе) указывается поисковику для того, чтобы морфологию слов запроса не изменять, а искать только ту форму слова, которая задана.

Язык запросов

Язык запросов — система команд, позволяющая изменять параметры запроса из основной строки поиска с помощью специальных команд. Ориентирован на опытных пользователей.
Поскольку язык запросов достаточно сложен и объемен, приведем лишь основные его конструкции, которые могут быть наиболее востребованы пользователями. Некоторые команды языка запросов «Яндекса» представлены в таблице.

Поиск документов, в которых обязательно присутствует выделенное слово.

Допустимо использовать несколько операторов + в одном запросе.

Будут найдены документы, в которых обязательно содержатся слова «бульвар» и «Москва» и может присутствовать слово «шолохов».

Поиск по цитате.

Поиск документов, содержащих слова запроса в заданной последовательности и форме.

Будут найдены документы, содержащие данную цитату.

Поиск по цитате с пропущенным словом (словами).

Один оператор * соответствует одному пропущенному слову.

Внимание! Используется только в составе оператора «.

Оператор отделяется пробелами.

Будут найдены документы, содержащие данную цитату, включая пропущенное слово.

Будут найдены документы, содержащие данную цитату, включая пропущенные слова.

Источник

Принципы работы поисковых систем

Порядка 95% интересующей пользователя информации в интернете он находит в поисковых сервисах, Google, Yandex, Bing, Yahoo, DuckDuckGo и т.д (Смотрите — Рейтинг поисковых систем интернета). Но сам сайт, где вводится запрос — это лишь обертка, под которой скрывается сложный программно-аппаратный комплекс, анализирующий миллиарды сайтов ежедневно и составляющий на их основе базы данных. В статье я расскажу, как работают алгоритмы поисковых систем, как именно идет поиск и ранжирование нужной информации и почему мы так быстро получаем ответ на свои запросы.

Работа поисковых систем

Условно считается, что история создания поисковых систем берет свое начало с 1989 года. Именно тогда был создан сервис Арчи, главная задача которого была индексация информации, которую можно найти в интернете (в пространстве WWW). Система изобретена и создана программистом Аланом Эмтеджем. И алгоритмы, которые он в ней использовал, в базовом понимании используются и по сегодняшний день. Правда, данный сервис был локальным.

Читайте также:  Рецепт засолки чернушек холодным способом

А уже в 1996 году была создана программа BackRub. Её главное преимущество — она выполняет глобальную индексацию. Уже в 1998 году система будет переименована в Google. А сейчас это — самый популярный сервис в мире для поиска информации в интернете (по данным аналитиков, его использует порядка 85% всех интернет-пользователей).

Общий принцип работы любой поисковой системы условно можно разделить на следующие этапы:

  1. Сбор информации. Специальная программа сканирует веб-пространство, открывает каждый доступный для неё сайт и анализирует его по заданным алгоритмам.
  2. Все документы закачиваются на сервер поисковой системы и создается база данных, которая содержит информацию о сайте.
  3. На основе полученных по сайту данных проводится построения индекса. То есть определяется, какие данные на нём содержатся, к какой группе запросов относятся данный контент их можно отнести и так далее.
  4. Программа определяет релевантность страницы, в момент когда она получает пользовательский поисковый запрос, на его основе предоставляет перечень сайтов, которые по результатам индексирования содержат запрашиваемую информацию.
  5. Сервис проводит ранжирование результатов выдачи. То есть выстраивает порядок ссылок, которые будут показаны пользователю, отправившему запрос.

Описанный принцип работы информационно поисковых систем — это лишь условное пояснение, как работает тот же Google или Яндекс. Но вот алгоритмы, которые они используют для обхода, сайтов, индексации и ранжирования, обычным пользователям неизвестны, каждая поисковая система применяет свои алгоритмы и постоянно их совершенствует, так как обработка информации занимает большое количество ресурсов сервера, расходы на который лежат на поисковой системе.

Понятно лишь одно — каждый сайт анализируется по более чем 1000 критериев. И именно благодаря этому пользователь, отправивший поисковый запрос, в 99% случаев в ответ получает ссылку, на страницу с полезной информацией.

Поисковые системы бывают нескольких подвидов и существуют и другие вариации таких сервисов:

  • управляемые человеком (то есть каталог сайтов, каждый пункт которого и общая их база данных сформированы вручную пользователем, яркий пример каталог Rambler, );
  • гибридные поисковые системы (где часть работы выполняет человек, часть — программа,принцип работы поисковой системы Google как раз таковой);
  • мета-системы (которые не составляют базу данных, а дают результат сразу из нескольких поисковых сервисов пример Vivisimo).

И многие рядовые пользователи ошибочно полагают, что особенности работы поисковых систем таковы, что поиск оптимальных результатов для выдачи выполняется в режиме реального времени. Нет, выполнить анализ значительной части веб-пространства за несколько секунд — невозможно. Даже суперкомпьютерам для этого понадобится несколько месяцев, а то и лет. Поэтому без предварительной обработки информации, и постоянного ранжирования не обойтись.

Общие принципы обработки информации

Каждый этап, описанный выше, выполняется отдельной программой (или их комбинациями). Это — так называемые «составляющие» алгоритмов поисковых систем.

Spider

Робот закачивающий веб страницы на сервер, он скачивает интернет-сайт, что в дальнейшем будет проиндексирован. Причем, загружает он все страницы и готовит полученные данные для анализа следующей программой. Если пользователя на загружаемом сайте интересует только контент (текст, картинки, мультимедиа), то spider работает именно с исходным кодом и html документами.

Crawler

Данная программа автоматически открывает и анализирует все ссылки, которые ей удается найти на сайте (в архиве, предварительно подготовленном с помощью Spyder (Паука). Это позволяет в дальнейшем составить «дерево» адресов, а также обнаружить точные ссылки, которые будут предоставляться в ответ на поисковые запросы. Кстати, если Crawler встречает «битую» ссылку — это затрудняет его работу, и соответственно заставляет поисковик тратить больше бюджета на индексирование Вашего сайта.

Indexer

Программа которая проводит индексацию, всех полученных данных от Spider и Crawler. То есть делит загруженную страницу на составные части (по html-тегам) и формирует список данных, которые здесь представлены.

Database

На основе информации, полученной после индексации, формируются 2 раздельные базы данных. Первая — это «дерево» сайта с его мета-тегами. В дальнейшем она используется при выполнении повторной индексации. То есть вместо того, чтобы повторно изучать сайт, выполняется сверка «деревьев» — так поисковый сервис определяет, вносились ли какие-то изменения на анализируемый веб-ресурс.

Вторая база данных — это результаты индексации. Та самая информация, на основе которой определяется условный рейтинг сайта, а также составляется перечень поисковых запросов, в ответ на которые можно предоставить ссылку.

Search Engine Results Engine

Алгоритм, который выполняет окончательное ранжирование сайтов при получении конкретного поискового запроса. Именно этот алгоритм выбирает ссылки, которые будут показаны пользователю, а также определяет режим их сортировки с 1 места по 10 место , и так 100 места.

Читайте также:  Непосредственный способ содержания многоквартирного дома

Web server

Сервер, на котором хранится сайт поискового сервиса. Именно его открывает пользователь, там же он вводит свой запрос и просматривает результаты выдачи.

Принципы работы поисковой системы

Главные этапы составления базы данных для поисковых сервисов — это индексация и ранжирование сайтов. И чтобы результативность итоговой выдачи была точной, сейчас применяется схема машинного обучения. То есть поисковику демонстрируют для сравнения 2 противоположных результата и указывают, по какой схеме необходимо выполнять их ранжирование. Таким образом система понимает, какой сайт «полезный», какой — «менее полезный».

Всё это позволяет вывести отдельный индекс — релевантность (условно можно назвать «рейтингом»). Он присваивается каждому сайту, представлен в виде дробного числа. Чем выше релевантность — тем выше будет позиция ресурса в выдаче на запрос пользователя. Это — основные принципы работы поисковых систем, используемых сегодня. И этот процесс тоже состоит из нескольких этапов.

Сбор данных

После создания сайта и получения на него ссылки, система автоматически анализирует его с помощью инструментов Spyder и Crawling. Информация собирается и систематизируется из каждой страницы.

Индексация

Индексация выполняется с определенной периодичностью. И по её прохождению сайт добавляется в общий каталог поисковой системы. Результата этого процесса — создание файла индекса, который используется для быстрого нахождения запрашиваемой информации на ресурсе.

Обработка информации

Система получает пользовательский запрос, анализирует его. Определяются ключевые слова, которые в дальнейшем и используются для поиска по файлам индекса. Из базы данных извлекаются все документы, схожие на пользовательский запрос.

Ранжирование

Из всех документов, отобранных для выдачи, составляется список, где каждому сайту отведена своя позиция. Выполняется на основании ранее вычисленных показателей релевантности.

На этом этапе принцип работы поисковых систем немного разнится. Формула ранжирования — тоже уникальная. Но ключевые факторы, влияющие на релевантность сайта, следующие:

  • индекс цитируемости (как часто сторонние ресурсы ссылаются на информацию из конкретной страницы);
  • авторитетность домена (определяется на основании его истории изменения);
  • релевантность текстовой информации по запросу;
  • релевантность иных форматов контента, представленных на странице;
  • качество оптимизации сайта.

СПРАВКА! Если вам необходимо заказать продвижение сайта в поисковых системах, я могу Вам помочь, сделать качественный SEO аудит сайта и составить план продвижения.

Основные характеристики поисковых систем

Главный параметр — это наглядность. То есть насколько точная информация представлена в выдаче на усмотрение самого пользователя, который и отправлял запрос. Но есть и другие характеристики для оценки поисковых систем.

Полнота

Условный параметр, который указывает соотношение от общего числа документов, дающих ответ на пользовательский запрос, от их количества, представленного системой в выдаче. Чем выше соотношение — тем более полный анализ производится сервисом.

Точность

Можно описать на примере. Пользователь ввёл запрос «купить квартиру». В выдаче было представлена 1000 сайтов. Но в половине из них просто встречается данное словосочетание. В другой части — предлагаются ресурсы, где можно совершить покупку недвижимости. Естественно, что пользователя интересуют последние. В данном случае точность работы поискового сервиса составляет 0,5 (то есть 50%). Чем выше показатель — тем больше точность.

Актуальность

Имеется ввиду время, прошедшее с момента публикации данных на сайте до его добавления в каталог индексации. Чем быстрее этот процесс будет завершен, тем более актуальную информацию пользователю представят в выдаче. Для современных сервисов, типа Bing или Google периодичность обновления базы данных индексации составляет до 3-х месяцев. Для релевантных сайтов — несколько дней.

Скорость поиска

Она же — «устойчивость к нагрузкам». Определяется временем, необходимым для составления списка сайтов для выдачи после получения пользовательского запроса. По большей части зависит только от производительности серверов, обрабатывающих данные, а также общего количества получаемых запросов. Современные сервисы могут обрабатывать одновременно до 100 миллионов таковых ежесекундно.

Наглядность

Пользовательская оценка в работе сервиса. Во многом зависит от того, какие ссылки рядовой пользователь увидит в ТОП выдачи. Ведь именно их он изучает в первую очередь. И полученная на них информация должна на 100% ответить на его запросы.

Выводы

Постоянная индексация и ранжирование — это основной принцип работы поисковых интернет систем. А за написание алгоритмов и программ, которые выполняют большую часть всей этой работы, отвечают тысячи программистов. Именно благодаря их работе каждый пользователь за несколько секунд может отыскать в веб-пространстве необходимую для него прямо сейчас информацию.

Если Вам понравилась статья поделитесь ей в социальных сетях, так же рекомендую прочитать статью — методах продвижения сайта в интернете.

Если вы хотите более глубоко понимать принцип работы поисковых систем рекомендую посмотреть видео от Сергея Кокшарова и почитать его SEO блог

Источник

Оцените статью
Разные способы