Первое знакомство с информационно поисковыми системами. История создания и развитие современных ПС. Как работают поисковые системы ?

Содержание

Информационно – поисковые системы (ИПС) и их виды
Основные характеристики поисковых систем
Полнота
Точность
Актуальность
Скорость поиска
История создания ИПС
Принципы работы поисковой системы
Сбор данных
Индексация
Обработка информации
Ранжирование
Как работает ИПС
Общие принципы обработки информации
Spider
Crawler
Indexer
Database
Search Engine Results Engine
Web server
Как работает поисковый сервер

Информационно – поисковые системы (ИПС) и их виды

Это понятие возникло в конце 80-х — начале 90-х годов прошлого века. Именно тогда появились их первые прототипы, как в России, так и за рубежом. По своему определению, это система, которая позволяет искать, обрабатывать, выбирать необходимые данные запроса в собственной специальной базе данных, в которой вы найдете описания различных источников информации, а также правила их использования.

Его основная задача — найти нужную пользователю информацию. Чтобы сделать его более эффективным, используется концепция релевантности, то есть насколько хорошо сами результаты поиска соответствуют конкретному запросу.

К основным типам IRS относятся следующие понятия:

Каталог со специально созданной структурой. У него есть своя четкая классификация, основанная на разных аргументах. Каталоги также содержат специальные аннотации с многочисленными ссылками на различные ресурсы в Интернете. Это могут быть сайты, порталы, веб-страницы и т.д.
Разработка каталогов той или иной ИСС была очень удобна тем, что в них можно было поддерживать оперативный поиск той или иной категории различных ресурсов по специальным ключевым словам (словам) с помощью специальных роботов-пауков.

Индексирование каталога может выполняться вручную или автоматически путем обновления индекса. В свою очередь, результат работы самой системы включает специальный список. Он включает гиперссылку на необходимые ресурсы и описание документа в Интернете.

Самые популярные каталоги: Yahoo, Magellan (за рубежом) и Weblist, Snail и @Rus из страны.

Поисковая машина — это специальное средство поиска, которое использует специальных роботов для формирования базы данных. Содержит различные данные об Интернет-ресурсах. Его главное преимущество в том, что его основные функции автоматизированы, а его основу составляет исследовательский робот.
Для поиска в этой системе пользователь вводит запрос, который включает набор доступных ключевых слов или фразу в «кавычках». В свою очередь индекс создают роботы-индексаторы. Описание самого документа содержит: начальные предложения статьи, часть текста, где выделены «ключевые слова». Документ также содержит дату его обновления, его размер в КБ или МБ, а также кодировку.

К наиболее распространенным зарубежным IPS относятся Google, Altavista, Excite. Россияне — Яндекс и Рамблер».

В мире существует огромное количество различных типов IRS, которые содержат множество источников информации. Само собой разумеется, что даже самый современный и мощный сервер не может удовлетворить запросы миллионов пользователей. Поэтому появились специальные метапоисковые системы. Они могут одновременно перенаправлять запросы пользователей в различные поисковые системы и, исходя из их обобщения, могут предоставить пользователю документ, содержащий ссылки на запрашиваемый ресурс. К ним относятся MetaCrawler или SavvySearch.

Основные характеристики поисковых систем

Главный параметр — четкость. То есть точность информации, представленной в результатах поиска, остается на усмотрение пользователя, отправившего запрос. Но есть и другие особенности оценки поисковых систем.

Как работают поисковые системы

Полнота

Условный параметр, который указывает соотношение между общим количеством документов, отвечающих на запрос пользователя, и их количеством, представленным системой в выпуске. Чем выше коэффициент, тем более полный анализ выполняется сервисом.

Точность

Это можно описать на примере. Пользователь ввел запрос «купить квартиру». В поисковой выдаче было представлено 1000 сайтов. Но в половине из них это предложение просто встречается. С другой стороны, предлагаются ресурсы, где можно совершить покупку недвижимости. Последнее, конечно, интересует пользователя. В этом случае точность поискового сервиса составляет 0,5 (т.е. 50%). Чем выше показатель, тем выше точность.

Актуальность

Это время, прошедшее с момента публикации данных на сайте до их внесения в каталог индексирования. Чем быстрее этот процесс завершится, тем более релевантная информация будет представлена пользователю в результатах поиска. Для современных сервисов, таких как Bing или Google, частота обновления базы данных индексации составляет до 3 месяцев. Для релевантных сайтов — несколько дней.

Скорость поиска

это еще и «сопротивление нагрузки». Определяется временем, необходимым для составления списка сайтов для публикации после получения запроса пользователя. По большей части это просто зависит от производительности серверов, обрабатывающих данные, а также от общего количества полученных запросов. Современные сервисы могут одновременно обрабатывать до 100 миллионов в секунду.

История создания ИПС

Самые первые IPS появились в середине 90-х годов ХХ века. Они были очень похожи на обычные советы, которые можно найти в любой книге, в некоторых справочниках. Их база данных содержала специальные ключевые слова (слова), которые разными способами были собраны с множества сайтов. Поскольку интернет-технологии были несовершенными, поиск осуществлялся только по ключевым словам.

Намного позже был разработан специальный полнотекстовый поиск, который упростил поиск нужной пользователю информации. В системе произведена фиксация ключевых слов. Благодаря ей пользователи могли задавать необходимые вопросы по определенным словам и различным фразам.

Вандекс - первая поисковая система

Одним из первых был Вандекс. Его разработал очень известный программист Мэтью Грэм в 1993 году. Также в том же году появился новый «поисковый» «Аливеб» (кстати, он успешно работает до сих пор). Однако все они имели довольно сложную структуру и не обладали современными технологиями.

Одним из самых успешных был «WebCrawler», впервые запущенный в 1994 году. Отличительной чертой и основным преимуществом, выгодно отличавшим его от других поисковых систем, было то, что он мог найти любое ключевое слово на той или иной странице. Впоследствии он стал своеобразным эталоном для всех остальных разработанных позже IPS.

Гораздо позже возникли другие поисковые системы, которые иногда конкурировали друг с другом. Это были «Excite», «AltaVista», «InfoSeek», «Inktomi» и многие другие. С 1996 года российские пользователи сети начали сотрудничать с Рамблер и Апорт. Однако «Яндекс», созданный в 1997 году, стал настоящим триумфом для российского Интернета».

Этот российский аналог «Google» стал настоящей гордостью российских программистов. Сегодня он уверенно выталкивает конкурента в Рунет, а также является одним из лидеров по поисковым запросам IPS в России.

Сегодня существует ряд специальных «поисковых систем», которые созданы для решения конкретных задач. Например, информационно-поисковая система «Патрон» была разработана для хранения и поиска данных о патронах к различному оружию и сейчас используется как в органах МВД и спецслужб, так и для охотников — профессионалов и любителей.

Есть и другие, предназначенные для нотариусов, врачей, инженеров, военных, автолюбителей и т.д.

Принципы работы поисковой системы

Основными этапами создания базы данных для поисковых служб являются индексация и ранжирование сайтов. А чтобы окончательный результат был точным, теперь применяется схема машинного обучения. То есть поисковику для сравнения показываются 2 противоположных результата и указывается, по какой схеме необходимо их ранжировать. Затем система понимает, какой сайт «полезен», а какой «менее полезен».

Все это позволяет просматривать отдельный показатель — релевантность (условно его можно назвать «рейтингом»). Он присваивается каждому сайту в виде дробного числа. Чем выше релевантность, тем выше позиция ресурса в поисковой выдаче по запросу пользователя. Это основные принципы поисковых систем, используемых сегодня. И этот процесс тоже включает в себя несколько этапов.

Сбор данных

После того, как вы создали сайт и получили ссылку на него, система автоматически проанализирует его с помощью инструментов Spyder и Crawling. Информация собирается и систематизируется с каждой страницы.

Индексация

Индексирование выполняется через определенные промежутки времени. И по мере его прохождения сайт добавляется в общий каталог поисковой системы. Результатом этого процесса является создание индексного файла, который используется для быстрого поиска необходимой информации о ресурсе.

Обработка информации

Система получает запрос от пользователя и анализирует его. Определяются ключевые слова, которые впоследствии используются для поиска индексных файлов. Все документы, похожие на пользовательский запрос, извлекаются из базы данных.

Ранжирование

Составляется список всех отобранных для выдачи документов, в котором у каждого сайта своя позиция. Он выполняется на основе ранее рассчитанных оценок релевантности.

На этом этапе поисковые системы работают немного иначе. Формула ранжирования также уникальна. Но ключевые факторы, влияющие на релевантность сайта, следующие:

индекс цитирования (как часто сторонние ресурсы ссылаются на информацию с конкретной страницы);
авторитет домена (определяется на основе истории изменений);
актуальность текстовой информации по запросу;
актуальность других форматов контента, представленных на странице;
качество оптимизации сайта.

ССЫЛКА! Если вам необходимо заказать продвижение сайта в поисковых системах, я могу вам помочь, качественно проведу SEO-аудит сайта и составлю план продвижения.

Как работает ИПС

Поисковый паук

Работа информационно-поисковой системы очень сложна. Однако при желании вы можете понять его структуру. В первую очередь следует отметить наличие специальной программы — она называется поисковый робот (паук). Эта программа систематически проверяет различные страницы и индексирует их.

Веб-сервер создает запрос пользователя на ту или иную информацию, а затем доставляет этот запрос в поисковую систему. Поисковая система проверяет запрошенную базу данных, затем создает полный список страниц и отправляет его на веб-сервер. Он, в свою очередь, окончательно формирует все результаты запроса в «читаемую» форму, а затем передает их на «компьютер» пользователя.

IPS предназначен для следующих целей:

Хранить значительные объемы данных;
Сделайте быстрый поиск нужной информации;
Добавлять и удалять различные данные;
Просматривайте информацию легко и удобно.

Существует несколько основных типов IRS:

Автоматизированный
Библиографический
Разговорный
Документальный

Общие принципы обработки информации

Каждый описанный выше шаг выполняется отдельной программой (или их комбинациями). Это так называемые «компоненты» алгоритмов поисковых систем.

Как работают поисковые системы

Spider

Робот, загружающий веб-страницы на сервер, загружает веб-сайт, который будет дополнительно проиндексирован. Также загружает все страницы и подготавливает полученные данные для анализа следующей программой. Если пользователя загруженного сайта интересует только контент (текст, изображения, мультимедийный контент), паук работает с исходным кодом и html-документами.

Crawler

Эта программа открывает и автоматически анализирует все ссылки, которые она может найти на сайте (в архиве, предварительно подготовленном с поисковым запросом Spyder. Кстати, если Краулер обнаруживает «битую» ссылку, это усложняет его работу и, следовательно, заставляет поисковую систему потратить больше бюджета на индексирование вашего сайта.

Indexer

Программа, которая индексирует все данные, полученные от Spider и Crawler. То есть он разделяет загруженную страницу на составные части (с помощью тегов html) и формирует список данных, который здесь представлен.

Database

На основании информации, полученной после индексации, формируются 2 отдельные базы данных. Первый — это «дерево» сайта с его метатегами. Позже он используется при переиндексации. То есть вместо повторного изучения сайта проверяются «деревья»: так служба поиска определяет, были ли внесены какие-либо изменения в анализируемый веб-ресурс.

Вторая база данных — это результаты индексации. Та же информация, на основании которой определяется условная оценка сайта, а также список поисковых запросов, в ответ на которые вы можете предоставить ссылку.

Search Engine Results Engine

Алгоритм, который выполняет окончательное ранжирование сайтов при получении определенного поискового запроса. Именно этот алгоритм выбирает ссылки, которые будут показаны пользователю, а также определяет, как сортировать с первого по десятое место и так далее, 100 мест.

Web server

Сервер, на котором размещен сайт поисковой системы. Разве что открывается пользователь, где вводит свой запрос и отображает результаты задачи.

Как работает поисковый сервер

Пример выдачи поисковой службы Яндекса

Все кажется простым: вы ввели слово или фразу по интересующей теме, вы начали поиск и получаете результаты. Но за всем этим стоят тысячи алгоритмов: они анализируют миллиарды страниц, удаляют ненужные элементы и ранжируют информацию в списках на основе наиболее точного соответствия запросу.

Но кто сказал, что машина сразу же ищет информацию в Интернете после того, как пользователь вводит запрос? Картина совершенно иная: поисковый сервер (точнее, его индексатор) по определенным правилам обрабатывает контент сайтов в Интернете и собирает информацию о них в своей базе данных. И только тогда, когда пользователь вводит запрос, сервер обратится к этой же базе данных и отобразит из нее наиболее актуальную информацию. Отсюда высокая скорость вывода результатов (пример на скриншоте ниже).

Скорость отклика поисковой системы Google

И в этом суть: все, что делается для SEO-продвижения, направлено именно на то, чтобы «доставить удовольствие» индексатору. При просмотре сайта учитывается ряд параметров, в том числе:

Наличие ключевых слов в заголовке сайта или заголовке страницы.
Индекс цитируемости анализируемого ресурса — это количество ссылок на него в сети Интернет. Чем их больше, тем больше вероятность того, что сайт появится в результатах поиска.
Частота повторения ключевых слов. Здесь главное не переборщить: если ключевых фраз будет слишком много, страница будет помечена как «спам».
Дизайн, верстка. Также учитывается способ написания кода.
Возраст ресурса. Чем выше этот показатель, тем выше уровень «доверия» поисковой системе. Возрастные домены также называются доверенными доменами.
Тема как отдельной страницы, так и всего ресурса.
Уникальность текста, изображений и других файлов.

Конечно, есть способы контролировать индексацию, например, теги noindex и nofollow блокируют определенный контент на сайте от ботов. Также можно запретить индексацию всей страницы: для этого используется файл robots.txt с директивами Disallow, Allow, Crawl-delay, User-agent и т.д.

Со временем содержимое сайта может измениться, и индексатор не всегда успевает обработать и вставить эти изменения в свою базу данных. Также индексация иногда занимает несколько недель, а иногда и больше — это зависит от алгоритма обработки информации на конкретном сервере. В результате «свежие» страницы не сразу появятся в поисковой выдаче.

Исследовательские сети борются с этим явлением разными способами. Например, ленты новостей сканируются чаще. В Яндекс.Вебмастере и в Google Search Console есть специальный инструмент для сканирования страниц.

Теперь вернемся к пользователю, чтобы он ввел запрос и отправил его на обработку. Впоследствии начинает работать система выдачи результатов. Анализируйте ключевые слова и ищите в базе данных подходящие страницы. Все параметры, которые я упомянул выше, такие как индекс цитируемости и спам, также учитываются в рейтинге.

Информационно поисковые системы: основные понятие и виды пс