Характеристика рамблер как поисковой системы

Рамблер

Определение

Rambler (Рамблер, в переводе с английского – «бродяга, странник») – старейшая и одна из самых крупных поисковых систем в рунете, появился в 1996 году. Является частью холдинга Rambler Media Group.

Основные характеристики Рамблера

Рамблер является одним из первых поисковиков рунета, который оказал большое влияние на развитие аналогичных ресурсов и других проектов в дальнейшем. Согласно аналитическим данным, в наше время Рамблер значительно уступает таким аналогам, как Яндекс и Google, более популярным у пользователей нынешнего рунета. К Рамблеру обращаются всего пять процентов пользователей русскоязычного интернета (однако, кроме русского, Рамблер распознает также английский и украинский языки).

Помимо собственно поисковых функций, Рамблер имеет широкий ряд полезных сервисов и является полноценным медийным порталом. Так, например, на Рамблере можно завести бесплатный ящик электронной почты, ознакомиться с тематическим рейтингом сайтов, посмотреть новостную ленту и многое другое. На портале работает служба интернет-платежа, мессенджер, а также действует крупнейшая в рунете система контекстной рекламы Бегун.

История возникновения

В 1991 году в Российской Академии Наук была разработана локальная компьютерная сеть для обмена данными между сотрудниками Института биохимии и физиологии микроорганизмов. Первоначально сеть использовалась лишь в городе Пущино, затем была расширена на столицу, а несколько позже – подключена к сети Интернет.

Спустя пять лет, в 1996 году на базе сети была разработана поисковая система, которая и получила имя «Рамблер». Именно с этого момента данный ресурс начал работать в практически современном виде, постепенно модернизируясь с течением времени. Еще спустя год, в 1997г., на Рамблере был запущен Rambler’s Top100 – классификатор рейтинга, который определял популярность сайтов по количеству посещений. В настоящее время Rambler’s Top100 используется для анализа всех известных сайтов в русскоязычном интернете.

В 2009-м на Рамблере были введены некоторые улучшения, в том числе и система, которая основывается на так называемом вертикальном поиске.

В 2012 году портал был существенно обновлен: изменился интерфейс, акценты были изменены с собственно поиска на показ новостей, который каждый пользователь может настраивать индивидуально. В данный момент сайт принадлежит компании «Рамблер-Афиша», которая в свою очередь входит в холдинг, о котором было написано выше.

Недостатки Rambler как поисковой системы

На Рамблере, в отличии от более популярных поисковиков, реже происходят замены поисковых алгоритмов, которые позволяют производить более точный поиск необходимых сайтов и контента. Из-за этого, портал уступает своим конкурентам в качестве поиска, что и обуславливает его третье место в рунете, о чем написано выше.

Кроме того, в системе Рамблера практически нет встроенных фильтров, в результате чего поисковая выдача отображает множество непопулярных ресурсов и сайтом со спамом, что также затрудняет поиск нужной информации на данном портале.

Рамблер отличается низкой степенью соответствия выдачи результатов ожиданиям пользователя, то есть его алгоритм определения релевантности уже не соответствует современному уровню.

Учитывая слабую сторону поискового сервиса, на портале были произведены изменения, направленные на развитие других сервисов. Сам же поиск с целью улучшения качества был заменен технологией Яндекса в 2011 году.

Рабочие инструменты и сервисы

На сегодняшний день Рамблер имеет большое количество разнообразных инструментов, которые помогают пользователям в решении ряда проблем. Абсолютное большинство данных сервисов являются веб-приложениями, благодаря чему клиентам не требуется установка дополнительного софта и т.д.

Все сервисы и инструменты от Рамблера сгруппированы в зависимости от типа и сферы применения. Основные из них:

Источник

Принцип работы поисковой системы Rambler

Определение понятия и общая информация о поисковых системах, их история развития, технологии и этапы работы. История поисковой системы Rambler, механизм ассоциаций и управление индексированием. Порядок добавления страниц в поисковой системе Rambler.

Рубрика Программирование, компьютеры и кибернетика
Вид реферат
Язык русский
Дата добавления 24.05.2015
Размер файла 21,8 K

ba

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

1. Общая информация о поисковых системах

3. Поисковая система Rambler

3.1 История поисковой системы Rambler

3.2 Механизм ассоциаций от Rambler

3.3 Управление индексированием в поисковой системе Rambler

3.4 Добавление страниц в поисковой системе Rambler

3.5 Индексация в поисковой системе Rambler

Большинство пользователей Интернет сообщества начинают свой рабочий день с поисковых систем, где пытаются найти столь необходимую им информацию и решить свои проблемы. К сожалению, поисковые системы часто не способны точно и справедливо интерпретировать ресурсы. Как результат, на первых позициях поиска зачастую оказываются сайты «далекие» от решаемого вопроса. При этом ресурсы, представляющие реальную пользу оказываются «за бортом» поиска.

Причина такого положения проста и кроется в технологии получения и представления результатов поисковыми системами. При этом надо понимать, что главная проблема заключается в отсутствии четких правил, доступных и открытых для всех желающих. Чем больше неопределенности в алгоритмах формирования поисковых индексов (некий черный ящик), тем меньше поисковые системы отражают процесс формирования реальной информации. И соответственно, тем меньше будет уровень доверия к результатам поиска поисковых систем.

Конечно, большинство пользователей пользовались, пользуются, и будут пользоваться классическими поисковиками. Это просто, удобно и распространено. Это, как привычка, пользоваться поисковиками.

1. Общая информация о поисковых системах

В данном определении поисковой системы подразумевается информация различного рода, т.е. текст, аудио, видео, изображения и т.п. Однако следует отметить, что именно текстовые данные идеально подходят для описания полной функциональности поисковой системы, т.к. алгоритмы поиска мультимедийной информации, прежде всего, основываются на алгоритмах поиска текста.

Поисковые системы при использовании Интернет играют очень важную роль. В Интернете сосредоточено такое количество информации, что ее поиск уже превращается в отдельную задачу и отнимает очень много времени. Поисковые серверы выдают на запрос тысячи ссылок вместо нескольких страниц, где действительно имеется нужная информация. Пользователи всемирной сети Интернет, осознав преимущества, предоставляемые возможностью анализа пространственных данных, нуждаются в инструменте, позволяющем осуществлять быстрый и удобный поиск и доступ к цифровым снимкам местности и другой пространственной информации, сосредоточенной во многих правительственных, коммерческих и академических организациях.

2. История


Поисковая система (поисковый сервер, поисковая машина) особый web-сайт, на котором пользователь по заданному запросу может получить ссылки на сайты, соответствующие этому запросу.

Большая часть поисковых систем ищут информацию на сайтах Интернета, но также существуют поисковые машины, способные искать файлы на ftp-серверах, документы, а также информацию во внутренних сетях и прочая. В последнее время появился новый тип поисковых движков, основанных на технологии RSS.

Работа поисковой системы основана на работе «поискового движка». Основными критериями качества работы поисковой машины являются релевантность, полнота базы, учёт морфологии языка.

Наиболее популярными поисковыми машинами в России на сегодняшний день считаются Google, Yandex, и Rambler.

Первой поисковой машиной стал «Wandex», уже не существующий web-сайт, который создал Мэтью Грэйем из Массачусетского технологического института в 1993. Чуть позднее появляется поисковая система «Aliweb», существующая до сих пор. Первой полнотекстовой поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице, с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах. В 1994 был запущен «Lycos», разработанный в университете Карнеги Мелона.

Развитие русских поисковых машин началось в 1996 году с появлением морфологического расширения к поисковику Altavista, и запуском оригинальных российских поисковых машин Rambler и Aport. Вскоре, в 1997 году была открыта поисковая машина Яндекс.

Сегодня в мире работает несколько сотен разнообразных поисковых машин, отличающихся специализацией, возможностями и методиками поиска.


поисковый информация индексирование rambler


3.1 История поисковой системы Рамблер

История поисковика «Рамблер» начинается в 1991 году в городке Пущино Московской области. Именно там группой единомышленников была создана компания «Стек». Возглавил компанию «Стек» Сергей Лысаков. Занималась компания локальными сетями и подключением к Интернету.

В июне 2003 года компания запустила новую версию поисковой машины, которая отличается от предыдущей по двум основным параметрам: значительно увеличилась скорость поиска, благодаря новой архитектуре системы, обновление поискового индекса происходит несколько раз в день.

Для тех, кто точно знает, что ищет, и не хочет тратить лишнее время, была открыта специальная лаконичная версию поиска «Рамблер» по адресу r0.ru, (или, как говорят, Арнольд).

3.2 Механизм ассоциаций от Rambler

С одной стороны, с помощью механизма ассоциаций Rambler пользователь может быстро уточнить или расширить свой запрос. С другой стороны, цепочка типичных ассоциаций выявляет недостатки исходного запроса, его неоднозначность, «размытость». В результате посетитель поисковика Rambler учится правильно спрашивать, не тратя впустую время, то есть, по сути, прибегает к помощи «коллективного разума».

Механизм ассоциаций «У нас также ищут» интересен любому, кто хочет посмотреть, о чем думают тысячи и тысячи посетителей сети. Это инструмент для поиска, равно как и источник ценной информации для лингвистов и web-мастеров.

3.3 Управление индексированием в поисковой системе Рамблер

Ограничить индексирование страниц ресурсов поисковой системой Rambler можно через robots.txt или META-тег «Robots».Робот поисковика Рамблер называется «StackRambler». Именно он скачивает документы, выставленные в Интернет, находит в них ссылки на другие документы, скачивает вновь и т.д. Робот StackRambler анализирует файл robots.txt и ограничивает сканирование ресурса, согласно его указаний. Через robots.txt можно запретить доступ к определенным каталогам и/или файлам.

Ограничить сканирование страниц ресурса роботом поисковой системы Рамблер так же можно через META-тег «Robots». Тег управляет индексацией конкретной web-страницы. При этом роботам можно запретить не только индексацию самого документа, но и проход по имеющимся в нем ссылкам.

3.4 Добавление страниц в поисковой системе Рамблер

Робот сканирует страницы сайта в течение суток с момента регистрации (или нахождения ресурса). При этом он сразу же обходит сайт на некоторую глубину (сканирует страницы, на которые ссылается зарегистрированная страница). Скачанные роботом страницы появляются в поисковой базе с некоторой задержкой. Переиндексация полученных документов производится с интервалом приблизительно в две недели.

3.5 Индексация в поисковой системе Рамблер

При индексации поисковой системой Рамблер учитывается лишь та информация, которую пользователь может увидеть на странице. Базовые понятия и ключевые для сайта слова целесообразно включать в следующие HTML-теги (в порядке значимости): title h1. h4 b, strong, u Чем чаще слово встречается в этих полях, тем более вероятно, что поисковая система Rambler выдаст ссылку на этот документ ближе к началу списка результатов поиска.

Максимальный размер документа для роботов Рамблера составляет 200 килобайт. Документы большего размера усекаются до указанной величины.

Рамблер обрабатывает все «динамические» страницы с именами вида *.asp*, *.php*, *.pl* и т. п. для посещаемых сайтов, а также сайтов, содержащих уникальную информацию, полезную пользователям поисковой машины. Для остальных сайтов обрабатывается только часть таких страниц.

Фрагменты HTML, размеченные тегами, Рамблером не индексируются.

Поисковая машина Рамблер умеет извлекать ссылки из объектов flash и потому может обрабатывать сайты, построенные на флэш-технологии. Однако сами тексты flash-объектов пока не индексируются.

При индексации учитывается лишь та информация, которую пользователь может увидеть на странице.

Поиск учитывает данные Top100. Специальный робот Рамблера два раза в день добавляет в базу поисковой машины новые страницы со всех сайтов, которые участвуют в рейтинге Top100 и разместили счетчик на своих страницах. После изменения информации в рейтинге Top100 ее обновление в поисковой системе происходит в течение одного-двух дней. Если сайт зарегистрирован в Top100, он будет находиться по некоторым запросам, даже если информация была удалена из индексной базы.

При поиске учитывается информация, полученная из рейтинга Rambler’s Top100, если сайт в нем зарегистрирован. Число показывает, когда была получена эта информация. Информация по Top100 обновляется практически каждый день.

«Рамблер» стоял у истоков российского интернета. Появившись в 1996 году, он быстро завоевал огромную популярность и оставался ведущим игроком на рынке поиска России вплоть до 2001 года. Рамблер запустил первый в рунете рейтинг-классификатор (Rambler Top100), первый интернет-портал, первым среди отечественных интернет-компаний вышел на биржу.

Состоит в группе компаний Rambler&Co, образованной в мае 2013 г. в результате объединения активов «Афиши-Рамблер» (ранее входила в холдинг «ПрофМедиа» Владимира Потанина) и SUP MediaАлександра Мамута.

«Рамблер» четырежды завоёвывал «Премию Рунета».

Источник

Rambler

Поисковик учитывает морфологию русского, украинского и английского языков, а также при поиске проходит по всем формам запросов и выдает результаты по степени соответствия запросу.

Rambler, одна из самых первых поисковых систем на интернет-рынке, сыграл огромную роль в становлении Рунета. С небольшой численностью (не более 5%) поисковик стоит на 3 месте после Яндекса и Google.

Аудитория поиска Рамблер в основе своей представлена людьми, пользующимися системой практически с момента ее появления.

Из преимуществ в Рамблере можно выделить тематический рейтинг сайтов, службу новостей, интернет-мессенджер, сервис онлайн-платежей, бесплатную почту и сервис контекстной рекламы Бегун, и т.д.

Хроника событий

В 1991 году группа ученых, а именно Сергей Лысаков, Юрий Ершов, Дмитрий Крюков, Виктор Воронков и Владимир Самойлов, из Института биохимии и физиологии микроорганизмов РАН взялись за разработку местной сети для обмена научной и технической информации в Пущино. Вскоре сеть была соединена с Москвой, а затем и с Интернетом. Проект быстро заработал и стал активно развиваться.

Официальным годом рождения поисковика считается 1996 год, когда Дмитрий Крюков создал службу поиска под названием Rambler. В 1996 году уже были созданы и работали другие поисковые системы, но они, в отличие от Рамблера, не были популярны.

В 1997 г. Дмитрием Крюковым была введена определенная шкала, классификатор Rambler’s Top100, отвечающий за определение авторитета сайтов в зависимости от частоты их посещения.

В 1999 г. должность директора по разработке и исследованиям, а затем и место исполнительного директора занял Игорь Ашманов, который ушел из компании в 2001году. Свою работу в Рамблере он описал в книге «Жизнь внутри пузыря», где детально описал деятельность компании за 1999-2001гг., а также то, почему Рамблер потерял свое 1 место на отечественном интернет-рынке.

В 2004 г. Rambler’s Top 100 выдали сертификат качества ISO 9001.

В 2007 г. пост генерального директора занял Марк Опзумер. В 2009 г. на основе технологии eXtended AGgregator был добавлен вертикальный поиск. 31 декабря 2009 года в Rambler уволился весь топ-менеджмент вместе с генеральным директором Марком Опзумером и в этом же году поисковик получил «Премию Рунета» в номинации «Культура и массовые коммуникации».

С апреля 2009г. Ольга Турищева, работавшая в компании «Вымпел» директором по развитию венчурного бизнеса, руководит Рамблером.

В конце июня 2011 г. Рамблер перешел на поисковую технологию Яндекса. Наряду с достоинствами у поисковика есть и недостатки, особенно по сравнению с Яндексом или Google. В поиске Rambler редко обновляются алгоритмы, практически нет фильтров для контроля качества интернет-источников по низкочастотным или среднечастотным запросам, что увеличивает количество спамных сайтов, низко котируется и алгоритм определения релевантности сайтов. В связи с этим доля Рамблера среди поисковых систем уменьшилась с 20 до 5%.

Что Рамблер может предложить?

Рамблер предоставляет не только многочисленные проекты развлекательного характера, но и следующие разделы:

Источник

Характеристика рамблер как поисковой системы

Интернет постоянно растет, так же как растет и число пользователей, которые обращаются с запросами к поисковым системам. Увеличение объема информации и количества запросов, в свою очередь, приводит к повышению требований к скорости работы поисковых машин, качеству поиска и наглядности представления результатов. Так, для того чтобы пользователь остался доволен результатом, на сегодняшний день поисковой системе нужно собрать, обработать, обновить, найти и отсортировать в два раза больше документов, чем год назад. А основная задача поиска как раз и состоит в том, чтобы пользователь был доволен его результатами.

Когда пользователь обращается с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто. Получая результат, он оценивает работу системы, руководствуясь несколькими основными параметрами. Нашел ли он то, что искал? Если не нашел, то сколько раз ему пришлось переформулировать запрос, чтобы найти искомое? Насколько актуальную информацию он смог найти? Насколько быстро обрабатывала запрос поисковая машина? Насколько удобно были представлены результаты поиска? Был ли искомый результат первым или сотым? Как много ненужного мусора было найдено наравне с полезной информацией? Сможет ли он, вернувшись завтра и дав тот же запрос, получить те же результаты?

Для того, чтобы ответы на эти вопросы оставались удовлетворительными, разработчики поисковых машин постоянно совершенствуют алгоритмы и принципы поиска, добавляют новые функции, ускоряют работу системы. В этой статье мы обратимся к механизму работы поисковой машины Рамблер, и на примере ее устройства продемонстрируем, как достигается повышение качества и скорости поиска в условиях постоянного роста объема информации в сети Интернет.

Полнота

Полнота поиска в большой мере зависит от работы системы сбора и обработки информации. В связи с постоянным ростом количества документов в сети, эта система в первую очередь должна быть масштабируемой. В Рамблере масштабируемость достигается за счет параллельного исполнения задачи произвольным количеством машин.

В хранилище информация в сжатом виде собирается и разбивается на куски по 50 Мб. Эти части постепенно распределяются между 70 машинами, на которых запущена программа-индексатор. Как только индексатор на одной из машин заканчивает обработку очередной части страниц, он обращается за следующей порцией. В результате на первом этапе формируется много маленьких индексных баз, каждая из которых содержит информацию о некоторой части Интернета. Таким образом, вся интеллектуальная обработка данных осуществляется параллельно, поэтому ускорение процесса индексации достигается простым добавлением машин в систему.

После того, как все части информации обработаны, начинается объединение (слияние) результатов. Благодаря тому, что частичные индексные базы и основная база, к которой обращается поисковая машина, имеют одинаковый формат, процедура слияния является простой и быстрой операцией, не требующей никаких дополнительных модификаций частичных индексов. Основная база участвует в анализе как одна из частей нового индекса. Так, если объединяются 70 новых частей, то в анализе участвует 71 фрагмент (70 новых + основная база предыдущей редакции). Кроме того, единый формат позволяет проводить тестирование частичных баз еще до объединения их с основной, и обнаруживать ошибки на более раннем этапе.

Специальная программа («сливатор») составляет таблицы перенумерации документов базы. Содержимое всех частей объединяется. Среди страниц с одинаковыми адресами выбирается наиболее свежая версия; если при скачивании URL последней информацией была ошибка 404 (запрашиваемая страница не существует), она временно удаляется из индексной базы. Параллельно осуществляется склейка дублей: страницы, которые имеют одинаковое содержимое, но различные URL, объединяются в один документ.

Сборка единой базы из частичных индексных баз представляет собой простой и быстрый процесс. Сопоставление страниц не требует никакой интеллектуальной обработки и происходит со скоростью чтения данных с диска. Если информации, которая генерируется на машинах-индексаторах, получается слишком много, то процедура «сливания» частей проходит в несколько этапов. В начале частичные индексы объединяются в несколько промежуточных баз, а затем промежуточные базы и основная база предыдущей редакции пересекаются. Таких этапов может быть сколько угодно. Промежуточные базы могут сливаться в другие промежуточные базы, а уже потом объединяться окончательно. Поэтапная работа незначительно замедляет формирование единого индекса и не отражается на качестве результатов.

Точность

0,5). Чем точнее поиск, тем быстрее пользователь находит нужные ему документы, тем меньше «мусора» среди них встречается, тем реже найденные документы не соответствуют запросу.

Омонимы не только увеличивают размер индексной базы (так как для каждого такого слова приходится хранить все его возможные значения), но и отрицательно сказываются на точности поиска. Если пользователь ищет слово «данные», ему неинтересно получить в найденном все документы, которые содержат слово «дать». Для того, чтобы результаты поиска были точнее, модуль синтаксического анализа проводит разбор окружения слов-омонимов с целью установления их наиболее вероятных значений. Например, если рядом со словом «печь» стоит существительное («пирожки», «картошка»), то с высокой вероятностью «печь» в данном контексте является глаголом. На сегодняшний день анализатор способен распознавать значения только грамматических омонимов.

Синтаксический анализ позволяет также с определенной вероятностью распознавать некоторые имена собственные. Например, если в тексте несколько слов подряд написано с большой буквы, они чаще всего представляют собой имя собственное (Петр Петрович, Московский Государственный Университет). Данные о таких конструкциях учитываются при индексации и обработке запроса.

Огромную роль в повышении точности поиска играет ранжирование. Пользователь очень редко просматривает больше трех страниц с результатами поиска. Поэтому субъективно он оценивает точность по «верхним» документам. Даже если нужный документ найден поисковой машиной, но расположен на двухсотой позиции, скорее всего, он никогда не будет найден пользователем.

По умолчанию в Рамблере результаты ранжируются по степени соответствия (релевантности) запросу и группируются по сайтам. При ранжировании оцениваются различные характеристики текстов, такие как:

Помимо автоматических способов увеличения точности поиска, существуют различные средства, с помощью которых пользователь сам может уточнить поиск по отдельным запросам. В первую очередь к ним относится специальный язык поискового запроса, используя который можно ограничивать количество найденных документов. Например, запрос или его часть, взятые в кавычки, обрабатываются буквально, с учетом всех стоп-слов, форм, порядка, знаков препинания. Это повышает точность поиска, но уменьшает его полноту: если часть, заключенная в кавычки, неточна, нужный документ найден не будет.

Использование логического оператора OR (ИЛИ) позволяет расширить сферу поиска и увеличить его полноту, в то время как оператор NOT (И-НЕ), наоборот, повышает точность поиска за счет нахождения документов, которые содержат одни слова запроса и не содержат другие. Для повышения точности можно также задавать расстояние между словами. Если в искомом словосочетании порядок слов обычно сохраняется (например, Красная площадь), то в запросе для повышения точности имеет смысл ограничить расстояние, указав его в скобках через запятую: (2, Красная площадь). Это позволит отсеять документы, в которых слова красная и площадь не расположены рядом, а разбросаны по тексту.

Увеличить точность можно с помощью использования поиска в найденном. Уточняющий поиск, проводится уже не по всей индексной базе, а только по результатам предыдущего поиска. Таким образом, круг найденных документов сужается. Например, если дать запрос Красная площадь, а затем, провести поиск в найденном по запросу Москва, то результат будет содержать только те документы, в которых говорится о Красной площади города Москвы.

Актуальность

Разделение Интернета на 7 секторов условно. При необходимости он может быть разбит на 10, 20 или 40 секторов, каждый из которых будет обрабатываться автономно. В такой системе заложена возможность значительного увеличения нагрузки. С ростом объема информации в сети Интернет растет и индексная база поисковой машины. Постепенно переиндексация и сборка базы начинает занимать все больше времени, а процесс обновления индекса становится более громоздким. Поступление новых данных затягивается, информация начинает терять свою актуальность. Возможность «передела» Интернета на большее число секторов позволяет удерживать размер каждой части базы в оптимальном диапазоне, контролировать время ее сборки и обновления.

«Быстрая база» представляет собой разумное решение проблемы актуальности данных в поиске. Информационное агентство может выложить новость через десять минут после ее появления, потому что тратит время только на верстку страницы. Поисковая машина должна сначала заиндексировать текст, а на это требуется гораздо больше времени. «Быстрая база» охватывает все ресурсы Интернет, зарегистрированные в Тор 100, на которых был размещен счетчик, и которые еще не успели попасть в основную базу. При этом индексируются как страницы с новостями, так и другие свежие документы, появившиеся в Тор 100. В результате через сутки после теракта в поиске Рамблера была доступна не только основная информация, опубликованная на сайтах новостных агентств, которую можно найти и прочитать в разделах новостей, но и комментарии, высказывания очевидцев, обсуждения на форумах, все, что было к этому времени опубликовано на наиболее посещаемых страницах Интернета.

Скорость поиска

Скорость поиска тесно связана с его устойчивостью к нагрузкам. На сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель хочет получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих. Схематично обработка поискового запроса изображена на рисунке 1.

Помимо информации с proxy-сервера, frontend получает результаты из поиска по товарам и из базы Тор 100, отсортированные, с цитатами и подсветкой слов запроса. Frontend осуществляет окончательное объединение результатов, генерирует html со списком найденного, вставляет баннеры и перевязки (ссылки на различные разделы Рамблера) и отдает html Cisco, который маршрутизирует информацию пользователю.

Каждый из этапов обработки запроса многократно продублирован и защищен системой балансировки нагрузки. Благодаря дублированию информации поисковая система Рамблер является устойчивой к сбоям на отдельных участках, авариям, отказам оборудования. Если одна их машин перестала функционировать, нагрузка перераспределяется на другие машины, и выпадения документов из поиска не происходит. Масштабируемость достигается простым добавлением в систему машин соответствующего уровня. До недавнего времени в Рамблере работало 45 backend’а. В связи с тем, что осенью нагрузка на поисковые системы обычно возрастает, число backend’ов было увеличено до 77, что позволило значительно ускорить вычисление запросов.

Наглядность

Наглядность представления результатов является необходимым компонентом удобного поиска. На плохой витрине легко не заметить хороший товар. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. В следствие нечеткости запросов или неточности поиска, даже первые страницы не всегда содержат только нужную информацию. Это означает, что пользователю часто приходится проводить свой собственный поиск внутри списка найденного. Различные элементы ответной страницы помогают ориентироваться в результатах поиска.

Группировка по сайтам предназначена для того, чтобы на странице можно было вывести как можно больше Интернет-ресурсов, релевантных запросу пользователя. Это бывает важным, когда необходимо получить информацию из различных источников. Если более информативной для посетителя является дата обновления или релевантность отдельных документов, в ответной странице Рамблера существует возможность сортировки по этим параметрам.

В некоторых случаях полезным бывает знание имени сайта. Если пользователя интересует конкретный Интернет-ресурс, имя может дать ему гораздо больше информации, чем заголовок страницы или цитата.

Если запросу соответствует больше одной страницы с сайта, то в качестве результата поиска предъявляется наиболее релевантная из них, а ниже располагается частичный список остальных документов. Это увеличивает количество потенциально полезной информации на ответной странице и часто позволяет уточнить поиск без дополнительного запроса.

Цитата помогает определить, насколько полезную информацию содержит найденный документ. Очень часто посетителю не требуется переходить по ссылке, чтобы обнаружить, что текст не соответствует его интересам и потребностям. Иногда ответ на вопрос пользователя содержится непосредственно в цитате документа. Это экономит время и повышает эффективность работы поисковой системы.

Вместо заключения

Заключение пишется в конце и предполагает конечность. Но рост информации бесконечен, а потому нет предела совершенствованию поисковых машин. Важнейшей задачей разработчиков является улучшение качества поиска, движение в сторону большей эффективности и удобства в использовании системы. С этой целью постоянно меняются поисковые алгоритмы, создаются дополнительные сервисы, дорабатывается дизайн.

Однако для того, чтобы выжить в мире динамичного Интернета, при разработке необходимо закладывать большой запас устойчивости, постоянно заглядывать в завтрашний день и примерять будущую нагрузку на сегодняшний поиск. Все, что сегодня программируется в Рамблере, рассчитано «на вырост». Такой подход позволяет заниматься не только постоянной борьбой и приспособлением поисковой машины к растущим объемам информации, но и реализовывать что-то новое, действительно важное и нужное для повышения эффективности поиска в сети Интернет.

Источник

Adblock
detector