THE BELL

Есть те, кто прочитали эту новость раньше вас.
Подпишитесь, чтобы получать статьи свежими.
Email
Имя
Фамилия
Как вы хотите читать The Bell
Без спама

Поиско́вая систе́ма - программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в интернете.

Все поисковые системы объединяет то, что они расположены на специально-выделенных мощных серверах и привязаны к эффективным каналам связи. Поисковые системы называют еще информационно-поисковыми системами (ИПС). Количество одновременно обслуживаемых посетителей наиболее популярных систем достигает многих тысяч. Самые известные обслуживают в сутки миллионы клиентов. В случаях, когда поисковая система имеет в своей основе каталог, она называется каталогом. В ее основе лежит работа модераторов. В основе же ИПС с полнотекстовым поиском лежит автоматический сбор информации. Он осуществляется специальными программами. Эти программы периодически исследуют содержимое всех ресурсов Интернета. Для этого они перемещаются, или как говорят, ползают, по разным ресурсам. Соответственно такие программы называются роботы. Есть и другие названия: поскольку WWW – это аббревиатура выражения Всемирная паутина, то такую программу естественно назвать спайдером по англ. – паук. В последнее время используются другие названия: автоматические индексы или директории. Все эти программы исследуют и «скачивают» информацию с разных URL-адресов. Программы указанного типа посещают каждый ресурс через определенное время. Ни одна поисковая система не в состоянии проиндексировать весь Интернет. Поэтому БД, в которых собраны адреса проиндексированных ресурсов, у разных поисковых систем разные. Тем не менее, многие из них стремятся, по возможности, охватывать в своей работе все пространство мировой Сети.

Для поиска информации с помощью поисковой системы пользователь формулирует поисковый запрос. На основании запроса пользователя поисковая система генерируетстраницу результатов поиска. Такая поисковая выдача может сочетать различные типы файлов, например: веб-страницы, изображения, видеофайлы. Некоторые поисковые системы также извлекают данные из баз данных икаталогов ресурсов в Интернете.

По методам поиска и обслуживания разделяют четыре типа поисковых систем:

1.системы использующие поисковых роботов.

2.системы управляемые человеком

3.гибридные системы

4.мета-системы.

В архитектуру поисковой системы включены: поисковый робот сканирующий сайты сети Интернет, индексатор обеспечивающий быстрый поиск, и поисковик - графический интерфейс для работы пользователя.

Цель поисковой системы заключается в том, чтобы находить документы, содержащие либо ключевые слова, либо слова как-либо связанные с ключевыми словами. Поисковая система тем лучше, чем больше документов релевантных запросу пользователя она будет возвращать.

Примеры поисковых систем

Google - одна из самых полных и популярных зарубежных ИПС. Отличительной особенностью ИПС Google является технология определения степени релевантности документа путем анализа ссылок других источников на данный ресурс. Чем больше ссылок на какую-либо страницу имеется на других страницах, тем выше ее рейтинг в ИПС Google. Google использует алгоритм расчёта авторитетности PageRank. PageRank является одним из вспомогательных факторов приранжированиисайтов в результатах поиска. PageRank не единственный, но очень важный способ определенияположения сайтав результатах поиска Google. Google использует показатель PageRank найденных по запросу страниц, чтобы определить порядок выдачи этих страниц посетителю в результатах поиска.В 2010 году компания запустила голосовой поиск в России. Чтобы осуществить поиск, необходимо нажать в телефоне кнопку рядом со строкой поиска и произнести свой запрос, телефон отправит ваш голос на сервер, и браузер выдаст строку с распознанным вашим запросом и результатами поиска по нему.

Яndex – самая популярная в настоящее время отечественная поисковая система. Начала работу в 1997 г. Она поддерживает собственный каталог Интернет-ресурсов. Также является лучшей поисковой системой для выявления иллюстраций. Англоязычный вариант снабжен справочником ресурсов Интернет. Обладает развернутой системой формирования запроса. В частности, допускается ввод поискового предписания на естественном языке - в этом случае все необходимые расширения производятся автоматически.

Помимо веб-страниц в формате HTML, Яндекс индексирует документы в форматах PDF (Adobe Acrobat), Rich Text Format (RTF), двоичных форматах Word (.doc), Excel (.xls), PowerPoint(.ppt), RSS(блоги и форумы).

Поисковая система компании Mail.ru начала работать в 2007 году. Объем индексного файла весной 2009 г. составлял более 1.5 миллиарда страниц, расположенных на русскоязычных серверах. Помимо разыскания текстов, системой осуществляется поиск иллюстраций и видеофрагментов, размещенных на специализированных "самонаполняемых" российских серверах: Фото@Mail.Ru, Flamber.Ru, 35Photo.ru, PhotoForum.ru, Видео@Mail.Ru, RuTube, Loadup, Rambler Vision и им подобных. Gogo.ru позволяет ограничивать область поиска сайтами коммерческой направленности, информационными сайтами, а также форумами и блогами. Форма "Расширенного поиска" также дает возможность ограничить разыскания определенными типами файлов (PDF, DOC, XLS, PPT), местом положения искомых слов в документе или определенным доменом. В ноябре 2013 в Google Play появилась новая версия поискового приложения от компании Mail.Ru, позволяющего переходить с главного экрана в любые социальные сети и содержащего быстрый доступ к поиску по картинам, видео и новостям. Android-приложение превратилось в мини-браузер, заточенный под эффективный поиск нужной информации. Утилита также научилась распознавать поисковые запросы, заданные не текстом, а голосом. Разработчики также отмечают, что создали специальный виджет, который можно поместить на главный экран смартфона или планшета на базе системы Google Android. Подразумевается, что это позволит еще сильнее сократить время, затрачиваемое на поиск.

AltaVista – одна из старейших поисковых систем занимает одно из первых мест по объему документов – более 350 миллионов. AltaVista позволяет осуществлять простой и расширенный поиск. «Help» позволяет даже неподготовленным пользователям правильно составлять простые и сложные запросы.

Rambler – одна из первых российских ИПС, открыта в 1996 году. В конце 2002 года была произведена коренная модернизация, после которой Rambler вновь вошел в группу лидеров сетевого поиска. В настоящее время объем индекса составляет порядка 150 миллионов документов. Для составления сложных запросов рекомендуется использовать режим «Детальный запрос», который предоставляет широкие возможности для составления поискового предписания с помощью пунктов меню.

АПОРТ . На сегодняшний день объем ее базы составляет более 20 миллионов документов. Система обладает широким спектром поисковых возможностей. АПОРТ обладает функцией встроенного переводчика, это дает пользователю возможность формулировать запросы, как на русском, так и на английском языках. Кроме того, АПОРТ имеет специальные режимы для поиска иллюстраций и аудио файлов.

Поисковые механизмы последнего поколения индексируют все слова на web-странице или в статье из конференции, в то время как ранее область индексирования ограничивалась как правило названием, заголовками, первыми несколькими строками и адресом документа. Это существенно ограничивало возможность выявления материалов по узкой тематике, поскольку результаты поиска не всегда отражали реально существующие данные. Устранив этот недостаток, современные поисковые системы стали намного более надежными, чем их предшественники.

Следующая важнейшая черта - совершенствование внутреннего поискового механизма, выражающееся в увеличении числа операторов и других элементов составления запросов. Несколько лет назад применение находили только два, в лучшем случае, три классических булевых оператора: AND (и), OR (или) и NOT (не). Теперь появились NEAR (рядом, около) в Alta Vista и FOLLOWED BY (следует за) в OpenText - в высшей степени полезные операторы расстояния, которые дают возможность в максимальной степени конкретизировать запрос. Многие системы позволяют усекать окончания терминов, ограничивать поиск по дате создания документа, искать ключевые слова только в обозначенных элементах web-страниц (названии, заголовках, электронном адресе и т.д.), а также вести разыскание на точное словосочетание. Новейшие разработки также позволяют выявлять файлы определенного вида (например графические или аудио) и обладают чувствительностью к строчным и заглавным буквам. Общепринятой становится возможность искать данные на любых языках. Все это дает возможность составлять поисковое предписание с большой степенью точности, что конечно же повышает релевантность получаемых результатов.

На данный момент самые популярные поисковики Google и Яндекс, сравним их:

    Количество проиндексированных страниц. У Google 8 миллиардов, а у Яндекса всего 2 миллиарда. То есть, в четыре раза меньше. Победа за Google.

    Скорость индексации страниц. Google индексирует новые страницы в течение суток, тогда как Яндексу на это может потребоваться несколько дней. Опять побеждает Google.

    Релевантность выдачи. Под релевантностью понимается соответствие результатов, отображенных на странице поисковика, вашему запросу. Сразу скажу, победителя тут сложно определить. Google показал хорошие результаты в зарубежном сегменте интернета, зато в Рунете, Яндекс всегда был немного впереди.

    Дополнительные интернет сервисы. Тут преимущество однозначно за Яндексом. У него есть десятки разнообразных сервисов, которые удобно сгруппированы по категориям, тогда как у Google их поменьше, плюс есть интеграция с социальной сетью Google+, которая многим не нравится.

Здравствуйте, дорогие читатели! С вами Екатерина Калмыкова. Сегодняшняя статья будет посвящена такому понятию, как поисковая система, что это такое, для чего она нужна. Также мы подробно рассмотрим разновидности поисковых систем в интернете.

Если у вас возник вопрос: «Зачем мне знать про эти поисковые системы?», то я отвечу так. Когда вы едите вкусный суп в ресторане, хотелось бы вам знать, из каких ингредиентов он приготовлен, чтобы повторить его самостоятельно дома? Ведь если вас устраивает конечный результат, то есть вкус супа, то наверняка вам интересно было бы узнать, что привело к такому результату?

Также можно сказать и про работу с поисковой системой (ПС). Если вы в будущем создадите свой блог, то зная работу ПС вам не придется обращаться за помощью к специалистам. Вы сможете самостоятельно вести таким образом свой проект, чтобы поисковая система его видела и показывала другим пользователям. Ведь именно от этого будет зависеть посещаемость вашего ресурса и соответственно заработок.

Итак, приступим.

Что такое поисковая система?

Поисковая система — это специальный ресурс в Интернете, который выдает информацию пользователю в соответствии с его запросом. То есть этот ресурс собирает все данные в глобальной сети, все веб-проекты и при поступлении от пользователя определенного запроса выдает необходимую искомую информацию путем направления его, например, на тематический блог или сайт.

Таким образом, после создания своего проекта ваша задача будет попасть в выдачу, то есть в «список» или базу поисковой системы. Поскольку продвижение сайта в интернете просто не возможно без использования какой-либо поисковой системы, поэтому вам необходимо будет позаботиться о качестве своего ресурса, о внутренней и внешней его оптимизации. Как это сделать мы поговорим в следующих статьях. Так что , чтобы не пропустить.

А пока, если вы решили создать свой блог, то рекомендую прочитать вот эти статьи:

Поскольку новые веб-ресурсы появляются практически каждый день, то соответственно и база поисковых систем должна постоянно обновляться. Каждый вновь созданный сайт должен проиндексироваться роботом. Говоря простыми словами, помощники ПС – роботы должны познакомиться с новым ресурсом и передать эти данные самой поисковой системе.

Ну, тут вы, наверное, догадались, что при посещения вашего блога роботом ему все должно понравиться. От этого гостя и будет зависеть ваша дальнейшая судьба.

Как сделать, чтобы робот от вашего проекта остался в полном восторге я расскажу в одной из следующих статей. Не пропустите, будет интересная и весьма любопытная информация, которой я с вами поделюсь.

Работа поисковых систем

Вся работа, связанная с ПС, начинается с ввода искомого запроса в поисковой строке. Что могут искать пользователи? Да что угодно, начиная от рецепта пирожков с капустой и заканчивая извечным вопросом «как заработать денег побольше ничего не делая».

Чтобы именно ваш ресурс выходил в качестве ответа на вопрос, необходимо опережать своих конкурентов. Для этого и нужно обратить особое внимание на продвижение своего проекта, куда входят такие мероприятия как написание качественного оптимизированного контента, то есть отвечающего на запросы статьи, улучшение поведенческого фактора, то есть чтобы вашему читателю было интересно находится на ресурсе, это улучшение юзабилити, то есть удобство посетителя и многие другие факторы. Это мы все научимся с вами делать.

Компоненты поисковых систем

А что же помогает поисковикам, например, тому же Гугл индексировать ваш ресурс?

  1. Агенты — это работники, выполняющий основную часть работу — индексируют и анализируют сайты.
  2. Пауки (spider) – программа, которая может скачивать страницы веб-ресурса и собирать общую информацию о нем.
  3. Кроулеры (crawler) – программа, отыскивающая все ссылки на страницах, переходя по которым разыскивает новые данные не знакомые поисковикам.
  4. Индексатор (indexer) – анализирует текст, заголовки, стиль и др.
  5. Роботы - индексируют страницы вашего контента, а также изучают разнообразные ссылки.

Для того чтобы индексация происходила так, как нужно вам вы и создаете специальный документ «robots.txt». Он позволяет системе проверять только те страницы, которые вам нужно, и убирать то, что видеть не следует.

Виды поисковых систем

Существуют несколько вариантов информационно — поисковых систем:

  • Каталоги. Простое сравнение поиска – это книжная полка в библиотеке. Там все хранится в подкатегориях и категориях определенной тематики. Если вы попали в такой поисковик, то поверьте, информация, которую вы там найдете, будет более чем полезна и понятна для вашего восприятия. Догадались о каком распространенном сайте идет речь? Конечно же о википедии, которая собрала в себе целый справочник полезной информации.
  • Поисковые указатели. Поиск в данных осуществляется за счет ключевых фраз. Это и удобно и неудобно одновременно. Думаю, меня поймут те люди, которые ищут, например, «Девушка показывает класс», чтобы найти как девушка показывает большой палец вверх, а в поиске вылезает что-то не очень приличное. 🙂 Такой вид поиска характеризирует большую часть поисковых систем.
  • Рейтинговые системы. Определяют вашу популярность за счет количества посещений. Конечно, не самый лучший критерий, так как не всегда учитывается полезность и качественность самого ресурса. Пример такой системы – это интернет ресурс alexa.com.

Поисковые сервера подразделяются также на общие и специализированные . Общие поисковики сортируют информационные данные без всякого отбора по всем известным им веб-ресурсам. К ним относятся Яндекс, Рамблер, Гугл. Специализированные — осуществляют сортировку по используемому языку.

Также поисковые системы могут делиться на региональное и мировое распространение .

На сегодняшний день все поисковики постоянно совершенствуют свои алгоритмы по отбору качественных, релевантных ресурсов.

Немного истории

В Рунете ПС появились в 1996 года – это Апорт и Рамблер. Годом позже в 1997 году образовался Яндекс, а еще годом позже в 1998 году появился еще один конкурент – Google. В настоящий момент наиболее популярные – это Яндекс и Google.

Какие же поисковики сейчас наиболее популярны?

Приведем статистику:

Как вы видите, сейчас в России наибольшей популярностью пользуется Яндекс, наряду с Гугл и Мэйл.

Таким образом, вы можете увидеть топ поисков, на которые вам следует ориентироваться при создании и продвижении своего проекта.

Поисковая система Яндекс (Yandex)

Принцип работы следующий: в поисковую строку вводите искомый запрос, нажимаете «Найти» и смотрите выдачу. Яндекс подобрал вам 13 млн. ответов на ваш запрос. Искать можно также в картинках, видео, маркете (смотрим левую колонку).

Дополнительно вы можете настроить регион для поиска. Для этого необходимо в строке поиска нажать на значок рядом с крестиком и в окне фильтра выбрать нужный регион.

Поисковая система Гугл (Google)

Гугл работает по аналогии с Яндекс. Искать информацию можно в разных разделах: картинки, видео, новости, карты и т.д.

Если вы нажмете на «Инструменты поиска», то откроется панель с настройками, где вы можете выбрать регион, язык и за какое время осуществить поиск информации.

Теперь вы знаете, какие системы поиска существуют в интернете, также вы увидели самые популярные из них, и теперь, вооруженные информацией вы можете налаживать свои связи и взаимодействие с поисковиками.

На сегодня все. Как Вам статья?

Всем пока.

Советую на обновление блога, чтобы не пропустить выход свежих новостей.

Екатерина Калмыкова

Являются одним из основных и наиболее важных сервисов интернета.

При помощи поисковых систем миллиарды пользователей интернета находят для себя необходимую информацию.

Что такое поисковая система?

Поисковая система представляет собой программно-аппаратный комплекс, который использует специальные алгоритмы для обработки огромного количества информации о самых различных сайтах, об их содержимом вплоть до каждой страницы.

Поисковая система, с точки зрения простых посетителей, это такой умный сайт, который содержит много информации и дает ответы на любые запросы пользователей.

В разных странах пользователи интернета используют различные поисковые системы. В англоязычном сегменте интернета наиболее популярной является поисковая система Google.

Поисковые системы в Рунете

В России более половины пользователей предпочитают поисковую систему Яндекс, а на долю Google приходится около 35% запросов. Остальные пользователи используют Рамблер, Mail.ru, Nigma и другие сервисы.

На Украине около 60% пользователей используют Google, на долю Яндекса приходится немногим более 25% обработанных запросов.

Поэтому при продвижении сайтов в Рунете специалисты стараются продвигать сайт, ориентируясь на поисковые системы Яндекс и Google.

Задачи поисковых систем

Для того, чтобы максимально точно ответить на вопросы посетителей, поисковые системы должны выполнять следующие задачи:

  1. Быстро и качественно собрать информацию о различных страницах разных сайтов.
  2. Обработать информацию об этих страницах и определить какому запросу или запросам они соответствуют.
  3. Формировать и выдавать поисковую выдачу в ответ на запросы пользователей.

Составляющие поисковых систем

Поисковые системы представляют собой сложный программный комплекс, который состоит из следующих основных блоков:

  1. Сбор данных.
  2. Индексация.
  3. Вычисление.
  4. Ранжирование.

Это разделение условное, так как работа разных поисковых систем несколько отличается друг от друга.

1. Сбор данных

На этом этапе стоит задача найти новые документы, составить план их посещения и сканирования.

Вебмастерам необходимо дать знать поисковым системам о появлении новых материалов при помощи размещения адреса страницы в аддурилку или прогнать анонс страницы по социальным сетям.

Лично я пользуюсь последним способом и считаю, что этого вполне достаточно.

Комментарий. Немного отвлекусь и расскажу об эффективности размещения анонсов в социальных сетях на скорость индексации новых страниц сайта.

Я использую для контроля и фиксации уникальности текста на страницах своего сайта сервис text.ru.

Он качественно проверяет уникальность, фиксирует ее и дает возможность разместить баннер уникальности на страницах Вашего сайта.

Но иногда на этом сервисе бывает большая очередь на обработку. У меня было несколько случаев, когда я не стал ожидать проверки уникальности, размещал статью на сайте и прогонял ее по социальным сетям.

Если проверка уникальности задерживалась около часа и более, то процент уникальности всегда равнялся 0%. Это значит, что за неполный час после размещения страница уже была проиндексирована и занесена в базу данных поисковых систем.

2. Индексация

Поисковые системы, собрав данные о новых веб-страницах, размещают их в своей базе данных. При этом формируется индекс, то есть ключ для быстрого доступа к данным об этой странице, если возникает такая необходимость.

3. Вычисление

После попадания в базу данных страницы наших сайтов проходят этап вычисления различных параметров и показателей.

Сколько этих показателей и как они вычисляются точно сказать, кроме самих разработчиков алгоритмов поисковых систем, никто не может.

4. Ранжирование

Затем, на основании рассчитанных параметров и показателей, происходит определение релевантности страницы тем или иным запросам и ранжирование этой страницы.

Это будет важно для быстрого и качественного формирования страницы поисковой выдачи по этим запросам.

Поисковые системы формируют ответы на запросы пользователей и формируют для них результаты в виде страницы поисковой выдачи.

Надо отметить, что алгоритмы обработки данных о страницах, формирование показателей и способы ранжирования постоянно совершенствуются. Меняются приоритеты, по которым происходит ранжирование.
Поисковые системы стремятся ответить на запросы пользователя максимально точно, стараясь учитывать характер запроса, интересы конкретного пользователя, его место проживания, возраст, пол, привычки, наклонности.

Для того, чтобы успешно вести и развивать свой блог, нам, прежде всего, необходимо знать, и по каким алгоритмам они работают. Четкое понимание ответов на эти вопросы позволит нам успешно решать задачи продвижения сайтов в поисковых системах. Но о поисковой оптимизации сайтов разговор еще впереди, а пока немного теории о поисковиках.

Что такое поисковые системы интернета?

Если обратиться к Википедии, то вот что мы узнаем:

“Поисковая система - это программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете.”

А теперь на понятном нам языке. Допустим нам срочно нужна информация по определенной теме. Чтобы мы быстро смогли ее найти и созданы поисковики – сайты, где введя в форму поиска поисковый запрос, нам будет выдан список сайтов, на которых, с большой долей вероятности, мы найдем то, что ищем. Этот список называется поисковая выдача. Он может состоять из миллионов страниц по 10 сайтов на каждой. Основная задача вебмастера – попасть, как минимум, в первую десятку.

Вспомните, что когда Вы что либо ищете в сети, то обычно находите это на первой странице выдачи, редко переходя на вторую и тем более на последующие. Значит, чем выше место занимает сайт, тем больше посетителей зайдут на его страницы. А большой трафик (количество посетителей в сутки) – это, в том числе, возможность хорошо .

Как же поисковые системы интернета находят информацию в интернете и по какому принципу распределяют места в поисковой выдаче?

В нескольких словах, поисковая система интернета – это целая паутина, в которой роботы-пауки постоянно сканируют сеть и запоминают все тексты, попадающие в интернет. Анализируя полученные данные, поисковики отбирают документы, наиболее соответствующие поисковому запросу, т. е. релевантные, из которых формируется поисковая выдача.

Самое интересное, что поисковики не умеют читать. Так как же тогда они находят информацию? Алгоритмы поисковых систем сводятся к нескольким основным принципам. Они, первым делом, обращают внимание на заголовок и описание статьи, заголовки абзацев, смысловые выделения в тексте и плотность ключевых слов, которые обязательно должны соответствовать тематике статьи. Чем точнее это соответствие, тем выше в поисковой выдаче будет сайт. Кроме этого обязательно учитывается , объем информации и еще множество факторов. Например, авторитет веб-ресурса, зависящий от количества и авторитетности ссылающихся на него сайтов. Чем больше авторитет, тем выше в выдаче.

Комплекс мер направленный на поднятие позиций сайта в поисковой выдаче по определенным запросам называется поисковой оптимизацией. Сейчас это целая наука – . Но об этом потом.

На данный момент в мире насчитывается множество поисковых систем. Назову самые популярные. На западе это: Google, Bing и Yahoo. В Рунете – Яндекс, Mail.ru, Рамблер и Нигма. В основном пользователи отдают предпочтение мировому лидеру , а самой популярной в русскоязычном интернете стала система Яндекс .

Немного истории. Google был создан в 1997 году выходцем из Москвы Сергеем Брином и его другом американцем Ларри Пейджем во время их учебы в Стэнфордском университете.

Особенностью Google стало то, что она выводила на первые позиции в поисковой выдаче наиболее релевантные результаты поиска в логической последовательности, в то время как остальные поисковики занимались простым сравнением слов в запросе со словами на веб-странице.

23 сентября того же года была анонсирована и система Yandex, которая уже с 2000 года стала существовать как отдельная компания “Яндекс “.

Не буду больше утомлять, надеюсь теперь немного стало ясно, что такое поисковые системы интернета . Стоит сказать, что алгоритмы работы поисковых систем постоянно развиваются. С каждым днем поисковики все лучше определяют потребности пользователей и показывают им в выдаче наиболее релевантную информацию, основанную на множестве факторов (региональность, какие запросы пользователь уже запрашивал, какие сайты посещал в процессе поиска, куда он с них переходил и т.д.).

Скоро Гугл и Яндекс будут лучше нас знать, что нам нужно и о чем мы думаем.!

В архитектуру поисковой системы обычно входят:

Энциклопедичный YouTube

    1 / 5

    ✪ Урок 3: Как работает поисковая система. Введение в SEO

    ✪ Поисковая система изнутри

    ✪ Shodan - черный Google

    ✪ Поисковая система ЧЕБУРАШКА заменит Google и Яндекс в России

    ✪ Урок 1 - Как устроена поисковая система

    Субтитры

История

Хронология
Год Система Событие
1993 W3Catalog ?! Запуск
Aliweb Запуск
JumpStation Запуск
1994 WebCrawler Запуск
Infoseek Запуск
Lycos Запуск
1995 AltaVista Запуск
Daum Основание
Open Text Web Index Запуск
Magellan Запуск
Excite Запуск
SAPO Запуск
Yahoo! Запуск
1996 Dogpile Запуск
Inktomi Основание
Рамблер Основание
HotBot Основание
Ask Jeeves Основание
1997 Northern Light Запуск
Яндекс Запуск
1998 Google Запуск
1999 AlltheWeb Запуск
GenieKnows Основание
Naver Запуск
Teoma Основание
Vivisimo Основание
2000 Baidu Основание
Exalead Основание
2003 Info.com Запуск
2004 Yahoo! Search Окончательный запуск
A9.com Запуск
Sogou Запуск
2005 MSN Search Окончательный запуск
Ask.com Запуск
Нигма Запуск
GoodSearch Запуск
SearchMe Основание
2006 wikiseek Основание
Quaero Основание
Live Search Запуск
ChaCha Запуск (бета)
Guruji.com Запуск (бета)
2007 wikiseek Запуск
Sproose Запуск
Wikia Search Запуск
Blackle.com Запуск
2008 DuckDuckGo Запуск
Tooby Запуск
Picollator Запуск
Viewzi Запуск
Cuil Запуск
Boogami Запуск
LeapFish Запуск (бета)
Forestle Запуск
VADLO Запуск
Powerset Запуск
2009 Bing Запуск
KAZ.KZ Запуск
Yebol Запуск (бета)
Mugurdy Закрытие
Scout Запуск
2010 Cuil Закрытие
Blekko Запуск (бета)
Viewzi Закрытие
2012 WAZZUB Запуск
2014 Спутник Запуск (бета)

На раннем этапе развития сети Интернет Тим Бернерс-Ли поддерживал список веб-серверов, размещённый на сайте ЦЕРН . Сайтов становилось всё больше, и поддерживать вручную такой список становилось всё сложнее. На сайте NCSA был специальный раздел «Что нового!» (англ. What"s New! ) , где публиковали ссылки на новые сайты.

Первой компьютерной программой для поиска в Интернете была программа Арчи (англ. archie - архив без буквы «в»). Она была создана в 1990 году Аланом Эмтэджем (Alan Emtage), Биллом Хиланом (Bill Heelan) и Дж. Питером Дойчем (J. Peter Deutsch), студентами, изучающими информатику в университете Макгилла в Монреале . Программа скачивала списки всех файлов со всех доступных анонимных FTP -серверов и строила базу данных, в которой можно было выполнять поиск по именам файлов. Однако, программа Арчи не индексировала содержимое этих файлов, так как объём данных был настолько мал, что всё можно было легко найти вручную.

Развитие и распространение сетевого протокола Gopher , придуманного в 1991 году Марком Маккэхилом (Mark McCahill) в университете Миннесоты , привело к созданию двух новых поисковых программ, Veronica и Jughead . Как и Арчи, они искали имена файлов и заголовки, сохранённые в индексных системах Gopher. Veronica (англ. Very Easy Rodent-Oriented Net-wide Index to Computerized Archives ) позволяла выполнять поиск по ключевым словам большинства заголовков меню Gopher во всех списках Gopher. Программа Jughead (англ. Jonzy"s Universal Gopher Hierarchy Excavation And Display ) извлекала информацию о меню от определённых Gopher-серверов. Хотя название поисковика Арчи не имело отношения к циклу комиксов «Арчи» , тем не менее Veronica и Jughead - персонажи этих комиксов.

К лету 1993 года ещё не было ни одной системы для поиска в вебе, хотя вручную поддерживались многочисленные специализированные каталоги. Оскар Нирштрасс (Oscar Nierstrasz) в Женевском университете написал ряд сценариев на Perl , которые периодически копировали эти страницы и переписывали их в стандартный формат. Это стало основой для W3Catalog ?! , первой примитивной поисковой системы сети, запущенной 2 сентября 1993 года .

Вероятно, первым поисковым роботом, написанным на языке Perl, был «World Wide Web Wanderer» - бот Мэтью Грэя (Matthew Gray) из в июне 1993 года. Этот робот создавал поисковый индекс «Wandex ». Цель робота Wanderer состояла в том, чтобы измерить размер всемирной паутины и найти все веб-страницы, содержащие слова из запроса. В 1993 году появилась и вторая поисковая система «Aliweb ». Aliweb не использовала поискового робота , но вместо этого ожидала уведомлений от администраторов веб-сайтов о наличии на их сайтах индексного файла в определённом формате.

JumpStation , созданный в декабре 1993 года Джонатаном Флетчером, искал веб-страницы и строил их индексы с помощью поискового робота, и использовал веб-форму в качестве интерфейса для формулирования поисковых запросов. Это был первый инструмент поиска в Интернете, который сочетал три важнейших функции поисковой системы (проверка, индексация и собственно поиск). Из-за ограниченности ресурсов компьютеров того времени индексация и, следовательно, поиск были ограничены только названиями и заголовками веб-страниц, найденных поисковым роботом.

Поисковые системы участвовали в «Пузыре доткомов» конца 1990-х . Несколько компаний эффектно вышли на рынок, получив рекордную прибыль во время их первичного публичного предложения . Некоторые отказались от рынка общедоступных поисковых движков и стали работать только с корпоративным сектором, например, Northern Light .

Google взял на вооружение идею продажи ключевых слов в 1998 году, тогда это была маленькая компания, обеспечивавшая работу поисковой системы по адресу goto.com . Этот шаг ознаменовал для поисковых систем переход от соревнований друг с другом к одному из самых выгодных коммерческих предприятий в Интернете . Поисковые системы стали продавать первые места в результатах поиска отдельным компаниям.

Поисковая система Google занимает видное положение с начала 2000-х . Компания добилась высокого положения благодаря хорошим результатам поиска с помощью алгоритма PageRank . Алгоритм был представлен общественности в статье «The Anatomy of Search Engine», написанной Сергеем Брином и Ларри Пейджем, основателями Google . Этот итеративный алгоритм ранжирует веб-страницы, основываясь на оценке количества гиперссылок на веб-страницу в предположении, что на «хорошие» и «важные» страницы ссылаются больше, чем на другие. Интерфейс Google выдержан в спартанском стиле, где нет ничего лишнего, в отличие от многих своих конкурентов, которые встраивали поисковую систему в веб-портал. Поисковая система Google стала настолько популярной, что появились подражающие ей системы, например, Mystery Seeker (тайный поисковик).

Поиск информации на русском языке

В 1996 году был реализован поиск с учётом русской морфологии на поисковой машине Altavista и запущены оригинальные российские поисковые машины Рамблер и Апорт . 23 сентября 1997 года была открыта поисковая машина Яндекс . 22 мая 2014 года компанией Ростелеком была открыта национальная поисковая машина Спутник , которая на момент 2015 года находится в стадии бета-тестировании. 22 апреля 2015 года был открыт новый сервис Спутник. Дети специально для детей с повышенной безопасностью.

Большую популярность получили методы кластерного анализа и поиска по метаданным . Из международных машин такого плана наибольшую известность получила «Clusty» компании Vivisimo . В 2005 году в России при поддержке МГУ запущен поисковик «Нигма », поддерживающий автоматическую кластеризацию . В 2006 году открылась российская метамашина Quintura , предлагающая визуальную кластеризацию в виде облака тегов . «Нигма» тоже экспериментировала с визуальной кластеризацией.

Как работает поисковая система

Основные составляющие поисковой системы: поисковый робот , индексатор , поисковик .

Как правило, системы работают поэтапно. Сначала поисковый робот получает контент, затем индексатор генерирует доступный для поиска индекс, и наконец, поисковик обеспечивает функциональность для поиска индексируемых данных. Чтобы обновить поисковую систему, этот цикл индексации выполняется повторно .

Поисковые системы работают, храня информацию о многих веб-страницах, которые они получают из HTML страниц. Поисковый робот или «краулер» (англ. Crawler ) - программа, которая автоматически проходит по всем ссылкам, найденным на странице, и выделяет их. Краулер, основываясь на ссылках или исходя из заранее заданного списка адресов, осуществляет поиск новых документов, ещё не известных поисковой системе. Владелец сайта может исключить определённые страницы при помощи robots.txt , используя который можно запретить индексацию файлов, страниц или каталогов сайта.

Поисковая система анализирует содержание каждой страницы для дальнейшего индексирования. Слова могут быть извлечены из заголовков, текста страницы или специальных полей - метатегов . Индексатор - это модуль, который анализирует страницу, предварительно разбив её на части, применяя собственные лексические и морфологические алгоритмы. Все элементы веб-страницы вычленяются и анализируются отдельно. Данные о веб-страницах хранятся в индексной базе данных для использования в последующих запросах. Индекс позволяет быстро находить информацию по запросу пользователя . Ряд поисковых систем, подобных Google, хранят исходную страницу целиком или её часть, так называемый кэш , а также различную информацию о веб-странице. Другие системы, подобные системе AltaVista, хранят каждое слово каждой найденной страницы. Использование кэша помогает ускорить извлечение информации с уже посещённых страниц . Кэшированные страницы всегда содержат тот текст, который пользователь задал в поисковом запросе. Это может быть полезно в том случае, когда веб-страница обновилась, то есть уже не содержит текст запроса пользователя, а страница в кэше ещё старая. Эта ситуация связана с потерей ссылок (англ. linkrot ) и дружественным по отношению к пользователю (юзабилити) подходом Google. Это предполагает выдачу из кэша коротких фрагментов текста, содержащих текст запроса. Действует принцип наименьшего удивления , пользователь обычно ожидает увидеть искомые слова в текстах полученных страниц (User expectations ). Кроме того, что использование кэшированных страниц ускоряет поиск, страницы в кэше могут содержать такую информацию, которая уже нигде более не доступна.

Поисковик работает с выходными файлами, полученными от индексатора. Поисковик принимает пользовательские запросы, обрабатывает их при помощи индекса и возвращает результаты поиска .

Когда пользователь вводит запрос в поисковую систему (обычно при помощи ключевых слов), система проверяет свой индекс и выдаёт список наиболее подходящих веб-страниц (отсортированный по какому-либо критерию), обычно с краткой аннотацией, содержащей заголовок документа и иногда части текста. Поисковый индекс строится по специальной методике на основе информации, извлечённой из веб-страниц . С 2007 года поисковик Google позволяет искать с учётом времени, создания искомых документов (вызов меню «Инструменты поиска» и указание временного диапазона). Большинство поисковых систем поддерживает использование в запросах булевых операторов И, ИЛИ, НЕ, что позволяет уточнить или расширить список искомых ключевых слов. При этом система будет искать слова или фразы точно так, как было введено. В некоторых поисковых системах есть возможность приближённого поиска , в этом случае пользователи расширяют область поиска, указывая расстояние до ключевых слов . Есть также концептуальный поиск , при котором используется статистический анализ употребления искомых слов и фраз в текстах веб-страниц. Эти системы позволяют составлять запросы на естественном языке. Примером такой поисковой системы является сайт ask com .

Полезность поисковой системы зависит от релевантности найденных ею страниц. Хоть миллионы веб-страниц и могут включать некое слово или фразу, но одни из них могут быть более релевантны, популярны или авторитетны, чем другие. Большинство поисковых систем использует методы ранжирования, чтобы вывести в начало списка «лучшие» результаты. Поисковые системы решают, какие страницы более релевантны, и в каком порядке должны быть показаны результаты, по-разному . Методы поиска, как и сам Интернет со временем меняются. Так появились два основных типа поисковых систем: системы предопределённых и иерархически упорядоченных ключевых слов и системы, в которых генерируется инвертированный индекс на основе анализа текста.

Большинство поисковых систем являются коммерческими предприятиями, которые получают прибыль за счёт рекламы , в некоторых поисковиках можно купить за отдельную плату первые места в выдаче для заданных ключевых слов. Те поисковые системы, которые не берут денег за порядок выдачи результатов, зарабатывают на контекстной рекламе, при этом рекламные сообщения соответствуют запросу пользователя. Такая реклама выводится на странице со списком результатов поиска, и поисковики зарабатывают при каждом клике пользователя на рекламные сообщения.

Типы поисковых систем

Существует четыре типа поисковых систем: с поисковыми роботами, управляемые человеком, гибридные и мета-системы .

  • системы, использующие поисковых роботов
Состоят из трёх частей: краулер («бот», «робот» или «паук»), индекс и программное обеспечение поисковой системы. Краулер нужен для обхода сети и создания списков веб-страниц. Индекс - большой архив копий веб-страниц. Цель программного обеспечения - оценивать результаты поиска. Благодаря тому, что поисковый робот в этом механизме постоянно исследует сеть, информация в большей степени актуальна. Большинство современных поисковых систем являются системами данного типа.
  • системы, управляемые человеком (каталоги ресурсов)
Эти поисковые системы получают списки веб-страниц. Каталог содержит адрес, заголовок и краткое описание сайта. Каталог ресурсов ищет результаты только из описаний страницы, представленных ему веб-мастерами. Достоинство каталогов в том, что все ресурсы проверяются вручную, следовательно, и качество контента будет лучше по сравнению с результатами, полученными системой первого типа автоматически. Но есть и недостаток - обновление данных каталогов выполняется вручную и может существенно отставать от реального положения дел. Ранжирование страниц не может мгновенно меняться. В качестве примеров таких систем можно привести каталог Yahoo , dmoz и Galaxy.
  • гибридные системы
Такие поисковые системы, как Yahoo , Google , MSN , сочетают в себе функции систем, использующие поисковых роботов, и систем, управляемых человеком.
  • мета-системы
Метапоисковые системы объединяют и ранжируют результаты сразу нескольких поисковиков. Эти поисковые системы были полезны, когда у каждой поисковой системы был уникальный индекс, и поисковые системы были менее «умными». Поскольку сейчас поиск намного улучшился, потребность в них уменьшилась. Примеры: MetaCrawler и MSN Search.

Рынок поисковых систем

Google - самая популярная поисковая система в мире с долей на рынке 68,69 %. Bing занимает вторую позицию, его доля 12,26 % .

Самые популярные поисковые системы в мире :

Поисковая система Доля рынка в июле 2014 Доля рынка в октябре 2014 Доля рынка в сентябре 2015
Google 68,69 % 58,01 % 69,24%
Baidu 17,17 % 29,06 % 6,48%
Bing 6,22 % 8,01 % 12,26%
Yahoo! 6,74 % 4,01 % 9,19%
AOL 0,13 % 0,21 % 1,11%
Excite 0,22 % 0,00 % 0,00 %
Ask 0,13 % 0,10 % 0,24%

Азия

В восточноазиатских странах и в России Google - не самая популярная поисковая система. В Китае, например, более популярна поисковая система Soso ?! .

В Южной Корее поисковым порталом собственной разработки Naver пользуется около 70 % жителей Yahoo! Japan и Yahoo! Taiwan - самые популярные системы для поиска в Японии и Тайване соответственно .

Россия и русскоязычные поисковые системы

Согласно данным LiveInternet в июне 2015 года об охвате русскоязычных поисковых запросов :

  • Всеязычные:
    • Yahoo! (0,1 %) и принадлежащие этой компании поисковые машины: Inktomi , AltaVista , Alltheweb
  • Англоязычные и международные:
    • AskJeeves (механизм Teoma)
  • Русскоязычные - большинство «русскоязычных» поисковых систем индексируют и ищут тексты на многих языках - украинском , белорусском , английском , татарском и других. Отличаются же они от «всеязычных» систем, индексирующих все документы подряд, тем, что, в основном, индексируют ресурсы, расположенные в доменных зонах , где доминирует русский язык, или другими способами ограничивают своих роботов русскоязычными сайтами.

Некоторые из поисковых систем используют внешние алгоритмы поиска.

Количественные данные поисковой системы Google

Число пользователей Интернета и поисковых систем и требований пользователей к этим системам постоянно растёт. Для увеличений скорости поиска нужной информации крупные поисковые системы содержат большое количество серверов. Сервера обычно группируют в серверные центры (дата-центры). У популярных поисковых систем серверные центры разбросаны по всему миру .

В октябре 2012 года Google запустила проект «Где живёт Интернет», где пользователям предоставляется возможность познакомиться с центрами обработки данных этой компании .

О работе дата-центров поисковой системе Google известно следующее :

  • Суммарная мощность всех дата-центров Google, по состоянию на 2011 год, оценивалась в 220 МВт.
  • Когда в 2008 году Google планировала открыть в Орегоне новый комплекс, состоящий из трёх зданий общей площадью 6,5 млн м², в журнале Harper’s Magazine подсчитали, что такой большой комплекс потребляет свыше 100 МВт электроэнергии, что сравнимо с потреблением энергии города с населением 300 000 человек.
  • Ориентировочное число серверов Google в 2012 году - 1 000 000.
  • Расходы Google на дата-центры составили в 2006 году - $1,9 млрд, а в 2007 году - $2,4 млрд.

Размер всемирной паутины, проиндексированной Google на декабрь 2014 года, составляет примерно 4,36 миллиарда страниц .

Поисковые системы, учитывающие религиозные запреты

Глобальное распространение Интернета и увеличение популярности электронных устройств в арабском и мусульманском мире, в частности, в странах Ближнего Востока и Индийского субконтинента , способствовало развитию локальных поисковых систем, учитывающих исламские традиции. Такие поисковые системы содержат специальные фильтры, которые помогают пользователям не попадать на запрещённые сайты, например, сайты с порнографией, и позволяют им пользоваться только теми сайтами, содержимое которых не противоречит исламской вере. Незадолго до мусульманского месяца Рамадан , в июле 2013 года, миру был представлен Halalgoogling - система, выдающая пользователям только халяльные «правильные» ссылки , фильтруя результаты поиска, полученные от других поисковых систем, таких как Google и Bing . Двумя годами ранее, в сентябре 2011 года, был запущен поисковый движок I’mHalal, предназначенный для обслуживания пользователей Ближнего Востока. Однако этот поисковый сервис пришлось вскоре закрыть, по сообщению владельца, из-за отсутствия финансирования .

Отсутствие инвестиций и медленный темп распространения технологий в мусульманском мире препятствовали прогрессу и мешали успеху серьёзного исламского поисковика. Очевиден провал огромных инвестиций в веб-проекты мусульманского образа жизни, одним из которых был Muxlim . Он получил миллионы долларов от инвесторов, таких как Rite Internet Ventures, и теперь - в соответствии с последним сообщением от I’mHalal перед его закрытием - выступает с сомнительной идеей о том, что «следующий Facebook или Google могут появиться только в странах Ближнего Востока , если вы поддержите нашу блестящую молодёжь» . Тем не менее исламские эксперты в области Интернета в течение многих лет занимаются определением того, что соответствует или не соответствует шариату , и классифицируют веб-сайты как «халяль » или «харам ». Все бывшие и настоящие исламские поисковые системы представляют собой просто специальным образом проиндексированный набор данных либо это главные поисковые системы, такие как Google, Yahoo и Bing, с определённой системой фильтрации, использующейся для того, чтобы пользователи не могли получить доступ к харам-сайтам, таким как сайты о наготе, ЛГБТ , азартных играх и каким-либо другим, тематика которых считается антиисламской .

Среди других религиозно-ориентированных поисковых систем распространёнными являются Jewogle - еврейская версия Google и SeekFind.org - христианский сайт, включающий в себя фильтры, оберегающие пользователей от контента, который может подорвать или ослабить их веру .

Персональные результаты и пузыри фильтров

Многие поисковые системы, такие как Google и Bing, используют алгоритмы выборочного угадывания того, какую информацию пользователь хотел бы увидеть, основываясь на его прошлых действиях в системе. В результате, веб-сайты показывают только ту информацию, которая согласуется с прошлыми интересами пользователя. Этот эффект получил название «пузырь фильтров» .

Всё это ведёт к тому, что пользователи получают намного меньше противоречащей своей точке зрения информации и становятся интеллектуально изолированными в своём собственном «информационном пузыре». Таким образом, «эффект пузыря» может иметь негативные последствия для формирования гражданского мнения .

Предвзятость поисковых систем

Несмотря на то, что поисковые системы запрограммированы, чтобы оценивать веб-сайты на основе некоторой комбинации их популярности и релевантности, в реальности экспериментальные исследования указывают на то, что различные политические, экономические и социальные факторы оказывают влияние на поисковую выдачу .

Такая предвзятость может быть прямым результатом экономических и коммерческих процессов: компании, которые рекламируются в поисковой системе, могут стать более популярными в результатах обычного поиска в ней. Удаление результатов поиска, не соответствующих местным законам, является примером влияния политических процессов. Например, Google не будет отображать некоторые неонацистские веб-сайты во Франции и Германии, где отрицание Холокоста незаконно .

Предвзятость может также быть следствием социальных процессов, поскольку алгоритмы поисковых систем часто разрабатываются, чтобы исключить неформатные точки зрения в пользу более «популярных» результатов . Алгоритмы индексации главных поисковых систем отдают приоритет американским сайтам .

Поисковая бомба - один из примеров попытки управления результатами поиска по политическим, социальным или коммерческим причинам.

См. также

  • Qwika
  • Электронная библиотека#Списки библиотек и поисковые системы
  • Панель инструментов веб-разработчика

Примечания

Литература

  • Ашманов И. С. , Иванов А. А. Продвижение сайта в поисковых системах. - М. : Вильямс, 2007. - 304 с. - ISBN 978-5-8459-1155-1 .
  • Байков В.Д. Интернет. Поиск информации. Продвижение сайтов. - СПб. : БХВ-Петербург, 2000. - 288 с. - ISBN 5-8206-0095-9 .
  • Колисниченко Д. Н. Поисковые системы и продвижение сайтов в Интернете. - М. : Диалектика, 2007. - 272 с. - ISBN 978-5-8459-1269-5 .
  • Ландэ Д. В. Поиск знаний в Internet. - М. : Диалектика, 2005. - 272 с. - ISBN 5-8459-0764-0 .
  • Ландэ Д. В., Снарский А. А. , Безсуднов И. В. Интернетика: Навигация в сложных сетях: модели и алгоритмы . - M.: Либроком (Editorial URSS), 2009. - 264 с. - ISBN 978-5-397-00497-8 .
  • Chu H., Rosenthal M.

THE BELL

Есть те, кто прочитали эту новость раньше вас.
Подпишитесь, чтобы получать статьи свежими.
Email
Имя
Фамилия
Как вы хотите читать The Bell
Без спама