Установка и настройка        25.05.2019   

Мировые поисковые системы в сети интернет. DuckDuckGo: анонимная поисковая система из США

Поисковая система — это база данных по определенной информации в интернете. Многие пользователи считают, что как только они вводят запрос в поисковую систему, тут же начинается сканирование всего интернета, но это совсем не так. Сканирование интернета происходит постоянно, многими программами, данные о сайтах заносятся в базу данных, где по определенным критериям все сайты и все их страницы распределяются в различного рода списки и базы данных. То есть это своего рода картотека данных, и поиск происходит не по интернету, а по этой картотеке.

Google — самая популярная поисковая система в мире.

Кроме поисковой системы, компания Google предлагает множество дополнительных сервисов, программ и аппаратного обеспечения, среди которых почтовый сервис , браузер Google Chrome , крупнейшая видеотека youtube и многие другие проекты. Компания Google уверено скупает многие проекты приносящие крупную прибыль. Большинство сервисов направлены не на прямого пользователя, а на заработок в интернете и интегрирована с уклоном на интересы европейских и американских пользователей.

Mail — поисковая система, популярная в основном из-за почтового сервиса.

Имеется множество дополнительных сервисов, ключевым из которых является почта Mail , на данный момент компании Mail принадлежит социальная сеть Одноклассники , собственная сеть «Мой мир», сервис Деньги-mail, множество онлайн игр, три практически одинаковых браузера с различными названиями. Во всех приложениях и сервисах очень много рекламного наполнения. Социальная сеть «ВКонаткте» блокирует прямые переходы в сервисы Mail, агрументируя большим количеством вирусов.

Википедия.

Википедия — поисковая справочная система.

Некоммерческая поисковая система, существующая на частные пожертвования, поэтому не наполняет страницы рекламой. Многоязычный проект, целью которого является создание полной справочной энциклопедии на всех языках мира. У нее нет определенных авторов, заполняется и управляется добровольцами со всех стран мира. Каждый пользователь может как написать, так и отредактировать статью.

Официальная страница — www.wikipedia.org.

Youtube — крупнейшая библиотека видеофайлов.

Видеохостинг с элементами социальной сети, где каждый пользователь может добавить видео. С момента приобретения их компанией Google Ink, отдельная регистрация для ютуба не требуется, достаточно зарегистрироваться в почтовом сервисе Google .

Официальная страница — youtube.com.

Yahoo! — вторая по значимости поисковая система в мире.

Имеются дополнительные сервисы, самым известным из которых является почта Yahoo. В рамках улучшения качества поисковой системы, Yahoo передает данные о пользователях и их запросах в компанию Microsoft. От этих данных формируется представление об интересах пользователей, а так же формируется рынок рекламного наполнения. Поисковая система Yahoo, так же как и , занимается поглощением других компаний, например, Yahoo принадлежат поисковой сервис Altavista и сайт электронной коммерции Alibaba.

Официальная страница — www.yahoo.com.

WDL — цифровая библиотека.

В библиотеке собираются книги предоставляющие культурную ценность в цифровом виде. Основная цель — повышение уровня культурного содержания интернета. Доступ к библиотеке осуществляется бесплатно.

Официальная страница — www.wdl.org/ru/.

Bing — поисковая система от компании Microsoft.

Официальная страница — www.baidu.com.

Поисковые системы России

Рамблер — «проамериканская» поисковая система.

Изначально создавался как медийный интернет-портал. Как и другие многие поисковые системы, имеет сервисы поиска по картинкам, видеофайлы, карты, прогноз погоды, новостной раздел и многое другое. Так же издатели предлагают бесплатный браузер Рамблер-Нихром .

Официальная страница — www.rambler.ru.

Nigma — интеллектуальная поисковая система.

Более удобная поисковая система из-за наличия множества фильтров и настроек. Интерфейс позволяет включать, либо исключать предлагаемые подобные значения в поиске для получения более качественных результатов. Так же, при получении результата поиска позволяет использовать информацию других крупных поисковиков.

Официальная страница — www.nigma.ru.

Aport — каталог товаров онлайн.

В прошлом поисковая система, но впоследсвии того, что разработки и нововведения были прекращены, быстро сдала позиции и . В настоящий момент Апорт является торговой площадкой, на которой представляются товары более 1500 фирм.

Официальная страница — www.aport.ru.

Спутник — национальная поисковая система и интернет-портал.

Создана компанией «Ростелеком». В настоящее время находится в стадии тестирования.

Официальная страница — www.sputnik.ru.

Metabot — развивающаяся поисковая система.

В задачах Metabot стоит создание поисковой системы по всем другим поисковым системам, создавая позиции выдачи результатов с учетом данных всего списка поисковых систем. То есть это поисковая система по поисковым системам.

Официальная страница — www.metabot.ru.

Работа поисковой системы приостановлена.

Официальная страница — www.turtle.ru.

KM — мультипортал.

Изначально сайт являлся мультипорталом с последующим внедрением поисковой системы. Поиск может проводиться как внутри сайта, так и по всем отслеженным сайтам рунета .

Официальная страница — www.km.ru.

Gogo — не работает, перенаправляет на поисковик .

Официальная страница — www.gogo.ru.

Российский мультипортал, не очень популярный, требует доработки. В поисковик включены новости, телевидение, игры, карта.

Официальная страница — www.zoneru.org.

Поисковая система не работает, разработчики предлагают воспользоваться поисковиком .

Поисковая система - это один из ключевых уровней интернета наравне с контентом и браузером. «Яндекс»-поисковик или аналогичные системы («Гугл», «Бинг», DuckDuckGo и другие) позволяют пользователю осуществлять поиск информации во Всемирной паутине, формулируя запрос.

Работа же поисковой системы заключается в том, чтобы найти по этому запросу (ключевому слову или фразе) все документы, страницы, видео, то есть весь контент.

Какой поисковик самый лучший? Есть ли альтернативные варианты, что-то кроме «Гугла» и «Яндекса»? Какой поисковик интернета больше подходит для сканирования англоязычных источников или, например, музыки? Именно об этом и пойдет речь в статье.

Рейтинг: лидеры рынка

Если говорить о мире в целом, то «Гугл»-поисковик является самой популярной поисковой системой. Корпорация занимает практически 70% рынка. Вторую позицию рейтинга занимает «Бинг» (доля - 12,26%). Борьбу за вторую строчку с ним ведет система Baidu (6,48% по состоянию на сентябрь 2015 года). Время от времени они меняются местами.

Так, например, в 2014 «силы» были распределены по-другому: первое место занимал «Гугл»-поисковик с 68,69%, второе - Baidu (17,7%), третье - «Бинг» с капитализацией рынка в 6,22%.

Но общемировые данные очень обобщенные. Какой поисковик самый лучший?

В Китае, к примеру, очень небольшой процент населения сканирует «Гуглом», большинство использует отечественную систему Soso. В Южной Корее большая часть жителей пользуется собственной разработкой - поисковиком интернета Naver. Правда, в последние несколько месяцев количество запросов в этой системе начало стремительно снижаться.

В Японии и Тайване пользователи чаще других используют Yahoo!

Рейтинг: русскоязычные системы

Какой поисковик самый лучший? В России рейтинг поисковых систем совсем не похож на общемировой. Лидер рынка в русскоязычном сегменте интернета - это «Яндекс», которым пользуются более 55% пользователей.

На втором месте «Гугл» с результатом 37,6%. Согласно данным сервиса LiveInternet, охват русскоязычных поисковых запросов во Всемирной паутине распределился следующим образом:

  1. Универсальные поисковики: «Гугл» (37,6%), «Бинг» (0,3%), Yahoo! (0,1%).
  2. Англоязычные и международные (AskJeeves, например).
  3. Русскоязычные системы поиска: «Яндекс» (56,2%), Mail (5,3%), «Рамблер» (0,5%).

DuckDuckGo

Разговор об альтернативных поисковых системах стоит начать с поисковика DuckDuckGo. Это достаточно известная и распространенная система с открытым исходным кодом. Серверы DuckDuckGo находятся в Соединенных Штатах Америки. Результаты поиска довольно обширные, так как система использует не только собственные алгоритмы, но и результаты некоторых других источников, например, "Википедии", поисковика «Бинг» и Yahoo!

Поисковик DuckDuckGo обеспечивает максимальную безопасность личной информации пользователя, приватность и конфиденциальность. Система не собирает никаких данных о пользователях, не хранит историю и максимально ограничивает использование файлов cookie.

Отличие DuckDuckGo в том, что эта система не персонализирует поисковую выдачу, как это делают другие системы. В «Гугле» или «Яндексе», например, пользователь видит только ту информацию, которая согласуется с его предпочтениями. А вот DuckDuckGo формирует реальную картину и позволяет избавиться от навязчивой конкретной рекламы. Поисковый сервис легко ищет информацию на иностранных языках, тогда как «Яндекс» и «Гугл» по умолчанию отдают предпочтение русскоязычным источникам, даже если запрос введен на английском, немецком или другом языке.

В системе можно настроить интерфейс: изменять можно цветовое оформление, шрифты, ссылки и другие параметры всего в несколько кликов.

Пока еще этой поисковой системе далеко до гиганта «Гугла», но утёнок развивается, так что вполне возможно, что в будущем DuckDuckGo займет одну из лидирующих позиций. Команда создала отличный продукт, который обеспечивает анонимный, быстрый и функциональный поиск, заслуживающий внимания пользователя.

NotEvil

Это система, которая осуществляет поиск по анонимной сети Tor. Поисковая система предустановлена в одноименном браузере. Чем лучше notEvil? Он «проходит» туда, куда не могут добраться «Гугл» или «Яндекс»-поисковик. Вообще, в сети Tor очень много ресурсов которые нельзя посетить в «обычном» (законопослушном) интернете. Это такая себе площадка внутри сети со своими социальными платформами, торрент-трекерами, СМИ, блогами, торговыми центрами, форумами, библиотеками и так далее.

Кстати, notEvil - это не единственный в своем роде поисковик. Еще есть Look, который по умолчанию доступен в том же браузере «Тор», и TORCH - одна из самых старых систем поиска в анонимной сети.

YaCy

Бесплатный поисковик YaCy - это совершенно другой подход к организации поиска во Всемирной паутине. Система работает по принципу Р2Р. Это значит, что каждый компьютер, на котором установлен модуль, самостоятельно сканирует интернет, а потом все полученные результаты собираются в единую базу, которой могут пользоваться все пользователи YaCy.

Система полностью независима, автономна, обеспечивает анонимность каждого пользователя. YaCy подойдет сторонникам открытого интернета, который не подвержен влиянию крупных корпораций и государственных органов.

В быту поисковик пока что не очень полезен, зато в перспективе является достойной альтернативой «Гуглу» даже с точки зрения организации процесса поиска информации.

Pipl

Pipl - система, предназначенная для поиска информации о каком-то определенном человеке. Разработчики утверждают, что алгоритмы поисковика ищут людей эффективнее, чем распространенные во всем мире «Гугл» или «Яндекс».

Приоритетными источниками являются профили в социальных сетях комментарии, списки участников, базы данных, где публикуются разнообразные данные о людях, например, базы судебных решений. Но есть и недостаток. Для Pipl недоступны российские базы данных, так что он будет полезен только для поиска информации о гражданах США.

FindSounds

Какой поисковик самый лучший? Если нужно найти музыку или звуки, то, конечно, самым лучшим будет именно FindSounds. Это специализированный поисковик, где есть список тегов. Тут можно выбрать нужный формат аудиофайла или его качество. Все результаты поиска доступны для скачивания.

Wolfram|Alpha

Эта система выдает не страницы, на которых есть нужная пользователю информация, а готовый результат. Например, карты, графики, таблицы, короткие ответы. Сервис как нельзя лучше подходит для вычисления данных и поиска конкретных фактов. Поисковик пока понимает не все запросы, но постоянно развивается.

С помощью Wolfram|Alpha удобно, например, сравнивать параметры для настройки фотоаппарата, смартфона или ноутбука. Также вычислять уровень алкоголя в крови (система запрашивает у пользователя вес и рост, количество выпитого, время, а затем сообщает, через сколько алкоголь полностью выведется из организма).

Инструмент может конвертировать размеры обуви и одежды, считать калории, смотреть курсы валют или настраивать музыкальный инструмент.

Dogpile

Dogpile выводит результаты из выдач всех распространенных поисковых систем сразу. Сервис использует улучшенный алгоритм и, как уверяют разработчики, формирует самую лучшую выдачу в интернете. Кроме того, здесь мало рекламы. Можно попробовать воспользоваться Dogpile, если нужная информация никак не находится в стандартных «Гугле» или «Яндексе».

BoardReader

Эта система ищет информацию на форумах, опросах, сервисах вопросов и ответов, социальным сообществам, сужая поле поиска до социальных площадок. Можно выставить фильтры: язык и дату публикации, название сайта и тому подобное.

Поисковик может пригодиться специалистам по рекламе, которых интересует мнение аудитории.

В заключение

Часто альтернативные поисковые системы скоротечны. Они появляются также быстро, как и умирают. Большинство альтернативных систем на сегодняшний день специализируются на какой-либо узкой нише или тестируют оригинальный алгоритм в формировании результатов поиска.

В контексте описания альтернативных поисковых систем, критерий «лучше» совсем не означает «лучше во всем». Каждый из перечисленных выше сервисов дает конкретному пользователю что-то такое, чего нет в «Гугле» или «Яндексе». В любом случае, ознакомиться с альтернативными вариантами (на фоне того, что система кажется практически монополизированной поисковыми гигантами) интересно и полезно каждому пользователю.

Лучшие поисковые системы Интернета. Поисковая система интернетаэто специальные программы для поиска, установленные на целый комплекс специализированных машин. А по-простому — это тот же сайт с комплексом программ, только на специальной поисковой машине (сервере). Именно при помощи поисковых систем вы находите всю нужную вам информацию. Поисковых систем очень много.

1. Что такое поисковая система Интернета

2. Популярные поисковые системы нашей страны

3. Популярные поисковые системы Зарубежья

4. Необычные поисковые системы

5. Как правильно искать информацию в Интернете

Самые лучшие п оисковые системы в нашей стране:

http://www.yandex.ru

http://www.google.com

http://www.aport.ru

http://www.rambler.ru/

http://go.mail.ru

http://www.webalta.ru/

Самый всеми нелюбимый и навязчивый поисковик.

Популярные поисковики зарубежья

http://www.altavista.com

http://www.alltheweb.com

http://www. bing.com

http://www.google.com
http://www.excite.com
http://www.lycos.com
http://www.mamma.com

http://www.yahoo.com

http://www.dmoz.com
http://www.hotbot.com
http://www.dogpile.com
http://www.netscape.com
http://www.msn.com
http://www.webcrawler.com
http://www.jayde.com
http://www.aol.com
http://www.euroseek.com
http://www.teoma.com
http://www.about.com
http://www.ixquick.com
http://www.lookle.com
http://www.metaeureka.com
http://www.searchspot.com
http://www.slider.com
http://www.allthesites.com
http://www.clickey.com
http://www.galaxy.com
http://brainysearch.com
http://www.orura.com

У каждой страны существую свои популярные поисковые системы.

Необычные поисковые системы

  • DuckDuckGo (https://duckduckgo.com/)- гибридная поисковая система с политикой конфиденциальности пользователя и его поисковых запросов.

  • TinEye (http://tineye.com/) - поисковая система, специализирующаяся на поиске изображений в Интернете. С недавнего времени теряет свою актуальность, после того, как Google ввел такую же функцию в своем поиске по картинкам.

  • Генон (http://www.genon.ru/) - поисковая система, собирающая и создающая контент у себя на сайте.

Почти в каждой поисковой системе помимо окна поиска расположены ссылки на самые популярные новостные сайты, и сайты определенной тематики.

Как правильно искать информацию в Интернете

В каждой поисковой системе есть свои алгоритмы (правила) поиска информации.

Для того, чтобы найти какую-то информацию в Интернете через поисковую систему, необходимо в поле поиска ввести запрос . Если вы введете какое-то одно слово, то вам по этому запросу выдадут тысячи ссылок на сайты, в которых это слово упоминается.

Поэтому необходимо вводить как можно более конкретный запрос, состоящий из двух, трех и более словосочетаний.

Давайте рассмотрим пример запроса в поисковой системе Яндекс .

Допустим, вы хотите найти информацию по вопросу о покупке компьютера. Если вы напишите в окне поиска одно слово «Компьютер », то вам выдадут 133 млн ответов

Надо задать более конкретный запрос. Лучше указать какой именно компьютер вы хотите купить и где (в каком городе).

Тогда уже поисковая система выдаст вам намного меньше ответов на ваш запрос.

Поисковой системе совершенно без разницы, какими буквами вы введете запрос – большими или маленькими.

Яндекс различает существительные и прилагательные, но совершенно игнорирует окончания.

Также ему совершенно безразличны падежи, множественное число и тому подобное.

Для того чтобы поиск был более точным, необходимо взять запрос в кавычки или поставить перед словом восклицательный знак.

А теперь посмотрите на тот же самый запрос, но без восклицательных знаков.

Видите разницу? С восклицательными знаками количество ответов не 2 млн, а 186 тыс.

Если вы поставите восклицательный знак перед словом с большой буква, то вам выдадут ответы, в которых встречается именно это слово с большой буквы.

Если слово в именительном падеже, и вам необходима информация именно по такому слову, и именно так, как вы его написали, то поставьте перед этим словом два восклицательных знака. Например: !!Мяч .

Поиск выдаст вам ответы именно по этому слову «Мяч » так, как вы его написали. Не «мячик », не «мячи », и с большой буквы.

Если вы напишите словосочетание со словом «на », то Яндекс проигнорирует «на ». Например: «на полке ». Поиск будет производиться только по слову «полка ».

Для того, чтобы он его учел и не игнорировал, надо перед словом «на » поставить знак плюса – «+на ».

У каждой поисковой системы свой алгоритм поиска, поэтому если вы пользуетесь каким-то определенным поисковиком, и хотите научиться правильно составлять запросы, то надо просто набрать в поисковой строке «правила поиска в Google » или «правила поиска в Яндекс », перейти по ссылке ответа на ваш запрос и почитать нужную информацию.

В архитектуру поисковой системы обычно входят:

Энциклопедичный YouTube

    1 / 5

    ✪ Урок 3: Как работает поисковая система. Введение в SEO

    ✪ Поисковая система изнутри

    ✪ Shodan - черный Google

    ✪ Поисковая система ЧЕБУРАШКА заменит Google и Яндекс в России

    ✪ Урок 1 - Как устроена поисковая система

    Субтитры

История

Хронология
Год Система Событие
1993 W3Catalog ?! Запуск
Aliweb Запуск
JumpStation Запуск
1994 WebCrawler Запуск
Infoseek Запуск
Lycos Запуск
1995 AltaVista Запуск
Daum Основание
Open Text Web Index Запуск
Magellan Запуск
Excite Запуск
SAPO Запуск
Yahoo! Запуск
1996 Dogpile Запуск
Inktomi Основание
Рамблер Основание
HotBot Основание
Ask Jeeves Основание
1997 Northern Light Запуск
Яндекс Запуск
1998 Google Запуск
1999 AlltheWeb Запуск
GenieKnows Основание
Naver Запуск
Teoma Основание
Vivisimo Основание
2000 Baidu Основание
Exalead Основание
2003 Info.com Запуск
2004 Yahoo! Search Окончательный запуск
A9.com Запуск
Sogou Запуск
2005 MSN Search Окончательный запуск
Ask.com Запуск
Нигма Запуск
GoodSearch Запуск
SearchMe Основание
2006 wikiseek Основание
Quaero Основание
Live Search Запуск
ChaCha Запуск (бета)
Guruji.com Запуск (бета)
2007 wikiseek Запуск
Sproose Запуск
Wikia Search Запуск
Blackle.com Запуск
2008 DuckDuckGo Запуск
Tooby Запуск
Picollator Запуск
Viewzi Запуск
Cuil Запуск
Boogami Запуск
LeapFish Запуск (бета)
Forestle Запуск
VADLO Запуск
Powerset Запуск
2009 Bing Запуск
KAZ.KZ Запуск
Yebol Запуск (бета)
Mugurdy Закрытие
Scout Запуск
2010 Cuil Закрытие
Blekko Запуск (бета)
Viewzi Закрытие
2012 WAZZUB Запуск
2014 Спутник Запуск (бета)

На раннем этапе развития сети Интернет Тим Бернерс-Ли поддерживал список веб-серверов, размещённый на сайте ЦЕРН . Сайтов становилось всё больше, и поддерживать вручную такой список становилось всё сложнее. На сайте NCSA был специальный раздел «Что нового!» (англ. What"s New! ) , где публиковали ссылки на новые сайты.

Первой компьютерной программой для поиска в Интернете , была программа Арчи (англ. archie - архив без буквы «в»). Она была создана в 1990 году Аланом Эмтэджем (Alan Emtage), Биллом Хиланом (Bill Heelan) и Дж. Питером Дойчем (J. Peter Deutsch), студентами, изучающими информатику в университете Макгилла в Монреале . Программа скачивала списки всех файлов со всех доступных анонимных FTP -серверов и строила базу данных, в которой можно было выполнять поиск по именам файлов. Однако, программа Арчи не индексировала содержание этих файлов, так как объём данных был настолько мал, что всё можно было легко найти вручную.

Развитие и распространение сетевого протокола Gopher , придуманного в 1991 году Марком Маккэхилом (Mark McCahill) в университете Миннесоты , привело к созданию двух новых поисковых программ, Veronica и Jughead . Как и Арчи, они искали имена файлов и заголовки, сохранённые в индексных системах Gopher. Veronica (англ. Very Easy Rodent-Oriented Net-wide Index to Computerized Archives ) позволяла выполнять поиск по ключевым словам большинства заголовков меню Gopher во всех списках Gopher. Программа Jughead (англ. Jonzy"s Universal Gopher Hierarchy Excavation And Display ) извлекала информацию о меню от определённых Gopher-серверов. Хотя название поисковика Арчи не имело отношения к циклу комиксов «Арчи» , тем не менее Veronica и Jughead - персонажи этих комиксов.

К лету 1993 года ещё не было ни одной системы для поиска в вебе, хотя вручную поддерживались многочисленные специализированные каталоги. Оскар Нирштрасс (Oscar Nierstrasz) в Женевском университете написал ряд сценариев на Perl , которые периодически копировали эти страницы и переписывали их в стандартный формат. Это стало основой для W3Catalog ?! , первой примитивной поисковой системы сети, запущенной 2 сентября 1993 года .

Вероятно, первым поисковым роботом, написанным на языке Perl, был «World Wide Web Wanderer» - бот Мэтью Грэя (Matthew Gray) из в июне 1993 года. Этот робот создавал поисковый индекс «Wandex ». Цель робота Wanderer состояла в том, чтобы измерить размер всемирной паутины и найти все веб-страницы, содержащие слова из запроса. В 1993 году появилась и вторая поисковая система «Aliweb ». Aliweb не использовала поискового робота , но вместо этого ожидала уведомлений от администраторов веб-сайтов о наличии на их сайтах индексного файла в определённом формате.

JumpStation , созданный в декабре 1993 года Джонатаном Флетчером, искал веб-страницы и строил их индексы с помощью поискового робота, и использовал веб-форму в качестве интерфейса для формулирования поисковых запросов. Это был первый инструмент поиска в Интернете, который сочетал три важнейших функции поисковой системы (проверка, индексация и собственно поиск). Из-за ограниченности ресурсов компьютеров того времени индексация и, следовательно, поиск были ограничены только названиями и заголовками веб-страниц, найденных поисковым роботом.

Поисковые системы участвовали в «Пузыре доткомов» конца 1990-х . Несколько компаний эффектно вышли на рынок, получив рекордную прибыль во время их первичного публичного предложения . Некоторые отказались от рынка общедоступных поисковых движков и стали работать только с корпоративным сектором, например, Northern Light .

Google взял на вооружение идею продажи ключевых слов в 1998 году, тогда это была маленькая компания, обеспечивающая работу поисковой системы по адресу goto.com . Этот шаг ознаменовал для поисковых систем переход от соревнований друг с другом к одному из самых выгодных коммерческих предприятий в Интернете . Поисковые системы стали продавать первые места в результатах поиска отдельным компаниям.

Поисковая система Google занимает видное положение с начала 2000-х . Компания добилась высокого положения благодаря хорошим результатам поиска с помощью алгоритма PageRank . Алгоритм был представлен общественности в статье «The Anatomy of Search Engine», написанной Сергеем Брином и Ларри Пейджем, основателями Google . Этот итеративный алгоритм ранжирует веб-страницы, основываясь на оценке количества гиперссылок на веб-страницу в предположении, что на «хорошие» и «важные» страницы ссылаются больше, чем на другие. Интерфейс Google выдержан в спартанском стиле, где нет ничего лишнего, в отличие от многих своих конкурентов, которые встраивали поисковую систему в веб-портал. Поисковая система Google стала настолько популярной, что появились подражающие ей системы, например, Mystery Seeker (тайный поисковик).

Поиск информации на русском языке

В 1996 году был реализован поиск с учётом русской морфологии на поисковой машине Altavista и запущены оригинальные российские поисковые машины Рамблер и Апорт . 23 сентября 1997 года была открыта поисковая машина Яндекс . 22 мая 2014 года компанией Ростелеком была открыта национальная поисковая машина Спутник , которая на момент 2015 года находится в стадии бета-тестировании. 22 апреля 2015 года был открыт новый сервис Спутник. Дети специально для детей с повышенной безопасностью.

Большую популярность получили методы кластерного анализа и поиска по метаданным . Из международных машин такого плана наибольшую известность получила «Clusty» компании Vivisimo . В 2005 году в России при поддержке МГУ запущен поисковик «Нигма », поддерживающий автоматическую кластеризацию . В 2006 году открылась российская метамашина Quintura , предлагающая визуальную кластеризацию в виде облака тегов . «Нигма» тоже экспериментировала с визуальной кластеризацией.

Как работает поисковая система

Основные составляющие поисковой системы: поисковый робот , индексатор , поисковик .

Как правило, системы работают поэтапно. Сначала поисковый робот получает контент, затем индексатор генерирует доступный для поиска индекс, и наконец, поисковик обеспечивает функциональность для поиска индексируемых данных. Чтобы обновить поисковую систему, этот цикл индексации выполняется повторно .

Поисковые системы работают, храня информацию о многих веб-страницах, которые они получают из HTML страниц. Поисковый робот или «краулер» (англ. Crawler ) - программа, которая автоматически проходит по всем ссылкам, найденным на странице, и выделяет их. Краулер, основываясь на ссылках или исходя из заранее заданного списка адресов, осуществляет поиск новых документов, ещё не известных поисковой системе. Владелец сайта может исключить определённые страницы при помощи robots.txt , используя который можно запретить индексацию файлов, страниц или каталогов сайта.

Поисковая система анализирует содержание каждой страницы для дальнейшего индексирования. Слова могут быть извлечены из заголовков, текста страницы или специальных полей - метатегов . Индексатор - это модуль, который анализирует страницу, предварительно разбив её на части, применяя собственные лексические и морфологические алгоритмы. Все элементы веб-страницы вычленяются и анализируются отдельно. Данные о веб-страницах хранятся в индексной базе данных для использования в последующих запросах. Индекс позволяет быстро находить информацию по запросу пользователя . Ряд поисковых систем, подобных Google, хранят исходную страницу целиком или её часть, так называемый кэш , а также различную информацию о веб-странице. Другие системы, подобные системе AltaVista, хранят каждое слово каждой найденной страницы. Использование кэша помогает ускорить извлечение информации с уже посещённых страниц . Кэшированные страницы всегда содержат тот текст, который пользователь задал в поисковом запросе. Это может быть полезно в том случае, когда веб-страница обновилась, то есть уже не содержит текст запроса пользователя, а страница в кэше ещё старая. Эта ситуация связана с потерей ссылок (англ. linkrot ) и дружественным по отношению к пользователю (юзабилити) подходом Google. Это предполагает выдачу из кэша коротких фрагментов текста, содержащих текст запроса. Действует принцип наименьшего удивления , пользователь обычно ожидает увидеть искомые слова в текстах полученных страниц (User expectations ). Кроме того, что использование кэшированных страниц ускоряет поиск, страницы в кэше могут содержать такую информацию, которая уже нигде более не доступна.

Поисковик работает с выходными файлами, полученными от индексатора. Поисковик принимает пользовательские запросы, обрабатывает их при помощи индекса и возвращает результаты поиска .

Когда пользователь вводит запрос в поисковую систему (обычно при помощи ключевых слов), система проверяет свой индекс и выдаёт список наиболее подходящих веб-страниц (отсортированный по какому-либо критерию), обычно с краткой аннотацией, содержащей заголовок документа и иногда части текста. Поисковый индекс строится по специальной методике на основе информации, извлечённой из веб-страниц . С 2007 года поисковик Google позволяет искать с учётом времени, создания искомых документов (вызов меню «Инструменты поиска» и указание временного диапазона). Большинство поисковых систем поддерживает использование в запросах булевых операторов И, ИЛИ, НЕ, что позволяет уточнить или расширить список искомых ключевых слов. При этом система будет искать слова или фразы точно так, как было введено. В некоторых поисковых системах есть возможность приближённого поиска , в этом случае пользователи расширяют область поиска, указывая расстояние до ключевых слов . Есть также концептуальный поиск , при котором используется статистический анализ употребления искомых слов и фраз в текстах веб-страниц. Эти системы позволяют составлять запросы на естественном языке. Примером такой поисковой системы является сайт ask com .

Полезность поисковой системы зависит от релевантности найденных ею страниц. Хоть миллионы веб-страниц и могут включать некое слово или фразу, но одни из них могут быть более релевантны, популярны или авторитетны, чем другие. Большинство поисковых систем использует методы ранжирования, чтобы вывести в начало списка «лучшие» результаты. Поисковые системы решают, какие страницы более релевантны, и в каком порядке должны быть показаны результаты, по-разному . Методы поиска, как и сам Интернет со временем меняются. Так появились два основных типа поисковых систем: системы предопределённых и иерархически упорядоченных ключевых слов и системы, в которых генерируется инвертированный индекс на основе анализа текста.

Большинство поисковых систем являются коммерческими предприятиями, которые получают прибыль за счёт рекламы , в некоторых поисковиках можно купить за отдельную плату первые места в выдаче для заданных ключевых слов. Те поисковые системы, которые не берут денег за порядок выдачи результатов, зарабатывают на контекстной рекламе, при этом рекламные сообщения соответствуют запросу пользователя. Такая реклама выводится на странице со списком результатов поиска, и поисковики зарабатывают при каждом клике пользователя на рекламные сообщения.

Типы поисковых систем

Существует четыре типа поисковых систем: с поисковыми роботами, управляемые человеком, гибридные и мета-системы .

  • системы, использующие поисковых роботов
Состоят из трёх частей: краулер («бот», «робот» или «паук»), индекс и программное обеспечение поисковой системы. Краулер нужен для обхода сети и создания списков веб-страниц. Индекс - большой архив копий веб-страниц. Цель программного обеспечения - оценивать результаты поиска. Благодаря тому, что поисковый робот в этом механизме постоянно исследует сеть, информация в большей степени актуальна. Большинство современных поисковых систем являются системами данного типа.
  • системы, управляемые человеком (каталоги ресурсов)
Эти поисковые системы получают списки веб-страниц. Каталог содержит адрес, заголовок и краткое описание сайта. Каталог ресурсов ищет результаты только из описаний страницы, представленных ему веб-мастерами. Достоинство каталогов в том, что все ресурсы проверяются вручную, следовательно, и качество контента будет лучше по сравнению с результатами, полученными системой первого типа автоматически. Но есть и недостаток - обновление данных каталогов выполняется вручную и может существенно отставать от реального положения дел. Ранжирование страниц не может мгновенно меняться. В качестве примеров таких систем можно привести каталог Yahoo , dmoz и Galaxy.
  • гибридные системы
Такие поисковые системы, как Yahoo , Google , MSN , сочетают в себе функции систем, использующие поисковых роботов, и систем, управляемых человеком.
  • мета-системы
Метапоисковые системы объединяют и ранжируют результаты сразу нескольких поисковиков. Эти поисковые системы были полезны, когда у каждой поисковой системы был уникальный индекс, и поисковые системы были менее «умными». Поскольку сейчас поиск намного улучшился, потребность в них уменьшилась. Примеры: MetaCrawler и MSN Search.

Рынок поисковых систем

Google - самая популярная поисковая система в мире с долей на рынке 68,69 %. Bing занимает вторую позицию, его доля 12,26 % .

Самые популярные поисковые системы в мире :

Поисковая система Доля рынка в июле 2014 Доля рынка в октябре 2014 Доля рынка в сентябре 2015
Google 68,69 % 58.01 % 69.24%
Baidu 17,17 % 29.06 % 6,48%
Bing 6.22 % 8.01 % 12,26%
Yahoo! 6.74 % 4.01 % 9,19%
AOL 0,13 % 0.21 % 1,11%
Excite 0.22 % 0,00 % 0.00%
Ask 0,13 % 0,10 % 0,24%

Азия

В восточноазиатских странах и в России Google - не самая популярная поисковая система. В Китае, например, более популярна поисковая система Soso .

В Южной Корее поисковым порталом собственной разработки Naver пользуется около 70 % жителей Yahoo! Japan и Yahoo! Taiwan - самые популярные системы для поиска в Японии и Тайване соответственно .

Россия и русскоязычные поисковые системы

Согласно данным LiveInternet в июне 2015 года об охвате русскоязычных поисковых запросов :

  • Всеязычные:
    • Yahoo! (0,1 %) и принадлежащие этой компании поисковые машины: Inktomi , AltaVista , Alltheweb
  • Англоязычные и международные:
    • AskJeeves (механизм Teoma)
  • Русскоязычные - большинство «русскоязычных» поисковых систем индексируют и ищут тексты на многих языках - украинском , белорусском , английском , татарском и других. Отличаются же они от «всеязычных» систем, индексирующих все документы подряд, тем, что, в основном, индексируют ресурсы, расположенные в доменных зонах , где доминирует русский язык, или другими способами ограничивают своих роботов русскоязычными сайтами.

Некоторые из поисковых систем используют внешние алгоритмы поиска.

Количественные данные поисковой системы Google

Число пользователей Интернета и поисковых систем и требований пользователей к этим системам постоянно растёт. Для увеличений скорости поиска нужной информации, крупные поисковые системы содержат большое количество серверов. Сервера обычно группируют в серверные центры (дата центры). У популярных поисковых систем серверные центры разбросаны по всему миру .

В октябре 2012 года Google запустила проект «Где живёт Интернет», где пользователям предоставляется возможность познакомиться с центрами обработки данных этой компании .

О работе дата-центров поисковой системе Google известно следующее :

  • Суммарная мощность всех дата-центров Google по состоянию на 2011 год оценивалась в 220 МВт.
  • Когда в 2008 году Google планировала открыть в Орегоне новый комплекс, состоящий из трёх зданий общей площадью 6,5 млн м², в журнале Harper’s Magazine подсчитали, что такой большой комплекс потребляет свыше 100 МВт электроэнергии, что сравнимо с потреблением энергии города с населением 300 000 человек.
  • Ориентировочное число серверов Google в 2012 году - 1 000 000.
  • Расходы Google на дата-центры составили в 2006 году - $1,9 млрд, а в 2007 году - $2,4 млрд.

Размер всемирной паутины, проиндексированной Google на декабрь 2014 года, составляет примерно 4.36 миллиарда страниц .

Поисковые системы, учитывающие религиозные запреты

Глобальное распространение Интернета и увеличение популярности электронных устройств в арабском и мусульманском мире, в частности, в странах Ближнего Востока и Индийского субконтинента , способствовало развитию локальных поисковых систем, учитывающих исламские традиции. Такие поисковые системы содержат специальные фильтры, которые помогают пользователям не попадать на запрещённые сайты, например, сайты с порнографией, и позволяют им пользоваться только теми сайтами, содержимое которых не противоречит исламской вере. Незадолго до мусульманского месяца Рамадан , в июле 2013 года, миру был представлен Halalgoogling - система, выдающая пользователям только халяльные «правильные» ссылки , фильтруя результаты поиска, полученные от других поисковых систем, таких как Google и Bing . Двумя годами ранее, в сентябре 2011 года, был запущен поисковый движок I’mHalal, предназначенный для обслуживания пользователей Ближнего Востока. Однако этот поисковый сервис пришлось вскоре закрыть, по сообщению владельца, из-за отсутствия финансирования .

Отсутствие инвестиций и медленный темп распространения технологий в мусульманском мире препятствовали прогрессу и мешали успеху серьёзного исламского поисковика. Очевиден провал огромных инвестиций в веб-проекты мусульманского образа жизни, одним из которых был Muxlim . Он получил миллионы долларов от инвесторов, таких как Rite Internet Ventures, и теперь - в соответствии с последним сообщением от I’mHalal перед его закрытием - выступает с сомнительной идеей о том, что «следующий Facebook или Google могут появиться только в странах Ближнего Востока , если вы поддержите нашу блестящую молодёжь» . Тем не менее исламские эксперты в области Интернета в течение многих лет занимаются определением того, что соответствует или не соответствует шариату , и классифицируют веб-сайты как «халяль » или «харам ». Все бывшие и настоящие исламские поисковые системы представляют собой просто специальным образом проиндексированный набор данных либо это главные поисковые системы, такие как Google, Yahoo и Bing, с определённой системой фильтрации, использующейся для того, чтобы пользователи не могли получить доступ к харам-сайтам, таким как сайты о наготе, ЛГБТ , азартных играх и каким-либо другим, тематика которых считается антиисламской .

Среди других религиозно-ориентированных поисковых систем распространёнными являются Jewogle - еврейская версия Google и SeekFind.org - христианский сайт, включающий в себя фильтры, оберегающие пользователей от контента, который может подорвать или ослабить их веру .

Персональные результаты и пузыри фильтров

Многие поисковые системы, такие как Google и Bing, используют алгоритмы выборочного угадывания того, какую информацию пользователь хотел бы увидеть, основываясь на его прошлых действиях в системе. В результате, веб-сайты показывают только ту информацию, которая согласуется с прошлыми интересами пользователя. Этот эффект получил название «пузырь фильтров» .

Всё это ведёт к тому, что пользователи получают намного меньше противоречащей своей точке зрения информации и становятся интеллектуально изолированными в своём собственном «информационном пузыре». Таким образом, «эффект пузыря» может иметь негативные последствия для формирования гражданского мнения .

Предвзятость поисковых систем

Несмотря на то, что поисковые системы запрограммированы, чтобы оценивать веб-сайты на основе некоторой комбинации их популярности и релевантности, в реальности экспериментальные исследования указывают на то, что различные политические, экономические и социальные факторы оказывают влияние на поисковую выдачу .

Такая предвзятость может быть прямым результатом экономических и коммерческих процессов: компании, которые рекламируются в поисковой системе, могут стать более популярными в результатах обычного поиска в ней. Удаление результатов поиска, не соответствующих местным законам, является примером влияния политических процессов. Например, Google не будет отображать некоторые неонацистские веб-сайты во Франции и Германии, где отрицание Холокоста незаконно .

Предвзятость может также быть следствием социальных процессов, поскольку алгоритмы поисковых систем часто разрабатываются, чтобы исключить неформатные точки зрения в пользу более «популярных» результатов . Алгоритмы индексации главных поисковых систем отдают приоритет американским сайтам .

Поисковая бомба - один из примеров попытки управления результатами поиска по политическим, социальным или коммерческим причинам.

См. также

  • Qwika
  • Электронная библиотека#Списки библиотек и поисковые системы
  • Панель инструментов веб-разработчика

Примечания

Литература

  • Ашманов И. С. , Иванов А. А. Продвижение сайта в поисковых системах. - М. : Вильямс, 2007. - 304 с. - ISBN 978-5-8459-1155-1 .
  • Байков В.Д. Интернет. Поиск информации. Продвижение сайтов. - СПб. : БХВ-Петербург, 2000. - 288 с. - ISBN 5-8206-0095-9 .
  • Колисниченко Д. Н. Поисковые системы и продвижение сайтов в Интернете. - М. : Диалектика, 2007. - 272 с. - ISBN 978-5-8459-1269-5 .
  • Ландэ Д. В. Поиск знаний в Internet. - М. : Диалектика, 2005. - 272 с. - ISBN 5-8459-0764-0 .
  • Ландэ Д. В., Снарский А. А. , Безсуднов И. В. Интернетика: Навигация в сложных сетях: модели и алгоритмы . - M.: Либроком (Editorial URSS), 2009. - 264 с. - ISBN 978-5-397-00497-8 .
  • Chu H., Rosenthal M. Search engines for the World Wide Web: A comparative study and evaluation methodology (англ.) // PROCEEDINGS OF THE ANNUAL MEETING-AMERICAN SOCIETY FOR INFORMATION SCIENCE: journal. - 1996. - Vol. 33 . - P. 127-135 .
  • Gandal, Neil. The dynamics of competition in the internet search engine market. - 2001. - Vol. 19. - P. 1103–1117. -

В этой статье вас ждет обзор российских поисковых систем - отечественных разработок и глобальных поисковых систем, адаптированных под рунет. Составим небольшой рейтинг из списка поисковых систем России.

История поисковых систем в мире и России

Начиналось все конечно же с сайтов и каталогов сайтов, систематизировавших информацию о них. Но сайтов становилось все больше, да и не было понятно, как быстро вывести результаты поиска по нескольким сайтам и сравнить их, чтобы получить наиболее качественный результат в ответ на вопрос. Так и назревала понемногу эта проблема с самого появления интернета.

Но предпосылка появления глобальных систем по поиску информации в интернете сложилась уже давно - по мере геометрического роста количества сайтов, появления сайтов на региональных языках отличных от английского. Более того, росло не только общее количество сайтов, увеличивалось и число страниц на каждом из них. Поэтому понадобилась автоматизированная система индексации, ранжирования.

Ну а с увеличением числа пользователей интернета по всему миру до 3 с лишним млрд - выросла востребованность и популярность поисковых систем. Надо же как-то ориентироваться в этом море информации во «всемирной паутине».

Так появился первый поисковик Альтависта, потом Яху, Гугл и другие.

Список поисковых систем в мировом интернете

В настоящее время в международном интернете существует множество поисковиков, лидером среди которых является американский Гугл.

Список мировых поисковых систем в алфавитном порядке:

  1. Baidu;
  2. Bing;
  3. DuckDuckGo;
  4. Gigablast;
  5. Google Search;
  6. Soso.com;
  7. Startpage (Ixquick);
  8. YaCy;
  9. Yahoo! Search;
  10. Yandex Search.

На фоне всеобъемлющего доминирования поисковой машины Google, адаптированной ко многим локальным языкам и встроенной по умолчанию во все андроид-смартфоны, другие игроки рынка пытаются внедрять новые фишки для пользователей или пользуются другими возможностями для своего продвижения.

Например DuckDuckGo заботится о приватности и безопасности данных своих пользователей (не следит за ними и не продает эту информацию на сторону), а Бинг от Майкрософта продвигается как встроенный поисковик в браузер EDGE операционки Windows 10.

Со времен появления первых поисковиков, многие из них уже прекратили свое существование. Другие были поглощены. Yahoo так вообще стал многопрофильной компанией, значительный доход которой принес не поиск, а инвестиции в интернет-сервисы и стартапы.

Сейчас выйти на этот рынок без значительных инвестиций в маркетинг, науку и технологии наверное невозможно. Ведь за минималистичной строкой ввода поискового запроса скрывается ресурсо- и капиталоемкий механизм, тысячи работающих сотрудников и сотни тысяч человекочасов, уже вложенных в поисковые машины в недавнем прошлом.

Да и то, - пользователи очень инертны и имеют уже сформировавшиеся поисковые предпочтения, которые сложно изменить. Пример тому - безуспешные попытки компании Microsoft занять значительную долю поиска на ПК. Во многом, такая ситуация сложилась из-за непопулярности браузеров MS среди пользователей.

Так что простым пользователям остается только выбирать для себя наилучший поисковый сервис, а также ждать еще большего укрупнения и монополизации существующих поисковиков, либо появления новых стартапов в этой области.

Основные поисковые системы в рунете

На российском рынке в течение более десятилетия сохраняется ситуация доминирования Яндекса, постепенно теряющего свою долю под сильным натиском сурового Гугла. Собственно эти два игрока и являются основными доминирующими поисковыми системами в рунете. Рейтинг построить не получится, потому что на текущий момент разделение рынка идет практически 50/50.

Обратите внимание! Продвижение под Яндекс отличается от продвижения под Google. Как продвинуть сайт в Яндексе — .

Гугл пришел в Россию в 2004 году и с тех пор процент за процентом отбирает лидерство у российской поисковой системы Яндекс, но все никак не отберет. Подобная ситуация не уникальная на мировом рынке, есть еще как минимум 2 страны, где поисковик от Google встретил серьезное сопротивление: Чехия и Китай (КНР).

Для того чтобы составить беглое представление о рынке поиска в рунете, перейдите по ссылке https://www.liveinternet.ru/stat/ru/searches.html?period=month;total=yes

После того как ПС закрыли от чужих счетчиков ключевые фразы, статистика Лайвинтернет сохранила свою ценность хотя бы оттого, что считает переходы с поиска Яндекса и Гугла. И вот что мы видим:

А на промежутке в 2 года действительно видно сокращение разрыва - Гугл догоняет и наносит ответный удар российскому поисковику.

Но как это возможно? Очень просто. Вы наверное помните, что современные фронтенд разработчики придерживаются принципа «mobile first»? И ведь неспроста - интернет действительно плавно переходит с десктопа на мобайл.

А что у нас на смартфонах и планшетах? Правильно, Андроид. А какой поиск установлен по умолчанию на Андроиде? Правильно, Гуглопоиск.

Вот такие дела. Если бы стартап «Андроид» купил Самсунг, а не Гугл - все могло бы быть по-другому.

Возвращаясь к рунету и поисковикам, нельзя не отметить постепенное снижение доли поиска от Маил.ру, плавающего около 5-6%. Его используют посетители сайтов Маил.ру Груп.

Есть еще так называемые поисковики второго эшелона: Рамблер, Нигма. Хотя корректнее их не учитывать вообще. У Рамблера (как у компании) было много проблем с менеджментом и рамблеровский поиск со временем «умер», не осилив маркетинговой конкуренции и технологической гонки. Нигма, в свою очередь, так и не взлетела - наверное потому что у российских серферов в интернете уже сформировались пользовательские привычки и предпочтения.

Таким образом, за 10-15 лет становления «поискового» рунета, Яндекс утратил звание безоговорочного и безусловного лидера и теперь уже на равных соревнуется с американским гигантом: где-то проигрывая, где-то выигрывая.

Причем тренд явно на поражение. Но посмотрим, в 2016 никто не знает на что готов Яндекс ради удержания доли поиска. Может это будет высокотехнологичная конкуренция, а может и не менее безжалостный административный ресурс - Яндекс уже прощупывает эту почву, подав недавно в суд на Гугл в ФАС и выиграв дело. Кто знает, может и Роскомнадзор заблокирует Гугл на территории РФ 😀 Конечно, ничего смешного, но я уже ни в чем не уверен.

Рынки поисковых систем в мировом интернете

Переходя от российского рынка к мировому, отмечу лишь что там ничего интересного. Практически безграничное доминирование Гугла. Есть конечно интересные ситуации на локальных рынках, о них и расскажу.

Турция. Яндекс вышел на турецкий рынок 5 лет назад и к 2016 году закрепился на отметке в 5-7%%.

Китай. Доминирует Байду, китайское правительство всячески защищает местный рынок. Да и с иероглифами западный человек без бутылки не разберется, - подобная особенность локального рынка все равно влияет на качество поиска.

СНГ. Яндекс тоже идет примерно на равных с Гуглом, где-то немного уступая, где-то немного выигрывая. Тренд на понижение более явный чем на российском рынке.

США. Американский рынок традиционно остается тем местом, где Гуглу готовы «дать по морде», используя все возможные ресурсы, другие крупные ТНК — Майкрософт, АОЛ, Яху. Это вам не неконкурентоспособная мелочь, которая не может оказать сопротивление. Неудивительно что доля гугла не является монопольной, а едва превышает 60-62% по состоянию на 2016 год.

Бинг от Майкрософта стабильно растет, а сама компания понимает важность экосистемы и находится в роли догоняющей по отношению к Андроиду. Купили Нокию и производят смартфоны с Виндоус на борту, выкатили свежую операционку для десктопов и планшетов и продвигают удобный браузер Едж. Работают люди. Яху тоже не сдается.

Вот пожалуй и все, что можно сказать о поисковых системах в России и СНГ, в мировом интернете. Самые популярные из них у всех на слуху и прочно удерживают свои места в глобальном рейтинге удобных сервисов по предоставлению поиска для интернет-пользователей.

Эта статья актуальна на 2016 год и время покажет, кто станет новым царем горы в России и мире, а кто уйдет с рынка. Пользователям ничего не остается кроме как наблюдать, голосовать рублем и ногами. То есть руками.