Программа SiteSputnik. Сравнительный анализ поисковиков.
Дата выхода публикации: 04.11.08г.     

Новые видеоролики по программе

Назначение программы SiteSputnik: автоматизация поиска, сбора и мониторинга информации.
Перейти на главную страницу сайта о программе можно по ссылке - программа Сайт Спутник.



Основные понятия, терминология и сокращения.
ОП - основные поисковики, а именно: Яндекс, Google, Yahoo, Рамблер и MSN (Live Search).

Ссылка - веб-страница любого формата, размещенная в интернете, точнее ее адрес (URL).

Список уникальных ссылок не содержит двух одинаковых ссылок.

КПД - коэффициент полезного действия поисковика. Это отношение количества ссылок, найденных поисковиком, к количеству уникальных ссылок, найденных всеми ОП, выраженное в процентах.

Эквивалентные запросы - запросы, имеющие одинаковое смысл (семантику). На языках запросов ОП они не всегда имеют одинаковый "внешний" вид (синтаксис). КПД и другие числа рассчитываются именно на эквивалентных запросах.

Цель.
Сравнить результаты работы поисковиков и получить ответы на следующие вопросы.

  1. Чему равен КПД каждого поисковика.
  2. Насколько результаты работы поисковиков отличаются друг от друга.
  3. Насколько эффективнее применение нескольких поисковиков при сборе информации.
  4. Какое количество одинаковой информации (одинаковых ссылок) собирают ОП.

Эксперимент.
Выполним несколько эквивалентных запросов отдельно на каждом поисковике и сравним полученные результаты. Эксперимент проведем при помощи программы SiteSputnik (СайтСпутник). Все результаты скопированы прямо из протоколов работы этой программы. Дата проведения эксперимента - 29-30 октября 2008 года.

Запрос 1. Текст первого запроса: +"Новая Спартановка". "Новая Спартановка" - это небольшая ЖД станция ПВЖД на окраине Волгограда. Данный запрос будет иметь один и тотже "внешний" вид на языках запросов всех ОП. Результаты его выполнения на "табло".

Имя
поисковика
Заказано
страниц
Скачано
страниц
Найдено
ссылок
Время
поиска
КПД
поисковика
Отмечено
ссылок
Yandex 100 7 62 0:00:24 35% 0
Google 100 8 71 0:00:20 40% 0
Yahoo 100 6 60 0:00:20 34% 0
MSN 100 4 33 0:00:07 19% 0
Rambler 67 4 50 0:00:10 28% 0
Итого: 467 29 276 0:01:21 —  0

 Количество уникальных ссылок - 177, повторяющихся ссылок - 36%.

Пояснения.
1. Как видно из таблицы, запрос выполнен на полную глубину поиска (до последней ссылки) на всех поисковиках. То есть, для каждого поисковика собрана вся информация, имеющаяся у него по тестируемому запросу на момент эксперимента.
2. КПД поисковика вычислялся как отношение найденных им ссылок по запросу к количеству уникальных ссылок, найденных всеми ОП, переведенное в проценты.
3. Доля повторяющихся ссылок рассчитывалась как отношение разности количества ссылок, найденных всеми поисковиками, и количества уникальных ссылок к количеству уникальных ссылок, переведенное в проценты.
4. При подсчете количества уникальных ссылок учитывались приведенные ниже "Технические замечания".

Запрос 2. Выполним второй запрос: "Калининградская генерирующая компания" | "Янтарьэнергосбыт". В указанном виде он отправляется на Яндекс, Google и Рамблер. На Yahoo его эквивалентный вид - "Калининградская генерирующая компания" OR "Янтарьэнергосбыт", а на MSN - +"Калининградская генерирующая компания" | +"Янтарьэнергосбыт". Этот запрос позволяет найти документы, в которых упоминается хотя бы одно их двух дочерних предприятий ОАО "Янтарьэнерго" из г. Калининграда.

Имя
поисковика
Заказано
страниц
Скачано
страниц
Найдено
ссылок
Время
поиска
КПД
поисковика
Отмечено
ссылок
Yandex 100 9 90 0:00:35 34% 0
Google 100 8 80 0:00:20 30% 0
Yahoo 100 6 60 0:00:20 22% 0
MSN 100 6 58 0:00:14 22% 0
Rambler 67 4 62 0:00:22 23% 0
Итого: 467 33 350 0:01:51 —  0

 Количество уникальных ссылок - 268, повторяющихся ссылок - 31%.

Пояснения.
Для этого и всех последующих запросов пояснения те же, что и для "Запроса 1".


Запрос 3. Выполним третий запрос: "схемы оптимизации налогообложения" +ЕСН -черные. В указанном виде он отправляется на Google и Yahoo. Для MSN первым символом добавим знак +. На Яндексе его эквивалентный вид содержит вместо знака - двойную тильду ~~, а на Рамблере выглядит следующим образом - "схемы оптимизации налогообложения" +ЕСН NOT черные. Этот запрос предназначен для поиска документов, речь в которых идет о легальных схемах оптимизации налогообложения при выплате зарплат.

Имя
поисковика
Заказано
страниц
Скачано
страниц
Найдено
ссылок
Время
поиска
КПД
поисковика
Отмечено
ссылок
Yandex 100 18 178 0:01:06 23% 0
Google 100 21 202 0:00:50 26% 0
Yahoo 100 31 310 0:01:40 40% 0
MSN 100 13 124 0:00:21 16% 0
Rambler 67 18 271 0:01:09 35% 0
Итого: 467 101 1085 0:05:06 —  0

 Количество уникальных ссылок - 798, повторяющихся ссылок - 36%.


Запрос 4. Выполним следующий запрос: +"Средняя Ахтуба" && +недвижимость, сформированный для Яндекса и Рамблера. В Google, Yahoo и MSN для получения эквивалентного вида запроса следует опустить двойной амперсанд - &&. Средняя Ахтуба - это небольшой районный центр в 20 км от Волгограда, недвижимость в котором может представлять интерес для некоторых слоев населения.

Имя
поисковика
Заказано
страниц
Скачано
страниц
Найдено
ссылок
Время
поиска
КПД
поисковика
Отмечено
ссылок
Yandex 100 40 396 0:01:57 26% 0
Google 100 30 297 0:01:19 20% 0
Yahoo 100 52 520 0:02:20 34% 0
MSN 100 27 265 0:00:44 17% 0
Rambler 67 28 418 0:01:59 27% 0
Итого: 467 177 1896 0:08:19 —  0

 Количество уникальных ссылок - 1521, повторяющихся ссылок - 20%.


Запрос 5. Выполним следующий запрос: "Камышинский стеклотарный завод". На всех ОП он будет выглядеть одинаково, единственно, что для MSN перед запросом рекомендуется добавить знак +.

Имя
поисковика
Заказано
страниц
Скачано
страниц
Найдено
ссылок
Время
поиска
КПД
поисковика
Отмечено
ссылок
Yandex 100 54 538 0:02:32 27% 0
Google 100 27 265 0:01:17 13% 0
Yahoo 100 84 840 0:02:47 42% 0
MSN 100 33 325 0:00:40 16% 0
Rambler 67 60 877 0:02:17 44% 0
Итого: 467 258 2845 0:09:33 —  0

 Количество уникальных ссылок - 2002, повторяющихся ссылок - 42%.


Выводы из результатов эксперимента.
  1. Средний КПД Яндекса, Google, Рамблера около 25%, Yahoo примерно 30%, MSN - 20%.
  2. Средний КПД поисковика - 25%, то есть результат работы одного поисковика примерно на 75% отличается от результата их совместного использования.
  3. Если Вы собираете информацию о каком-то объекте и применили при этом только один поисковик и задали только один запрос, то упустили около 75% информации. Здесь и везде в данной публикации за единицу информации взята одна уникальная ссылка, точнее ее адрес (URL). Если Вы зададите несколько запросов на одну тему, то, скорее всего, незначительно измените процент упущенной информации, но встанет проблема фильтрации очень большого количества одинаковых ссылок, приносимых по одной теме несколькими запросами.
  4. Количество одинаковой информации, приносимой поисковиками, - около 30%.
Дополнительная информация.
Подобные цифры автор этих строк наблюдает регулярно, практически ежедневно в течение почти 4 лет в процессе разработки и тестирования SiteSputnik`а и его применения для решения своих производственных задач. За это время было выполнено и сохранено в базе данных СайтСпутник`а более 4000 запросов. Тестирование проводилось только на рунете.

Продолжение эксперимента.
1. Вычисление количества ссылок с уникальным контентом в SiteSputnik`e реально, но требует больших ресурсов, и в данной публикации не рассматривается.
2. Вы можете повторить этот эксперимент или поставить свой, скачав SiteSputnik отсюда. При публикации или другом использовании результатов эксперимента ссылка на SiteSputnik обязательна.

Технические замечания.
При сравнении все ссылки приводились к стандартному виду: к одной кодировке, единой форме, отбрасывались или преобразовывались "служебные префиксы" и прочие вспомогательные конструкции.
    Примеры нескоторых ссылок, рассматриваемых как одинаковые.
  1. http://www.domen1.ru/Resource1/... и
    http://domen1.ru/Resource1/...

  2. http://it2b-forum.ru/index.php?showtopic=5359&st=90 и
    http%3a//it2b-forum.ru/index.php%3fshowtopic=5359%26st=90

  3. http://it2b-forum.ru/index.php?showtopic=5359&st=90 и
    http://rds.yahoo.com/_ylt=A0geu5buVwtJ8NkAQoBXNyoA;_ylu=X3oDMTEzZXZoM2V2BHNlYwNzcgRwb3MDMjAEY29sbwNhYzIEdnRpZANNMDAxXzk1/SIG=12bt43d0g/EXP=1225566574/**http%3a//it2b-forum.ru/index.php%3fshowtopic=5359%26st=90
Пункт 1 может внести очень маленькую, менее 1%, погрешность в вычисления: рассматриваемые в нем ссылки иногда приносят различную информацию.

Неформальное замечание.
Создается впечатление, что поисковики живут далеко друг от друга, на разных пяти материках, и мало знают о взаимном существовании.

Возможности SiteSputnik`a при сборе информации.
К месту будет сказано, что одной из функцией SiteSputnik`а является обеспечение работы пользователя с семью поисковиками (к упомянутым пяти ОП еще следует добавать Апорт и Mail, подключенные в настоящее время).
    SiteSputnik поддерживает следующие возможности сбора информации.
  1. Метапоиск - за один шаг для отдельного запроса осуществляется поиск одновременно по семи поисковикам: Яндекс, Рамблер, Google, Yahoo, MSN (Live), Mail и Апорт на "глубину" прописанного в настройках количества страниц для каждого из них. Работа с несколькими поисковиками выглядит так, как будто Вы работаете с одним поисковиком. Повторно найденные ссылки удаляются. Подробнее здесь в шаге 1.
  2. Универсальный язык запросов для Яндекса, Рамблера, Google, Yahoo, MSN (Live), Mail и Апорта. Алгоритмическая мощность универсального языка сопоставима с возможностями расширенного поиска этих поисковиков. Работа с несколькими поисковиками выглядит так, как будто Вы работаете с одним поисковиком. Повторно найденные ссылки удаляются. Подробнее здесь.
  3. Процедурный поиск позволяет на 100% использовать алгоритмическую мощность языков запросов каждого поисковика, при этом обеспечивает возможность выполнения запроса, написанного на языке запросов конкретного поисковика, на том и только на том поисковике, на языке которого он написан. Объединенные в пакет несколько таких запросов позволяют максимально полно и точно "запрограммировать" и выполнить задачу поиска и сбора информации по искомому объекту. Повторно найденные ссылки удаляются. Подробнее здесь.
Таким уникальным набором возможностей поиска и сбора информации не обладает ни одна отечественная и зарубежная программа. В настоящее время разрабатываются новые инструментальные средства поиска и сбора информации. Подробнее о всех возможностях SiteSputnik здесь.

Люботытное следствие из эксперимента.
Выполнив операцию "Аналитическое объединение" в программе СайтСпутник над пятью упомянутыми выше абсолютно случайными искомыми объектами, бравшимися исключительно с целью проведения экспермента с поисковиками, получим следующий результат. Здесь понятия искомый объект и запрос эквивалентны.

1. Не обнаружено присутствие (пересечение) даже двух объектов ни на одной ссылке, что вполне объяснимо - искомые объекты разные, непринадлежащие к одной теме.

2. На пяти ресурсах (площадках) обнаружено присутствие по четыре объекта, и это уже интересно и объяснимо - ресурсы или достаточно известны или относятся к Волгограду, к которому имеют отношение три объекта из пяти.

Ресурс (площадка) Запрос
1 rambler.ru   4295   4300   4348   4349
2 regnum.ru   4295   4300   4348   4349
3 subscribe.ru   4300   4348   4349   4365
4 content.mail.ru   4300   4348   4349   4365
5 kommersant.ru   4300   4348   4349   4365
6 volgograd.ru   4295   4300   4349
7 rzd.ru   4295   4300   4349


3. Обнаружено присутствие всех пяти объектов на трех доменах, и это не является неожиданностью - домены "com.ru", "rambler.ru" и "narod.ru" являются информационноемкими и на них есть почти все.

Домен Запрос
1 com.ru   4295   4300   4348   4349   4365
2 rambler.ru   4295   4300   4348   4349   4365
3 narod.ru   4295   4300   4348   4349   4365
4 org.ru   4295   4300   4349   4365
5 net.ru   4295   4300   4349   4365

Пояснения.
1. Наведите мышку на четырехзначное число и Вы увидите, какой искомый объект (запрос) присутствует на ресурсе или домене.
2. Четырехзначное число - это порядковый номер запроса, заданного в SiteSputnik`е, то есть на момент эксперимента уже было выполнено и хранилось в базе данных 4365 запросов.
3. Объекты 4295, 4300 и 4349 имеют отношение к Волгограду и Волгоградской области.

Список литературы.
Приложение FileForFiles & SiteSputnik хорошо документировано. Полный список публикаций по программе: инструкции, очерки, статьи, отзывы, пресс-релизы, обсуждения на нескольких форумах, полевые испытания, - собран на этой странице.

О сотрудничестве.
Ваши предложения по развитию программы можно обсудить с автором.
Пишите по этому электронному адресу.
Скачать программу можно здесь.

Copyright © 2003-2024 ИП Мыльников Алексей Борисович. Все права защищены. E-mail: 1a@sitesputnik.ru, +7(8442) 73 71 23, +7(905) 3 92 97 92