SiteSputnik. Невидимый интернет.
SiteSputnik. Поиск невидимых ссылок, папок и файлов.
Автор
Алексей Мыльников
Дата выхода публикации - 03.09.09г.     
Последнее изменение - 15.10.15г.     



Предисловие.
В настоящей публикации рассматриваются предназначенные для работы с невидимым интернетом базовые функции программы SiteSputnik (вариант Invisible). Выражаю благодарность членам СПКР (Сообщества Практиков Конкурентной Разведки) с никами "Vinni" и "CI-КР", а также "Николаичу", "petryashov", "Искендер", "MOS" и другим специалистам за полезные советы и замечания, высказанные на форуме и в личной переписке.

Основные понятия, терминология и сокращения.
Основные поисковики. К ним отнесем Яндекс, Google, Yahoo, MSN (ныне Bing) и Mail.ru.

Видимый интернет - это проиндексированные хотя бы одним основным поисковиком ссылки. Другими словами, информация, размещенная на видимых ссылках, может быть найдена при помощи хотя бы одного поисковика.

Невидимый интернет (глубокий веб, Deep Web, Invisible Web, Hidden Web) - это ссылки, непроиндексированные ни одним из основных поисковиков. Соответственно, не существует такого запроса, при помощи которого можно найти информацию, размещенную на невидимой ссылке.

Веб-карта. Упорядоченная иерархическая структура сайта, ресурса или папки, составленная на основе видимых ссылок.


Цель, назначение, базовые функции программы.
Одна из причин существования невидимого интернета - его огромный размер, высокая скорость обновления и появление в большом количестве новых ссылок и сайтов. Поисковики не в силах своевременно, полно и точного проиндексировать, другими словами, "увидеть" все эти изменения.

Цель, назначение.
Целевое назначение программы SiteSputnik Invisible - поиск ссылок и информации, по каким-либо причинам непопавшей в поле зрения основных поисковиков, повышение точности и полноты поиска.

Базовые функции.
В настоящей публикации рассматриваются следующие базовые функции программы SiteSputnik Invisible:
  • Сбор видимых ссылок и построение на их основе веб-карты сайта. Веб-карта - критерий видимости ссылок.
  • Поиск невидимых ссылок при помощи спайдера (паука).
  • Поиск невидимых ссылок в окрестности видимой ссылки или папки по "образу и подобию".
  • Поиск невидимых ссылок в папках открытых и папках, вложенных в открытые папки.
  • Поиск невидимых ссылок и папок со стандартными именами с использованием специальных словарей.
  • Поиск невидимых ссылок при помощи встроенных в сайты внутренних поисков.
  • Спецзапросы к сайту - дополнение для поиска видимых "Интересных ссылок".


  • Важно.
  • Ни для одной из своих базовых функций SiteSputnik Invisible не "маскирует" IP Пользователя.
      - Программа создавалась не для "подглядывания в замочную скважину", а для углубления поиска, выполненного основными поисковиками.
      - Программа может быть использованая для периодической проверки своих собственных сайтов.
  • Никаких открытий файлов robots.txt и, тем более, использования хранящейся в них информации не осуществляется.
  • Несанкционированные средства доступа к размещенной на сайтах информации в СайтСпутник''е отсутствуют.

  • Сбор видимых ссылок. Построение карты сайта.
    О критерии видимости ссылок.
    Для того, чтобы приступить к поиску невидимых ссылок, сначала собираются видимые ссылки. Для этого SiteSputnik использует несколько поисковиков, а именно: Google, Yahoo, Яндекс, MSN (Bing) и Mail.ru. Кроме составления списка "Объединение", содержащего все ссылки, найденные всеми поисковиками, он строит еще карту сайта - специальную упорядоченную иерархическую структуру этих ссылок. Эта структура содержит все видимые ссылки и будет использована как плацдарм для поиска невидимых ссылок.

    Есть два варианта построения карты сайта: стандартный и углубленный.

    Стандартный вариант.
    Выполняется один пакет из пяти запросов: по одному на каждый поисковик. Результаты поиска объединяются, дубли ссылок отбрасываются. Для Гугля, например, для ресурса sitesputnik.ru выполняется запрос "site:sitesputnik.ru". Стандартного варианта, по моим оценкам, вполне достаточно для сайтов, содержащих до 300 ссылок - он сумеет найти практически все видимые ссылки.

    Углубленный вариант.
    Выполняется до 2100 пакетов, каждый из которых содержит по пять запросов: по одному на каждый поисковик. Первым выполняется пакет из Стандартного варианта. Для каждого найденного ресурса или папки, принадлежащего сайту, например, sitesputnik.ru/Help, создается и выполняется очередной пакет из пяти запросов. Результаты его выполнения будут объединены с результатами, полученными при выполнении предыдущих пакетов, дубли ссылок отбрасываются.

    Указанным способом SiteSputnik "вгрызается" в сайт, пятью поисковиками "обыскивает" каждый ресурс и каждую его папку и приносит практически все ссылки, видимые из интернета. На их основе он строит карту сайта. Имею опыт построения карт "размером" около 50000 ссылок. Формирование карты сайта не заметно для его владельца, так как вся информация берется только из поисковиков.

    Можно сказать, что карта сайта является материализацией видимого интернета.

    Как следствие, два важных отличия SiteSputnik Invisible от других программ.
  • Поиск происходит на базе большого количества ссылок, а не одной ссылки.
  • Не ищется и без того видимое методами поиска в невидимом интернете.


  • Последовательность действий
    1. Обращаемся к подменю "Золотого ключика" и выбираем пункт   Карта сайта    Базовая     или     Карта сайта    Углубленная  .
    2. На появившейся картинке вводим имя сайта, ресурса или папки (префиксы http:// и www. перед именем сайта не обязателены, кавычки не нужны).
    3. Нажимаем на кнопку  Карта .
    Это все действия, которые требуются от Пользователя для сбора видимых ссылок. Остальное сделает SiteSputnik.
    Подробнее о карте сайта с картинками и пояснениями можно прочитать в отдельной публикации о построении веб-карт ресурсов и объектов.

    Хороший пример карты сайта для www.sitesputnik.ru на ссылке. Образно говоря, СайтСпутник сделал селфи.


    Поиск невидимых ссылок при помощи спайдера (паука).
    Основное назначение
  • Поиск недавно созданных ссылок.
  • Поиск недавно удаленных ссылок.
  • Поиск архивных и других неофисных файлов.


  • Последовательность действий

    Спайдер запускается   С карты сайта  . Он загружает все видимые ссылки и ищет в них невидимые. Если таковые находятся, то спайдер загружает невидимые ссылки и ищет в них невидимые. Процесс продолжается до тех пор, пока не будет обработана последняя ссылка или Пользователь не остановит его. На приведенном ниже рисунке показано как добраться до обращения к спайдеру.

    Spider. Invisible Web. Невидимый интернет.

    Пункт меню   С точки останова   позволяет продолжить работу спайдера, если его работа была остановлена.

    Пункт меню   Включение в карту сайта   обеспечивает помещение найденных невидимых ссылок в карту сайта.
    Это целесообразно выполнить для того, чтобы невидимые ссылки были задействованы в других базовых функциях поиска в невидимом интернете.

    Результаты своей работы спайдер оформляет в двух списках: невидимые ссылки и серые ссылки.

    Невидимые ссылки.
    Список "Невидимые" содержит все найденные невидимые ссылки.
    Большая вероятность того, что эти ссылки были созданы сравнительно недавно: менее, чем две недели назад.

    Серые ссылки.
    Список "Серые" содержит ссылки, которые не удалось открыть.
    Большая вероятность того, что это несуществующие ссылки.
    Возможно, что сами они были удалены, а на других страницах администратор "забыл" удалить гиперссылки на них.
    К слову будет сказано, Вы можете попробовать найти кеш-копии таких ссылок, используя СайтСпутник:   Метапоиск специальный    Кеш-копий ссылки  

    Поиск невидимых ссылок в окрестности видимой ссылки.
    Основное назначение
    Поиск ссылок и файлов в окрестности ссылки или файла по "образу и подобию".

    Последовательность действий
    1. Выбираем построенную карту сайта. На рисунке ниже представлен ее фрагмент для ресурса 1001.ru/arc/businessman.


    2. Spider, Паук, Deep Internet, невидимый интернет

    3. Переходим в режим редактирования.
      Для этого на панели инструментов, расположенной в правом нижнем углу, нажимаем на кнопку "Редактировать".
      На картинке ниже эта кнопка обведена красной окружностью.

      Паук, Спайдер, глубокий веб, Deep Web, Invisible Web, Hidden Web, невидимый интернет

    4. Для произвольной ссылки, например, под номером 5,
      1001.ru/arc/businessman/issue1673,         вводим с клавиатуры прямо живьем в карту сайта правило [73,74,82]:
      1001.ru/arc/businessman/issue16[73,74,82], Это правило означает, что сгенерятся девять ссылок минус три видимые ссылки, 
      
      а именно шесть следующих ссылок:
      
      1001.ru/arc/businessman/issue1674
      1001.ru/arc/businessman/issue1675
      1001.ru/arc/businessman/issue1677
      1001.ru/arc/businessman/issue1679
      1001.ru/arc/businessman/issue1680
      1001.ru/arc/businessman/issue1682.      
      На рисунке ниже показано как будет выглядеть отредактированный фрагмент карты сайта. Он обведен красной линией.

      Невидимый интернет, Spider(Паук)


    5. Выполняем   Невидимый интернет    Поиск в окрестности    Найти ссылки и файлы  . Это приведет к проверке на существование каждой сгенерированной ссылки. Найденные существующие ссылки будут помещены в список "Невидимые". На картинке ниже приведен фрагмент этого списка.

      Spider(Паук). Невидимый интернет.

    6.   Включение в карту сайта   найденных невидимых ссылок целесообразно выполнить для того, чтобы они были задействованы в других базовых функциях поиска в невидимом интернете.

      Результат включения невидимых ссылок в карту сайта для нашего случая приведен на картинке ниже.

      Spider(Паук). Невидимый интернет.

    Еще три примера.

    1. Для ссылки dvfo.nalog.ru/new/2006.htm при помощи одного правила dvfo.nalog.ru/new/200[6,5,9].htm сгенерятся пять ссылок за минусом одной видимой, а именно следующие четыре:

    dvfo.nalog.ru/new/2005.htm
    dvfo.nalog.ru/new/2007.htm
    dvfo.nalog.ru/new/2008.htm
    dvfo.nalog.ru/new/2009.htm

    Тотже результат Вы получите, если напишите dvfo.nalog.ru/new/[2006,2005,2009].htm

    2. Для этой же ссылки: dvfo.nalog.ru/new/2006.htm при помощи другого правила dvfo.nalog.ru/new/2006.[htm;doc;xls;ppt] сгенерятся три ссылки, а именно:

    dvfo.nalog.ru/new/2005.doc
    dvfo.nalog.ru/new/2007.xls
    dvfo.nalog.ru/new/2008.ppt

    Обратите внимание, что в примере 1 для разделения чисел используется знак - ",", а в примере 2 для разделения символов знак - ";".

    3. Для этой же ссылки: dvfo.nalog.ru/new/2006.htm при одновременном применении двух правил dvfo.nalog.ru/new/200[6,5,7].[htm;doc;xls;ppt;htm] сгенерятся двенадцать ссылок за минусом одной видимой, а именно следующие одиннадцать:

    http://dvfo.nalog.ru/new/2005.doc
    http://dvfo.nalog.ru/new/2005.xls
    http://dvfo.nalog.ru/new/2005.ppt
    http://dvfo.nalog.ru/new/2005.htm
    http://dvfo.nalog.ru/new/2006.doc
    http://dvfo.nalog.ru/new/2006.xls
    http://dvfo.nalog.ru/new/2006.ppt
    http://dvfo.nalog.ru/new/2007.doc
    http://dvfo.nalog.ru/new/2007.xls
    http://dvfo.nalog.ru/new/2007.ppt
    http://dvfo.nalog.ru/new/2007.htm


    Сложный пример.
    С более сложным примером и формальными правилами описания окрестности можно ознакомиться на ссылке.

    Проверка.
    Можно предварительно проверить себя на предмет правильного ввода и генерации множества ссылок.
    Для этого выполните   Невидимый интернет    Сервисные функции    Просмотр окрестности  

    Добавить ссылку.
    Можно добавить произвольную ссылку в карту сайта, для того чтобы ввести на ней правила.
    Для этого выполните   Невидимый интернет    Сервисные функции    Добавить ссылку в карту  

    Внимание.
    Очень тщательно отнеситесь к набору правил генерации имен ссылок во встроенном редакторе:
  • помните о синтаксисе и семантике правил,
  • не изменяйте символы в имени ссылки - только добавляйте символы,
  • не рекомендуется пользоваться буфером обмена - набирайте правила прямо с клавиатуры.


  • Ограничение.
    В настоящей версии программы SiteSputnik Invisible для некоторых сайтов (около 5%) возможны погрешности при определении существования ссылок. Для достижения 100% точности на этих сайтах необходимо скачивать все сгенерированные ссылки и анализировать их контент, что существенно замедлит процесс поиска невидимых ссылок.

    Поиск невидимых ссылок в папках открытых и папках, вложенных в открытые папки.
    Основное назначение
    Поиск при помощи основных поисковиков папок открытых (доступных любому Пользователю) и нахождение в них невидимых ссылок.

    Существуют два варианта поиска невидимых ссылок в папках открытых: "Применить поисковики" и "Применить Apache и другое".


    Последовательность действий в режиме "Применить поисковики"
    1. Выбираем:   Невидимый интернет    Папки открытые    Применить поисковики    Поиск автоматический  .

    2. На появившейся картинке вводим имя сайта, ресурса или папки, в которых следует осуществить поиск папок открытых (префиксы http:// и www. перед именем сайта не обязателены, кавычки не нужны).

    3. Нажимаем на кнопку  Папка .
    SiteSputnik, используя специальный пакет запросов, отыщит папки открытые, откроет все вложенные в них папки, соберет во всех папках все невидимые ссылки, папки и файлы, сохранит их в списке "Невидимые" и вставит их на свое место в карту сайта.

    Для того, чтобы увидеть как работает робот СайтСпутник''а в автоматическом режиме, попробуйте запустить его для ресурса ФНС: dvfo.nalog.ru. По крайней мере на момент публикации он содержал три открытые папки, видимые из Yahoo.

    В режиме   Поиск интерактивный   все перечисленные для автоматического режима действия SiteSputnik''a могут целенаправлено инициироваться Пользователем.


    Последовательность действий в режиме "Применить Apache и другое".
    1. В карте сайта выбираем список "Папки".

    2. Выбираем:   Невидимый интернет    Папки открытые    Применить Apache и др.   Поиск папок открытых  .
      Это приведет к тому, что SiteSputnik откроет все папки из списка, которые не закрыты, откроет все вложенные в них папки, соберет во всех папках все невидимые ссылки, папки и файлы и сохранит их в списке "Невидимые".

    3.   Включение в карту сайта   найденных невидимых ссылок целесообразно выполнить для того, чтобы они были задействованы в других базовых функциях поиска в невидимом интернете.


    Сложно сказать, сколько сайтов имеют открытые папки, возможно, что 2% сайтов, возможно, меньше.

    Поиск невидимых ссылок и папок со стандартными именами с использованием специальных словарей.
    Основное назначение
    Поиск ссылок, папок и файлов со стандартными именами на основе заранее подготовленных списков стандартных имен, называемых словарями.

    Предварительные действия
    Формируем словари. Максимальное число словарей - 8. Для этого открываем   Настройки    Параметры    Вкладка Invisible  , выбираем словарь и вводим в него стандартные имена (слова). Можно задействовать до трех словарей под имена папок и до трех словарей под имена ссылок и файлов. Четвертая пара словарей, называемая Словари-Own, создается автоматически перед выполнением "Поиска со словарем" и содержит все имена (слова) из всех ссылок, папок и файлов видимых и невидимых, найденных к настоящему моменту. Например, если в карте сайта есть ссылка: http://sitesputnik.ru/Files/Html/SSComments.htm, то в Own-папки попадут Files и Html, а в Own-файлы SSComments.htm.

    Основные действия
    1. В карте сайта выбираем список "Папки". На базе этого списка осуществляется поиск со словарем, а именно, к каждому элементу видимой из интернета папочной структуры сайта, СайтСпутник присоединит имена (слова) из четырех пар словарей и определит физическое существование получаемых таким образом ссылок, папок и файлов.


    2. В подменю "Золотого ключика" выбираем   Невидимый интернет    Поиск со словарем    Найти папки и файлы  , что приводит к инициированию поиска невидимых ссылок, папок и файлов с использованием словарей. Как отмечалось выше, невидимыми считаются физически существующие ссылки, папки или файлы, которые не содержатся в карте сайта.


    3.   Включение в карту сайта   найденных невидимых ссылок целесообразно выполнить для того, чтобы они были задействованы в других базовых функциях поиска в невидимом интернете.


    Поиск невидимых ссылок при помощи встроенных в сайты внутренних поисков.
    В СайтСпутнике можно подключить встроенные в сайты поиски. Они в рамках своего сайта значительно лучше ищут информацию, чем внешние поисковики даже такие гигантские как Google и Яндекс. Соответственно, применение встроенных поисков при наблюдении за сайтами позволяет обнаружить невидимые ссылки.

    Спецзапросы к сайту - дополнение для поиска видимых "Интересных ссылок".
    Это, собственно, является поиском в видимом интернете, но бывает весьма полезно Пользователю SiteSputnik Invisible.

    Специальный Пакет с параметрами, называемый Интересные ссылки, содержит поиски по таким словам, которые могут находиться в "интересных документах". Примерами таких слов могут служить: Конфиденциально, Секретно, password и многие многие другие, размещенные в документах формата Excel, Word и других.

      Невидимый интернет    Спецзапросы к сайту  

    Пользователь может доработать этот Пакет с параметрами под свои потребности самостоятельно или обратиться за помощью к автору программы или на форум СПКР.

    Заключительные замечания к поиску в невидимом интернете.
  • От Пользователя не требуется никаких специальных знаний: языка HTML, языков запросов и других профессиональных навыков. При помощи мышки он выбирает базовые функции поиска в невидимом интернете и вводит имя исследуемого сайта, ресурса или папки. Остальную работу выполнит SiteSputnik Invisible.
  • Все рассмотренные базовые функции могут применяться в любой последовательности.
  • Включение найденных невидимых ссылок в карту сайта может быть произведено в любое время. Целесообразно это делать сразу по факту их нахождения.
  • Возможно, что повторное применение любой базовой функции после удачного применения другой базовой функции, приведет к нахождению новых невидимых ссылок.
  • Для больших сайтов целесообразно разбить поиск на более "мелкие" поиски по его составным частям, например, aa.bb.ru/xx/yy/01. Для всего сайта можно построить карту только для того, чтобы увидеть эти составные части.
  • Включенные невидимые ссылки, папки и файлы в карте сайта выделяются зеленоватым фоном.


  • Список литературы.
    Приложение FileForFiles & SiteSputnik хорошо документировано. Полный список публикаций по программе: инструкции, очерки, статьи, отзывы, пресс-релизы, обсуждения на нескольких форумах, полевые испытания, - собран на этой странице.

    О сотрудничестве.
    Ваши предложения по развитию программы можно обсудить с автором.
    Пишите по этому электронному адресу.
    Скачать программу можно здесь.

    Copyright © Автор ИП Мыльников Алексей Борисович, г. Волгоград, 2016г. Все права защищены.