Программа SiteSputnik. Невидимый интернет:
программа Поиск невидимых ссылок, папок и файлов
Дата выхода публикации: 03.09.09г.     
Последнее изменение: 03.02.23г.     

глубокий веб, Невидимая часть интернета
Назначение программы SiteSputnik: автоматизация поиска, сбора и мониторинга информации.
Перейти на главную страницу сайта о программе можно по ссылке - программа Сайт Спутник.



Предисловие
В настоящей публикации рассматриваются предназначенные для работы с невидимым интернетом базовые функции программы SiteSputnik (вариант Invisible).

Выражаю благодарность членам СПКР (Сообщества Практиков Конкурентной Разведки) с никами "Vinni" и "CI-КР", а также "Николаичу", "petryashov", "Искендер", "MOS" и другим специалистам за полезные советы и замечания, высказанные на форуме и в личной переписке.

Невидимый интернет deep web Поиск в невидимом интернете Мониторинг невидимого интернета program invisible internet неиндексируемый интернет система поиска в невидимом интернете
Основные понятия, терминология и сокращения
Основные поисковики. К ним отнесем Яндекс, Google, Yahoo, MSN (ныне Bing) и Mail.ru.

Видимый интернет - это проиндексированные хотя бы одним основным поисковиком ссылки. Другими словами, информация, размещенная на видимых ссылках, может быть найдена при помощи хотя бы одного поисковика.

Невидимый интернет (Invisible Web, глубокий веб, Deep Web, Hidden Web, глубокий интернет) - это ссылки, не проиндексированные ни одним из основных поисковиков. Соответственно, не существует такого запроса, при помощи которого можно найти информацию, размещенную на невидимой ссылке.

Веб-карта. Упорядоченная иерархическая структура сайта, ресурса или папки, составленная на основе видимых ссылок. Она материализует видимый интернет.


Невидимый интернет deep web Поиск в невидимом интернете Мониторинг невидимого интернета программа для поиска в невидимом интернете program invisible internet неиндексируемый интернет система поиска в невидимом интернете
Цель, назначение, базовые функции программы
Одна из причин существования невидимого интернета - его огромный размер, высокая скорость обновления и появление в большом количестве новых ссылок и сайтов. Поисковики не в силах своевременно, полно и точного проиндексировать, другими словами, "увидеть" все эти изменения.

Цель, назначение
Целевое назначение программы SiteSputnik Invisible - поиск ссылок и информации, по каким-либо причинам непопавшей в поле зрения основных поисковиков, повышение точности и полноты поиска.

Базовые функции
В настоящей публикации рассматриваются следующие базовые функции программы SiteSputnik Invisible:

  • Сбор видимых ссылок и построение на их основе веб-карты сайта
       (Веб-карта - критерий видимости ссылок).
  • Поиск невидимых ссылок при помощи спайдера (паука).
  • Поиск невидимых ссылок в окрестности видимой ссылки или папки по образу и подобию.
  • Поиск невидимых ссылок в папках открытых и папках, вложенных в открытые папки.
  • Проверка на открытость FTP-доступа к сайту.
  • Поиск невидимых ссылок и папок со стандартными именами с использованием специальных словарей.
  • Поиск невидимых ссылок при помощи встроенных в сайты внутренних поисков.
  • Спецзапросы к сайту - дополнение для поиска видимых "Интересных ссылок".
  • Просмотр и поиск в Комментариях и скрытой части сайта.
  • Поиск всех ссылок, размещенных на ссылке.


  • Важно.
  • Ни для одной из своих базовых функций SiteSputnik Invisible не "маскирует" IP Пользователя.
      - Программа создавалась не для "подглядывания в замочную скважину", а для углубления поиска, выполненного основными поисковиками.
      - Программа может быть использованая для периодической проверки своих собственных сайтов.
  • Никаких открытий файлов robots.txt и, тем более, использования хранящейся в них информации не осуществляется.
  • Несанкционированные средства доступа к размещенной на сайтах информации в СайтСпутник''е отсутствуют.

  • Интернет невидимый, искать Deep Web Отслеживание изменений искать в интернете, наблюдение поиск в глубоком интернете
    Сбор видимых ссылок. Построение карты сайта
    О критерии видимости ссылок.
    Для того, чтобы приступить к поиску невидимых ссылок, сначала собираются видимые ссылки. Для этого SiteSputnik использует несколько поисковиков, а именно: Google, Yahoo, Яндекс, MSN (Bing) и Mail.ru. Кроме составления списка "Объединение", содержащего все ссылки, найденные всеми поисковиками, он строит еще карту сайта - специальную упорядоченную иерархическую структуру из этих ссылок. Эта структура содержит все видимые ссылки и будет использована как плацдарм для поиска невидимых ссылок. Она может быть значительно больше официальной карты сайта, по крайней мере, будет содержать все ссылки, размещенные на официально карте, если она видима.

    Есть два варианта построения карты сайта: стандартный и углубленный.

    Стандартный вариант.
    Выполняется один пакет из пяти запросов: по одному на каждый поисковик. Результаты поиска объединяются, дубли ссылок отбрасываются. Для Гугля, например, для ресурса sitesputnik.ru выполняется запрос "site:sitesputnik.ru". Стандартного варианта, по моим оценкам, вполне достаточно для сайтов, содержащих до 300 ссылок. Он сумеет найти практически все видимые ссылки.

    Углубленный вариант.
    Выполняется до 2100 пакетов, каждый из которых содержит по пять запросов: по одному на каждый поисковик. Первым выполняется пакет из Стандартного варианта. Для каждого найденного ресурса или папки, принадлежащего сайту, например, sitesputnik.ru/Help, создается и выполняется очередной пакет из пяти запросов. Результаты его выполнения будут объединены с результатами, полученными при выполнении предыдущих пакетов, дубли ссылок отбрасываются.

    Указанным способом SiteSputnik "вгрызается" в сайт, пятью поисковиками "обыскивает" каждый ресурс и каждую его папку и приносит практически все ссылки, видимые из интернета. На их основе он строит карту сайта. Формирование карты сайта не заметно для его владельца, так как вся информация берется только из поисковиков.

    Можно сказать, что карта сайта является материализацией видимого интернета.

    Как следствие, два важных отличия SiteSputnik Invisible от других программ.
  • Поиск происходит на базе полного набора видимых ссылок, а не с одной или с нескольких ссылок.
  • "Невидимыми" методами не ищутся видимые ссылки.



  • Последовательность действий при построении Карты сайта (или его папки)
    1. Обращаемся к подменю "Золотого ключика" и выбираем пункт   Карта сайта    Базовая     или     Карта сайта    Углубленная  .
      Открытое подменю - на картинке ниже (см. зелёную стрелочку).
      Пример карты для сайта sitesputnik.ru - на ссылке "Карта сайта о программе СайтСпутник".

    2. На появившейся картинке вводим имя сайта, ресурса или папки (префиксы http:// и www. перед именем сайта не обязателены, кавычки не нужны).

    3. Нажимаем на кнопку  Карта .
    Это все действия, которые требуются от Пользователя для сбора видимых ссылок. Остальное сделает SiteSputnik.
    Подробнее о карте сайта с картинками и пояснениями можно прочитать в отдельной публикации о построении веб-карт ресурсов и объектов.

    Пример карты сайта для www.sitesputnik.ru на ссылке. Образно говоря, СайтСпутник сделал селфи.
    up


    Поиск невидимых ссылок при помощи спайдера (паука)
    Основное назначение
  • Поиск недавно созданных ссылок.
  • Поиск недавно удаленных ссылок.
  • Поиск архивных и других неофисных файлов.


  • Последовательность действий

    Спайдер запускается   С карты сайта  . Он загружает все видимые ссылки и ищет в них невидимые. Если таковые находятся, то спайдер загружает невидимые ссылки и ищет в них невидимые. Процесс продолжается до тех пор, пока не будет обработана последняя ссылка или Пользователь не остановит его. На приведенном ниже рисунке показано как добраться до обращения к спайдеру.

    Spider. Invisible Web. Невидимый интернет.

    Пункт меню   С точки останова   позволяет продолжить работу спайдера, если его работа была остановлена.

    Пункт меню   Включение в карту сайта   обеспечивает помещение найденных невидимых ссылок в карту сайта.
    Это целесообразно выполнить для того, чтобы невидимые ссылки были задействованы в других базовых функциях поиска в невидимом интернете.

    Результаты своей работы спайдер оформляет в двух списках: невидимые ссылки и серые ссылки.

    Невидимые ссылки.
    Список "Невидимые" содержит все найденные невидимые ссылки.
    Большая вероятность того, что эти ссылки были созданы сравнительно недавно: менее, чем две недели назад.

    Серые ссылки.
    Список "Серые" содержит ссылки, которые не удалось открыть.
    Большая вероятность того, что это несуществующие ссылки.
    Возможно, что сами они были удалены, а на других страницах администратор "забыл" удалить гиперссылки на них.
    К слову будет сказано, Вы можете попробовать найти кеш-копии таких ссылок, используя СайтСпутник:   Метапоиск специальный    Кеш-копий ссылки  
    up


    Поиск невидимых ссылок в окрестности видимой ссылки

    Основное назначение
    Поиск ссылок и файлов в окрестности ссылки или файла по "образу и подобию".

    Последовательность действий
    1. Выбираем построенную карту сайта. На рисунке ниже представлен ее фрагмент для ресурса 1001.ru/arc/businessman.


    2. Spider, Паук, Deep Internet, невидимый интернет

      В настоящее время карта сайта выглядит более информативно: sitesputnik.ru (карта сайта, селфи).

    3. Переходим в режим редактирования.
      Для этого на панели инструментов, расположенной в правом нижнем углу, нажимаем на кнопку "Редактировать".
      На картинке ниже эта кнопка обведена красной окружностью.

      программа, невидимый интернет, Спайдер, глубокий веб, Deep Web, Invisible Web, Hidden Web

      При знании HTML-языка можно редактировать Карту сайта в Блокноте.
      На всякий случай сделайте копию Карты сайта.

    4. Для произвольной ссылки, например, под номером 5,
      1001.ru/arc/businessman/issue1673,         вводим с клавиатуры прямо живьем в карту сайта правило [73,74,82]:
      1001.ru/arc/businessman/issue16[73,74,82], Это правило означает, что сгенерятся девять ссылок минус три видимые ссылки, 
      
      а именно шесть следующих ссылок:
      
      1001.ru/arc/businessman/issue1674
      1001.ru/arc/businessman/issue1675
      1001.ru/arc/businessman/issue1677
      1001.ru/arc/businessman/issue1679
      1001.ru/arc/businessman/issue1680
      1001.ru/arc/businessman/issue1682.      
      На рисунке ниже показано как будет выглядеть отредактированный фрагмент карты сайта. Он обведен красной линией.

      Невидимый интернет, программа

    5. Ещё раз: на всякий случай сделайте копию Карты сайта.

    6. Выполняем   Невидимый интернет    Поиск в окрестности    Найти ссылки и файлы  . Это приведет к проверке на существование каждой сгенерированной ссылки. Найденные существующие ссылки будут помещены в список "Невидимые". На картинке ниже приведен фрагмент этого списка.

      Spider(Паук). Невидимый интернет.

    7.   Включение в карту сайта   найденных невидимых ссылок целесообразно выполнить для того, чтобы они были задействованы в других базовых функциях поиска в невидимом интернете.

      Результат включения невидимых ссылок в карту сайта для нашего случая приведен на картинке ниже.

      поиск Невидимый интернет

    Еще три примера.

    1. Для ссылки dvfo.nalog.ru/new/2006.htm при помощи одного правила dvfo.nalog.ru/new/200[6,5,9].htm сгенерятся пять ссылок за минусом одной видимой, а именно следующие четыре:

    dvfo.nalog.ru/new/2005.htm
    dvfo.nalog.ru/new/2007.htm
    dvfo.nalog.ru/new/2008.htm
    dvfo.nalog.ru/new/2009.htm

    Такой же результат Вы получите, если напишите dvfo.nalog.ru/new/[2006,2005,2009].htm

    2. Для этой же ссылки: dvfo.nalog.ru/new/2006.htm при помощи другого правила dvfo.nalog.ru/new/2006.[htm;doc;xls;ppt] сгенерятся три ссылки, а именно:

    dvfo.nalog.ru/new/2005.doc
    dvfo.nalog.ru/new/2007.xls
    dvfo.nalog.ru/new/2008.ppt

    Обратите внимание, что в примере 1 для разделения чисел используется знак - ",", а в примере 2 для разделения символов знак - ";".

    3. Для этой же ссылки: dvfo.nalog.ru/new/2006.htm при одновременном применении двух правил dvfo.nalog.ru/new/200[6,5,7].[htm;doc;xls;ppt;htm] сгенерятся двенадцать ссылок за минусом одной видимой, а именно следующие одиннадцать:

    http://dvfo.nalog.ru/new/2005.doc
    http://dvfo.nalog.ru/new/2005.xls
    http://dvfo.nalog.ru/new/2005.ppt
    http://dvfo.nalog.ru/new/2005.htm
    http://dvfo.nalog.ru/new/2006.doc
    http://dvfo.nalog.ru/new/2006.xls
    http://dvfo.nalog.ru/new/2006.ppt
    http://dvfo.nalog.ru/new/2007.doc
    http://dvfo.nalog.ru/new/2007.xls
    http://dvfo.nalog.ru/new/2007.ppt
    http://dvfo.nalog.ru/new/2007.htm


    Сложный пример.
    С более сложным примером и формальными правилами описания окрестности можно ознакомиться на ссылке.

    Проверка.
    Можно предварительно проверить себя на предмет правильного ввода и генерации множества ссылок.
    Для этого выполните   Невидимый интернет    Сервисные функции    Просмотр окрестности  

    Добавить ссылку.
    Можно добавить произвольную ссылку в карту сайта, для того чтобы ввести на ней правила.
    Для этого выполните   Невидимый интернет    Сервисные функции    Добавить ссылку в карту  

    Внимание.
    Очень тщательно отнеситесь к набору правил генерации имен ссылок во встроенном редакторе:
  • помните о синтаксисе и семантике правил,
  • не изменяйте символы в имени ссылки - только добавляйте символы,
  • не рекомендуется пользоваться буфером обмена - набирайте правила прямо с клавиатуры.


  • Ограничение.
    В настоящей версии программы SiteSputnik Invisible для некоторых сайтов (около 5%) возможны погрешности при определении существования ссылок. Для достижения 100% точности на этих сайтах необходимо скачивать все сгенерированные ссылки и анализировать их контент, что существенно замедлит процесс поиска невидимых ссылок.
    up


    Поиск невидимых ссылок в папках открытых и папках, вложенных в открытые папки
    Основное назначение
    Поиск при помощи основных поисковиков папок открытых (доступных любому Пользователю) и нахождение в них невидимых ссылок.

    Существуют два варианта поиска невидимых ссылок в папках открытых: "Применить поисковики" и "Применить Apache и другое".


    Последовательность действий в режиме "Применить поисковики"
    1. Выбираем:   Невидимый интернет    Папки открытые    Применить поисковики    Поиск автоматический  .

    2. На появившейся картинке вводим имя сайта, ресурса или папки, в которых следует осуществить поиск папок открытых (префиксы http:// и www. перед именем сайта не обязателены, кавычки не нужны).

    3. Нажимаем на кнопку  Папка .
    SiteSputnik, используя специальный пакет запросов, отыщит папки открытые, если они существуют, откроет все вложенные в них папки, соберет во всех папках все невидимые ссылки, папки и файлы, сохранит их в списке "Невидимые" и вставит их на свое место в карту сайта.

    Для того, чтобы увидеть как работает робот СайтСпутник''а в автоматическом режиме, попробуйте запустить его для ресурса ФНС: dvfo.nalog.ru. По крайней мере на момент публикации он содержал три открытые папки, видимые из Yahoo.

    В режиме   Поиск интерактивный   все перечисленные для автоматического режима действия SiteSputnik''a могут целенаправлено инициироваться Пользователем.


    Последовательность действий в режиме "Применить Apache и другое".
    1. В карте сайта выбираем список "Папки".

    2. Выбираем:   Невидимый интернет    Папки открытые    Применить Apache и др.   Поиск папок открытых  .
      Это приведет к тому, что SiteSputnik откроет все папки из списка, которые не закрыты, откроет все вложенные в них папки, соберет во всех папках все невидимые ссылки, папки и файлы и сохранит их в списке "Невидимые".

    3.   Включение в карту сайта   найденных невидимых ссылок целесообразно выполнить для того, чтобы они были задействованы в других базовых функциях поиска в невидимом интернете.

    Сложно сказать, сколько сайтов имеют открытые папки, возможно, что 2% сайтов, возможно, меньше.
    up



    Проверка на открытость FTP-доступа к сайту
    Выбираем:   Невидимый интернет    Папки открытые    Применить открытие FTP 
    up


    Поиск невидимых ссылок и папок со стандартными именами с использованием специальных словарей
    Основное назначение
    Поиск ссылок, папок и файлов со стандартными именами на основе заранее подготовленных списков стандартных имен, называемых словарями.

    Предварительные действия
    Формируем словари. Максимальное число словарей - 8. Для этого открываем   Настройки    Параметры    Вкладка Invisible  , выбираем словарь и вводим в него стандартные имена (слова). Можно задействовать до трех словарей под имена папок и до трех словарей под имена ссылок и файлов. Четвертая пара словарей, называемая Словари-Own, создается автоматически перед выполнением "Поиска со словарем" и содержит все имена (слова) из всех ссылок, папок и файлов видимых и невидимых, найденных к настоящему моменту. Например, если в карте сайта есть ссылка: https://sitesputnik.ru/Files/Html/SSComments.htm, то в Own-папки попадут Files и Html, а в Own-файлы SSComments.htm.

    Основные действия
    1. В карте сайта выбираем список "Папки". На базе этого списка осуществляется поиск со словарем, а именно, к каждому элементу видимой из интернета папочной структуры сайта, СайтСпутник присоединит имена (слова) из четырех пар словарей и определит физическое существование получаемых таким образом ссылок, папок и файлов.


    2. В подменю "Золотого ключика" выбираем   Невидимый интернет    Поиск со словарем    Найти папки и файлы  , что приводит к инициированию поиска невидимых ссылок, папок и файлов с использованием словарей. Как отмечалось выше, невидимыми считаются физически существующие ссылки, папки или файлы, которые не содержатся в карте сайта.


    3.   Включение в карту сайта   найденных невидимых ссылок целесообразно выполнить для того, чтобы они были задействованы в других базовых функциях поиска в невидимом интернете.
    up


    Поиск невидимых ссылок при помощи встроенных в сайты внутренних поисков
    В СайтСпутнике можно подключить встроенные в сайты поиски. Они в рамках своего сайта значительно лучше ищут информацию, чем внешние поисковики даже такие гигантские как Google и Яндекс. Соответственно, применение встроенных поисков при наблюдении за сайтами позволяет обнаружить невидимые ссылки.
    up


    Спецзапросы к сайту - дополнение для поиска видимых "Интересных ссылок"
    Это, собственно, является поиском в видимом интернете, но бывает весьма полезно Пользователю.

    Специальный Пакет с параметрами, называемый Интересные ссылки, содержит поиски по "интересным" словам, которые могут находиться в "интересных документах". Примерами таких слов могут служить: Конфиденциально, Секретно, password и многие многие другие, размещенные в документах формата Excel, Word и других. Подробнее на ссылке.

      Невидимый интернет    Спецзапросы к сайту  

    Пользователь может доработать этот Пакет с параметрами под свои потребности самостоятельно или обратиться за помощью к автору программы или на форум СПКР.
    up


    Просмотр и поиск в Комментариях и в скрытой части сайта
    Обращение к функции:
    подменю "Золотого ключика" - Невидимый интернет - Комментарии и скрытое - Показать для всей "Загрузки"" (см. красную стрелочку):

    Невидимый интернет - поиск

    Настройки с вкладки +Invisible таковы:

    Invisible Web

    Обязательные лексемы и запрещённые лексемы перечисляются через знак "точка с запятой".

    Суть функции "Комментарии и скрытое - Показать для всей "Загрузки"" такова. СайтСпутник просмотрит все ссылки из БД "Загрузки", связанные с исследуемым объектом, и составит список, в котором для каждой ссылки будут перечислены комментарии и другие невидимые её фрагменты.

    Зачем это нужно - в Комментариях и скрытом может находиться "интересная" информация от паролей до реквизитов реального хозяина сайта, оставленные, например, программистами или Web-дезайнерами. Много на эту тему не писать не буду, на мой взгляд, такую информацию при работе с объектом обязательно нужно просмотреть.

    Применить эту функцию при исследовании сайта можно следующим образом.

    1. Строим карту сайта (см. зеленую стрелочку на картинке выше).
    2. Запускаем, например, поиск ссылок Спайдером (синяя стрелочка).
    3. Можно примерить другие функции поиска невидимых ссылок из этого меню.
    4. Выполняем для всех найденных видимых и невидимых ссылок "Показать для всей "Загрузки" (красная стрелочка).

    Пример фрагмента выдачи на картинке:

    Невидимый интернет - программа

    На картинке есть ещё две функции просмотра отдельных страниц (смотрите в меню по серой стрелке).
    up



    Поиск всех ссылок, размещенных на ссылке
    Обращение к функции:
    подменю "Золотого ключика" - Невидимый интернет - Сервисные функции - Все ссылки со ссылки":

    Невидимый интернет - поиск

    СайтСпутник выведет в отдельный список адреса всех ссылок, размещенных на заданной Вами ссылке, включая:
    ссылки закомментированные, вспомогательные, скрытые, чужие, ссылки любых форматов данных... Например,
    полезную информацию можно встретить в файлах с расширением .js, которые не покажет Вам ни один браузер.
    up



    Заключительные замечания к поиску в невидимом интернете
  • От Пользователя не требуется никаких специальных знаний: языка HTML, языков запросов и других профессиональных навыков. При помощи мышки он выбирает базовые функции поиска в невидимом интернете и вводит имя исследуемого сайта, ресурса или папки. Остальную работу выполнит SiteSputnik Invisible.
  • Все рассмотренные базовые функции могут применяться в любой последовательности.
  • Включение найденных невидимых ссылок в карту сайта может быть произведено в любое время. Целесообразно это делать сразу по факту их нахождения.
  • Возможно, что повторное применение любой базовой функции после удачного применения другой базовой функции, приведет к нахождению новых невидимых ссылок.
  • Для больших сайтов целесообразно разбить поиск на более "мелкие" поиски по его составным частям, например, aa.bb.ru/xx/yy/01. Для всего сайта можно построить карту только для того, чтобы увидеть эти составные части.
  • Включенные невидимые ссылки, папки и файлы в карте сайта выделяются зеленоватым фоном.

  • * * * К базовым функциям * * *


    Список литературы
    Новое о Приложении FileForFiles & SiteSputnik - на главной странице сайта в колонке "Хроника событий".

    Полный список публикаций по программе: инструкции, очерки, статьи, отзывы, пресс-релизы, обсуждения на нескольких форумах, полевые испытания, - собран на этой странице.

    Скачать программу можно здесь.

    Copyright © 2003-2024 ИП Мыльников Алексей Борисович. Все права защищены. E-mail: 1a@sitesputnik.ru, +7(8442) 73 71 23, +7(905) 3 92 97 92