SiteSputnik. Как наиболее полно скачать содержание
SiteSputnik. сайта, ресурса или веб-папки.
Дата выхода публикации: 27.01.10г.     


Назначение программы SiteSputnik: автоматизация поиска, сбора и мониторинга информации.
Перейти на главную страницу сайта о программе можно по ссылке - программа Сайт Спутник.



Технические условия.
Рассматриваемые в настоящей публикации новые возможности программы FileForFiles & SiteSputnik доступны в версии 6.1.3 и младше.

Скачать ознакомительную версию программы можно отсюда. Если программа у Вас уже установлена, то обновить версию Вы можете из главного меню программы следующим образом: "? | Проверить наличие обновлений".

Основные понятия и терминология.
Основные поисковики. К ним отнесем Яндекс, Google, Yahoo, MSN (Bing) и AltaVista.

Видимый интернет - это проиндексированные хотя бы одним основным поисковиком ссылки. Другими словами, информация, размещенная на видимых ссылках, может быть найдена при помощи хотя бы одного поисковика.

Невидимый интернет (глубокий веб) - это ссылки, непроиндексированные ни одним из основных поисковиков. Соответственно, не существует такого запроса, при помощи которого можно найти информацию, размещенную на невидимой ссылке.

Веб-карта или просто карта - упорядоченная иерархическая структура сайта, ресурса или папки, составленная на основе найденных в интернете ссылок.


Назначение, цели.
В данной публикации рассматривается подход, при помощи которого можно более полно, чем это делают другие программы, собрать, а затем скачать принадлежащие сайту, ресурсу или веб-папке (далее просто сайту) ссылки, другими словами, рассматриваемый подход предназначен для более полного скачивания содержания сайта.

Суть подхода.
Суть подхода такова: на первом шаге собираются видимые из интернета ссылки; на втором, "отталкиваясь" от видимых ссылок, ищутся невидимые; на третьем эти ссылки скачиваются в отдельную папку.

Рассмотрим особенности каждого шага и объясним, почему предлагаемый подход позволяет более полно скачать содержание сайта.

Шаг 1. Сбор видимых ссылок.

Для поиска принадлежащих сайту видимых ссылок используется вся "собирательная" мощь программы СайтСпутник, а именно, выполняются десятки специальных запросов на основных поисковиках: Yahoo, Google, Яндекс, Bing, Altavista. Повторно найденные ссылки отбрасываются, а уникальные ссылки помещаются в специальный список "Объединение". Для наглядности на основе уникальных ссылок строится упорядоченная иерархическая структура, называемая веб-картой сайта.

Последовательность действий пользователя при построении карты сайта подробно описана здесь.

Первое преимущество рассматриваемого подхода.
В основном, программы скачивающие содержание сайта, запускают спайдера (паука) только с главной страницы сайта. Очевидно следующее: если запустить спайдер с каждой ссылки из списка "Объединение", то количество собранных с его помощью уникальных ссылок будет не меньше, чем при его запуске только с главной страницы сайта, принадлежащей этому списку.


Шаг 2. Поиск невидимых ссылок.

Поиск принадлежащих сайту невидимых ссылок осуществляется при помощи следующих базовых функций:
  • Поиск невидимых ссылок при помощи спайдера (паука).
  • Поиск невидимых ссылок в окрестности видимой ссылки или папки по "образу и подобию".
  • Поиск невидимых ссылок и папок со стандартными именами с использованием специальных словарей.
  • Поиск невидимых ссылок в папках открытых и папках, вложенных в открытые папки.


  • Способ применения базовых функций и
    последовательность действий пользователя при поиске невидимых ссылок подробно описаны здесь.

    Для того, чтобы не "мешать" другим программам работать со скачиваемый сайтом, можно в "Настройки - Параметры - Вкладка Invisible" установить "Базовое время задержки между открытием страниц сайта (от 0 до 100 сек.)".


    Второе преимущество рассматриваемого подхода.
  • Найденные новые ссылки сами по себе увеличивают полноту скачивания содержания сайта.
  • Применяется не только спайдер, но и еще три функции для поиска ссылок.
  • Упомянутые первые три функции поиска в невидимом интернете можно применять в любом порядке и любое количество раз до тех пор, пока перестанут находиться новые невидимые ссылки. Например, если Вы обнаружили при помощи поиска со словарем ссылку "http://www.site.ru/files/href01.htm", то запуск с нее поиска при помощи паука может привести к нахождению новых ссылок и папок. В свою очередь, в новой папке может быть найдена новая ссылка при помощи поиска со словарем.


  • Шаг 3. Собственно скачивание сайта.

    Найденные видимые и невидимые ссылки могут быть скачаны в отдельную папку следующими тремя способами.
    1. Если Вы запускали спайдер последним, то содержание сайта уже скачано. Подкачайте офисные и другие не html-документы.
    2. При помощи встроенного браузера (работает существенно медленнее спайдера).
    3. При помощи любой внешней специальной программы, на вход которой подается список найденных ссылок.

    Заключительные замечания.
    1. Очевидно, что описанный подход скачивания содержания сайта является не менее полным, чем другие подходы, в основном, использующие только применение паука, стартующего с главной страницы сайта.


    2. Данный сервис обеспечивает достаточно полный сбор принадлежащих сайту ссылок, продолжая развитие программы SiteSputnik в направлении: "Найти все и с гарантией".


    3. Для дальнейшей обработки скачанного содержания сайта, размещенного в отдельной папке на локальном диске, целесообразно использовать специальное программное обеспечение.

    Список литературы.
    Приложение FileForFiles & SiteSputnik хорошо документировано. Полный список публикаций по программе: инструкции, очерки, статьи, отзывы, пресс-релизы, обсуждения на нескольких форумах, полевые испытания, - собран на этой странице.

    О сотрудничестве.
    Ваши предложения по развитию программы можно обсудить с автором.
    Пишите по этому электронному адресу.
    Скачать программу можно здесь.

    Copyright © 2003-2024 ИП Мыльников Алексей Борисович. Все права защищены. E-mail: 1a@sitesputnik.ru, +7(8442) 73 71 23, +7(905) 3 92 97 92