SiteSputnik. сайта, ресурса или веб-папки. |
Назначение программы SiteSputnik: автоматизация поиска, сбора и мониторинга информации.
Перейти на главную страницу сайта о программе можно по ссылке - программа Сайт Спутник.
Технические условия.Рассматриваемые в настоящей публикации новые возможности программы FileForFiles & SiteSputnik доступны в версии 6.1.3 и младше.
Скачать ознакомительную версию программы можно отсюда. Если программа у Вас уже установлена, то обновить версию Вы можете из главного меню программы следующим образом: "? | Проверить наличие обновлений".
Основные понятия и терминология.Основные поисковики. К ним отнесем Яндекс, Google, Yahoo, MSN (Bing) и AltaVista.
Видимый интернет - это проиндексированные хотя бы одним основным поисковиком ссылки. Другими словами, информация, размещенная на видимых ссылках, может быть найдена при помощи хотя бы одного поисковика.
Невидимый интернет (глубокий веб) - это ссылки, непроиндексированные ни одним из основных поисковиков. Соответственно, не существует такого запроса, при помощи которого можно найти информацию, размещенную на невидимой ссылке.
Веб-карта или просто карта - упорядоченная иерархическая структура сайта, ресурса или папки, составленная на основе найденных в интернете ссылок.
Назначение, цели.В данной публикации рассматривается подход, при помощи которого можно более полно, чем это делают другие программы, собрать, а затем скачать принадлежащие сайту, ресурсу или веб-папке (далее просто сайту) ссылки, другими словами, рассматриваемый подход предназначен для более полного скачивания содержания сайта.
Суть подхода.Суть подхода такова: на первом шаге собираются видимые из интернета ссылки; на втором, "отталкиваясь" от видимых ссылок, ищутся невидимые; на третьем эти ссылки скачиваются в отдельную папку.
Рассмотрим особенности каждого шага и объясним, почему предлагаемый подход позволяет более полно скачать содержание сайта.
Шаг 1. Сбор видимых ссылок.
Для поиска принадлежащих сайту видимых ссылок используется вся "собирательная" мощь программы СайтСпутник, а именно, выполняются десятки специальных запросов на основных поисковиках: Yahoo, Google, Яндекс, Bing, Altavista. Повторно найденные ссылки отбрасываются, а уникальные ссылки помещаются в специальный список "Объединение". Для наглядности на основе уникальных ссылок строится упорядоченная иерархическая структура, называемая веб-картой сайта.
Последовательность действий пользователя при построении карты сайта подробно описана здесь.
Первое преимущество рассматриваемого подхода.
В основном, программы скачивающие содержание сайта, запускают спайдера (паука) только с главной страницы сайта. Очевидно следующее: если запустить спайдер с каждой ссылки из списка "Объединение", то количество собранных с его помощью уникальных ссылок будет не меньше, чем при его запуске только с главной страницы сайта, принадлежащей этому списку.
Шаг 2. Поиск невидимых ссылок.
Поиск принадлежащих сайту невидимых ссылок осуществляется при помощи следующих базовых функций:Поиск невидимых ссылок при помощи спайдера (паука). Поиск невидимых ссылок в окрестности видимой ссылки или папки по "образу и подобию". Поиск невидимых ссылок и папок со стандартными именами с использованием специальных словарей. Поиск невидимых ссылок в папках открытых и папках, вложенных в открытые папки.
Способ применения базовых функций и
последовательность действий пользователя при поиске невидимых ссылок подробно описаны здесь.
Для того, чтобы не "мешать" другим программам работать со скачиваемый сайтом, можно в "Настройки - Параметры - Вкладка Invisible" установить "Базовое время задержки между открытием страниц сайта (от 0 до 100 сек.)".
Второе преимущество рассматриваемого подхода.
Найденные новые ссылки сами по себе увеличивают полноту скачивания содержания сайта. Применяется не только спайдер, но и еще три функции для поиска ссылок. Упомянутые первые три функции поиска в невидимом интернете можно применять в любом порядке и любое количество раз до тех пор, пока перестанут находиться новые невидимые ссылки. Например, если Вы обнаружили при помощи поиска со словарем ссылку "http://www.site.ru/files/href01.htm", то запуск с нее поиска при помощи паука может привести к нахождению новых ссылок и папок. В свою очередь, в новой папке может быть найдена новая ссылка при помощи поиска со словарем.
Шаг 3. Собственно скачивание сайта.
Найденные видимые и невидимые ссылки могут быть скачаны в отдельную папку следующими тремя способами.
- Если Вы запускали спайдер последним, то содержание сайта уже скачано. Подкачайте офисные и другие не html-документы.
- При помощи встроенного браузера (работает существенно медленнее спайдера).
- При помощи любой внешней специальной программы, на вход которой подается список найденных ссылок.
Заключительные замечания.
- Очевидно, что описанный подход скачивания содержания сайта является не менее полным, чем другие подходы, в основном, использующие только применение паука, стартующего с главной страницы сайта.
- Данный сервис обеспечивает достаточно полный сбор принадлежащих сайту ссылок, продолжая развитие программы SiteSputnik в направлении: "Найти все и с гарантией".
- Для дальнейшей обработки скачанного содержания сайта, размещенного в отдельной папке на локальном диске, целесообразно использовать специальное программное обеспечение.
Список литературы.Приложение FileForFiles & SiteSputnik хорошо документировано. Полный список публикаций по программе: инструкции, очерки, статьи, отзывы, пресс-релизы, обсуждения на нескольких форумах, полевые испытания, - собран на этой странице.
О сотрудничестве.Ваши предложения по развитию программы можно обсудить с автором.
Пишите по этому электронному адресу.
Скачать программу можно здесь.