SiteSputnik WebSpider. Мониторинг изменений на сайтах:
SiteSputnik WebSpider. отслеживание обновлений по запросу
Автор
Алексей Мыльников
Дата выхода публикации - 23.07.12г.     
Последнее изменение - 06.10.15г.     

Данная публикация является инструкцией по применению программы SiteSputnik WebSpider - нового варианта комплектации программы SiteSputnik.

Рекомендуется ознакомиться с введением в SiteSputnik WebSpider.

Назначение программы SiteSputnik WebSpider и терминология

Программа SiteSputnik WebSpider следит за обновлениями уже существующих страниц, а именно, за появлением на них новой информации, удовлетворяющей запросу, заданному Пользователем. В этом ее отличие от варианта SiteSputnik News, предназначенного для мониторинга потока новых страниц. Желательно, чтобы Вы уже были знакомы с SiteSputnik News.

Пост-запрос - это критерий, которому должны удовлетворять фрагменты новой информации на страницах.
Язык, на котором формулируется критерий, чем-то похож на язык запросов Яндекса.

Под мониторингом будем понимать весь процесс обработки информации, а именно: скачивание и сохранение веб-страниц, сравнение их контента с предыдущим состоянием, выделение фрагментов новой информации и проверка удовлетворения их контентов Пост-запросу.

Сразу отмечу, что Пост-запросов к одному фрагменту может быть несколько и результаты каждого Пост-запроса выгружаются в разные файлы.

Если попадается новая ссылка, то фрагментом становится весь её контент.



Описание демонстрационной задачи

Возможности WebSpider(а) продемонстрируем на наглядном примере. Настроим СайтСпутник на слежку за собой и за автором программы.

Для этого Пост-запросу поручим проверять наличие слов "СайтСпутник", "SiteSputnuk" и стоящих рядом слов "Алексей" и "Мыльников" в обновлениях страниц из нескольких источников.

В качестве таких источников возьмем сайты, живые журналы, RSS-потоки или поисковые страницы с ресурсов Бориса Воронцова, Александра Кузина, Елены Лариной, Алексея Мыльникова, Игоря Нежданова, Дмитрия Петряшова, Романа Ромачёва, Евгения Ющука, а также обновившиеся темы форума СПКР и первую поисковую страницу Яндекса по запросу "SiteSputnik".



Решение демонстрационной задачи

Последовательность действий Пользователя такова.
  1. Создаем Ящик (папку), например, с именем "О СайтСпутнике".

    Это простая, хорошо известная Пользователям программы процедура.
    Она выполняется следующим образом:

      - на вкладке "Проекты" (она в нижнем левом углу) выбираем Ящик,
      - выбираем в главном меню пункт "Ящик - Создать новый Ящик...",
      - в появившемся окне вводим его имя "О СайтСпутнике",
      - нажимаем на кнопку "Создать".


  2. Определяем Пост-запрос.

    Выбираем в главном меню пункт: "Настройки - Параметры - вкладка +WebSpider".
    В поле "Пост-запрос" (смотрите синюю стрелку на картинке ниже) определяем критерий, которому должны удовлетворять изменения на сайтах.

    Мониторинг изменений

    Как уже пояснялось выше, заданный на картинке Пост-запрос буквально означает следующее. Нас будут интересовать изменения на сайтах, которые мы выше назвали фрагменты новой информации, в которых упомянуты слова "СайтСпутник", или "SiteSputnik", или двух слов: "Алексей" и "Мыльников", стоящих рядом. В выдачу попадут те и только те новые фрагменты, которые удовлетворяют Пост-запросу.

    Описание всех параметров с этой картинки приведено ниже.

    Важное замечание.
    Пост-запросов может быть несколько, а именно: любые Рубрики, прописанные в Проекте, - это отдельные Пост-запросы. Смотрите на картинке ниже на коричневую стрелочку, указывающую на две дополнительные Рубрики, задействованные в Проекте.


  3. Прописываем в Проекте список интересующих Вас источников: сайтов, страниц, RSS-потоков, поисков.

    Это делается один раз при формировании Проекта. При необходимости, Проект может быть отредактирован.

    Нажмите на иконку "Золотой ключик", затем на кнопку "Пакет", в открывшемся окне введите адреса источников и глубину проникновения WebSpider(а) для каждого из них. Окно показано на картинке ниже.

    Мониторинг изменений

    Пояснения.
    В 1-ом столбце прописываются адреса сайтов, ресурсов, страниц, RSS-потоков или поисков.
    Во 2-ом - WebSpider (паук), который, собственно, указывает на способ поиска ссылок.
    В 3-ем - глубина поиска (глубина проникновения WebSpider(а)).
    В 4-ом - можно ввести комментарии. Ознакомьтесь с ними, я не буду здесь дублировать написанное в комментариях.

    В качестве адреса страницы можно, в частности, указать обращение к поисковой странице. Смотрите последний 10-ый адрес. Для него глубину проникновения паука мы установили равной 1. Это означает, что мониторинг будет проводиться не только над самой поисковой страницей, но и над ссылками размещенными на ней. Чтобы не мониторить ненужные ссылки, которые присутствуют на поисковой странице, применим фильтр. На первой картинке на него указывает серая стрелка. Фильтр содержит три лексемы: yandex.net, yandex.ru, &sign=. Адреса ссылок, содержащие эти лексемы, будут игнорироваться.

    Локальные фильтры.

    1. В предыдущем абзаце были упомянуты глобальные для Проекта фильтры. Они задаются на вкладке +WebSpider.
      Можно применить и локальные, относящие только к конкретному источнику фильтры. Например, если последний 10-ый источник записать так:

      отслеживание обновлений и изменений сайтов

      то это будет означать, что в ссылках c источника http://yandex.ru/yandsearch?text=sitesputnik должна быть хотя бы одна лексема: .ru или sputnik и не должно быть лексемы allsoft. К другим 9-ти источникам Проекта этот фильтр не применяется.


    2. Параметр "Использовать "Настройка сайтов" для определения параметров", также можно применить для локальной настройки. Он рассмотрен ниже.


    На картинке выше зеленая стрелка указывает на момент выбора одного из трех стандартных вариантов WebSpider(а). Затем, при необходимости, в колонке Стр. Пользователь самостоятельно может прописать любую глубину поиска (проникновения WebSpider(а)).
    Наибольшее практическое значение имеют первые два варианта:
      0 - слежение за контентом только самой ссылки;
      1 - слежение за контентами самой ссылки и ссылок, размещенных на ней.


  4. Оператор ^^WebSpider;.

    Последнее действие при формировании Проекта: прописываем в его тексте оператор ^^WebSpider; - смотрите по красной стрелочке на картинке выше.

    Если не сделать этого, то выполнится только "половина" Проекта, а именно, найдутся только все ссылки, которые должны попасть на мониторинг и всё. Скачивание, сравнение, выделение новых фрагментов, их анализ произойдут только, если прописан оператор ^^WebSpider;. Он доступен только в варианте комплектации SiteSputnik News+Webspider и выше.



  5. Выполняем мониторинг.

    Для этого нажимаем на кнопку "Совместно".

    Первое выполнение Проекта - это создание базы страниц, относительно которой будет проводиться мониторинг при следующих выполнениях.
    Выдача при первом выполнении будет совпадать с выдачей SiteSputnik News, так как новые фрагменты - это сами страницы.

    Если ссылка исчезнет, а потом вновь появится, то мониторинг будет проводиться относительно её последнего состояния.
    Все состояния всех ссылок доступны на вкладке "Загрузки".

    Замечание.
    После каждого редактирования Проекта не забывайте сохранить в Библиотеке его новый текст, если это необходимо.
    Для этого воспользуйтесь кнопкой "Сохранение".
    Если Вы забыли сделать это или в любом другом случае, текст Проекта можно найти в первой строке нижней таблички. Строка называется "Проект исполняемый".




Глобальные настройки, вкладка +WebSpider
Продублируем картинку с вкладкой +WebSpider и подробно опишем каждый параметр, размещённый на ней:

Мониторинг изменений на сайте

Фильтры для адресов ссылок.

  • Учитывать ссылки только с исследуемых ресурсов или сайтов:
      Если ссылка ведет на другой ресурс или сайт, то она игнорируется.

  • Учитывать только адреса ссылок, содержащие лексемы:
      Лексемы перечисляются через точку с запятой.
      Не содержащие ни одной лексемы ссылки игнорируются.

  • Не учитывать адреса ссылок, содержащие лексемы:
      Лексемы перечисляются через точку с запятой.
      Содержащие хотя бы одну лексему ссылки игнорируются.

  • Фильтры для контентов фрагментов.

  • Не учитывать фрагменты новой информации, содержащие фразы:
      Фразы перечисляются через точку с запятой.
      Если хотя бы одна фраза встречается в контенте фрагмента, то он игнорируется.
      Это фильтр грубой очистки.
      Практика показала, что такой фильтр удобен, хотя эти фразы можно указать и в Пост-запросе, поставив перед ними знак ~ (логическоe "Нет").

  • Не учитывать во фрагментах новую информацию после фраз:
      Явное отсечение хвоста фрагмента.
      Фразы перечисляются через точку с запятой.
      Отсечение производится по самой ближней к началу фрагмента фразе.

  • Не учитывать во фрагментах новую информацию до фраз:
      Явное отсечение головы фрагмента.
      Фразы перечисляются через точку с запятой.
      Отсечение производится по самой дальней от начала фрагмента фразе.

  • Применить "Пост-запрос" (встроенная рубрика):
      Специальная рабочая Рубрика - фильтр тонкой очистки. Применимы все правила попадания в Рубрики.

  • Включить экспорт в клиентские папки и адреса:
      Это локальные папки компьютера, папки локальной сети, папки сайта или e-мейлы, по которым отправляется содержимое Пост-запроса.
      Каждая клиентская папка записывается в отдельной строке.

  • Максимальное количество уникальных ссылок, обрабатываемых пауком (от 1 до 10000)
      На картинке установлено число 1000, соответственно, "добравшисть" до 1000 ссылки, паук прекращает поиски ссылок для мониторинга.

  • Выделять значимый контент ссылки, используемый для мониторинга
      Если галочка не установлена, то вся ссылка, а не только её значимый контент, отправляется на выделение новых фрагментов и на дальнейшую обработку.

  • Использовать "Настройка сайтов" для определения параметров
      В Ящике "Настройка сайтов", который вложен в "Настройка поиска", можно индивидуально для каждого конкретного сайта прописать большинство перечисленных выше параметров.
      Применяйте эту возможность в случае возникновения такой необходимости.


  • Дополнительные замечания
  • Предложенная технология достаточно проста в применение. В частности, она позволяет Пользователю, не прибегая к анализу html-кода ссылки, получать хорошие результаты, практически без мусора, за счет прохождения найденных фрагментов новой информации через фильтр тонкой очистки - Пост-запрос. Мусор автоматически отсеивается Пост-запросом, а не посредством указания Пользователем от каких HTML-тегов до каких HTML-тегов находятся интересующие его изменения на страницах. Например, в нашем и в подавляющем большинстве случаев, изменения на сайтах времени, дат, счетчиков, обновления рекламы будут автоматически отфильтрованы Пост-запросом и не попадут в выдачу.

  • Также автоматически находятся и ставятся на мониторинг новые ссылки, которые появляются в исследуемых источниках.

  • Важная информация.
      В Проекте можно прописать одну или несколько Рубрик. Каждая Рубрика может содержать вложенные Рубрики. Любая Рубрика - суть Пост-запрос, определяющий критерий попадания в Рубрику новых фрагментов. На второй картинке коричневая стрелка показывает где и как прописываются Рубрики.
      Рубрики из SiteSputnik WebSpider и SiteSputnik News абсолютно эквивалентны: в обоих вариантах программы могут быть применены одни и те же Рубрики. Соответственно, в SiteSputnik WebSpider можно задействовать несколько сложных древовидных структур Рубрик (задать очень много разнообразных Пост-запросов к нескольким источникам), а в SiteSputnik News теперь можно применить дополнительно один Пост-запрос с вкладки +WebSpider.


  • Обсуждение SiteSputnik WebSpider
    Обсуждение данной темы открыто на форуме СПКР.

    Подробнее о программе FileForFiles & Site Sputnik (Сайт Спутник).
    Полный список публикаций о программе собран на странице.
    Скачать демоверсию программы можно здесь.

    Copyright © Автор ИП Мыльников Алексей Борисович, г. Волгоград, 2018г. Все права защищены.