SiteSputnik. Мастер подключения источников информации:
SiteSputnik. поисковиков, поисковых и других страниц сайтов, RSS-потоков
Дата выхода публикации: 27.01.09г.     
Последнее изменение: 01.02.21г.     


Назначение программы SiteSputnik: автоматизация поиска, сбора и мониторинга информации.
Перейти на главную страницу сайта о программе можно по ссылке - программа Сайт Спутник.



Новая информация от 18.02.15 по подключению Источников при мониторинге новостных потоков.
1. RSS-потоки уже можно не подключать. Достаточно прописать адрес RSS-потока в пакете запросов - смотрите по зелёной стрелочке:

RSS-потоки - подключение


2. Эмуляция RSS-потоков с произвольных страниц уже возможна без применения Мастера. Подробнее на форуме.

3. Новостные Источники можно теперь подключать "оптом" (автоматически и сразу несколько). Подробнее на ссылке Менеджер подключения новостных источников.


Эти новые возможности особенно полезны в SiteSputnik News.

Основные понятия, терминология и сокращения.
ПС - поисковые средства. Это широкоизвестные и малоизвестные поисковики, а также поиски, встроенные в сайты, доски объявлений и другие ресурсы.

ИИ - источники информации. Это ПС, RSS-потоки, произвольные страницы сайтов.

Мастер - мастер подключения новых источников. Это компонента программы SiteSputnik, при помощи которой Пользователь может самостоятельно подключать необходимые ему ИИ для поиска и мониторинга информации.

Сценарий поиска - несколько ИИ, принадлежащих одной группе или теме. Решение о включении нового ИИ в тот или иной сценарий принимает Пользователь.

Метапоиск - одновременный поиск по всем ИИ, принадлежащих одному сценарию, с объединением результатов поиска.

Настройка поиска. Все сценарии поиска хранятся в базе данных с названием "Настройка поиска".

Пакет запросов - несколько совместно выполняемых запросов. Каждый запрос может быть написан на языке запросов конкретного ПС и выполнен на этом и только на этом ПС. Используемые в пакете ИИ могут принадлежать разным сценариям. Результат выполнения пакета запросов не содержит повторяющихся ссылок, найденных разными запросами и разными ИИ.


Назначение Мастера.
Мастер предназначен для подключения произвольных ИИ, за исключением перечисленных в пункте "Ограничения настоящей версии Мастера". Результатом подключения является помещение нового ИИ в один из сценариев поиска. При необходимости один и тотже ИИ можно включить в несколько сценариев.

Подключенные ИИ могут быть задействованны не только в метапоиске и индивидуально, но и в пакетном (процедурном) поиске. К ним, также как и ко встроенным ПС: к Яндексу, Google, Рамблеру, Yahoo, MSN, Mail, Апорту, поиску в блогах Яндекса и Google, - могут быть применены все функциональные возможности программы SiteSputnik за исключением универсального поиска, для которого предвидеть и запрограммировать все особенности всех подключаемых ИИ не представляется возможным.

Алгоритм подключения нового ИИ.
Важные новые дополнения к данной публикации.


Шаг 0. Работа в браузере.

Действия на этом шаге проиллюстрированы на картинке Работа в браузере. В качестве подключаемого ПС взят поиск по "Живому журналу".
  1. 1. Откройте в браузере IE (Internet Explorer) подключаемое ПС. Для русскоязычных ПС задайте один из трех запросов: я, это, сайт. Для сайтов на английском языке попробуйте запросы: to, the, site, 1--. Для сайтов на других языках: 1--.

    Обратите внимание на то, что все буквы в этих стандартных запросах должны быть строчными. Результат выполнения запроса должен быть как минимум двухстраничным. Это требуется для того, чтобы при помощи Мастера можно было определить "место" перехода на следующую страницу и, соответственно, иметь возможность выполнять поиск на глубину нескольких страниц.

    2. При подключении RSS-потока, произвольной страницы сайта или поиска, использующего POST-метод передачи данных, используйте соответствующий URL, не задавая поиск.

  2. Скопируйте в буфер обмена из адресной строки браузера адрес, по которому ПС разместило первую страницу поиска или URL, и перейдите в программу СайтСпутник.

В нашем случае мы применили стандартный запрос я. Он обведен красной окружностью. Полученный при выполнении этого запроса адрес первой страницы поиска (URL) обведен синей линией. Именно его следует скопировать в буфер обмена.

Работа в браузере SiteSputnik



Шаг 1. Открытие первой страницы в SiteSputnik''е.

  1. Откройте программу СайтСпутник, найдите значок , который закреплен за Мастером. В частности, этот значок расположен в пункте "Интернет" главного меню как показано на картинке Вызов Мастера.

    Меню мастера СайтСпутник

    и откройте первую вкладку Мастера.


  2. На первой вкладке Мастера в окно Адрес 1-ой страницы вставьте из буфера обмена его содержимое и нажмите на кнопку "Открыть". При подключении RSS-потока следует нажать правую кнопку мышки на этой кнопке.

    Мастер SiteSputnik

    Если Вы подключаете источник, использующий для поиска POST-метод или произвольную страничку сайта, то увидите картинку, размещенную ниже.
    Для произвольной страницы снимите галочку, обведенную синей окружностью.
    Для поиска через POST-метод установите эту галочку, введите запрос, выберите имя кнопки, по которой начинается поиск, и расстояние от неё поля ввода запроса. Они обведены, соответственно, красной, зеленой и серой линией и имеют значения: "сайт", "Найти" и "1".
    Нажмите правую кнопку мышки на кнопке "Открыть".

    СайтСпутник

    Дождитесь окончания открытия страницы в программе СайтСпутник.

Шаг 2. Распознавание ключевых признаков на странице.

  1. На второй вкладке Мастера распознаются два ключевых признака страницы: признак начала пункта и признак следующей страницы. На расположенной ниже картинке оба распознанных признака обведены красной линией.

    Меню мастера СайтСпутник

      Предусмотрены три варианта распознания указанных признаков.

    1. Автоматически. Для этого нажмите на кнопку "Автоматически" для обоих признаков.
      Рекомендуется перепроверять вручную первый признак для получения более красивой и правильной выдачи.

    2. По подсказке. Здесь предусмотрены два способа.
      Первый способ. Просто кликнете мышкой по первой ссылке пункта (сниппета).
      Второй способ. Выделите мышкой пункт поисковика аналогично тому, как это сделано на картинке, и нажмите на кнопку "По подсказке". Рекомендуется брать не первый и последний пункт, а пункт из середины.

      По подсказке SiteSputnik

      Для распознавания признака следующей страницы выделите мышкой  2   или следующий аналогично тому, как это сделано на картинке, и нажмите на кнопку "По подсказке".

      По подсказке СайтСпутник

    3. Вручную. Нажмите на кнопку "Вручную". Откроется HTML-код 1-ой страницы подключаемого источника. Найдите в нем признак начала пункта поисковика и, используя буфер обмена, занесите его в окно Признак начала пункта поисковика. Аналогично можно поступить и с признаком следующей страницы. Данный вариант ориентирован на Пользователей знакомых с HTML, но при желании в его особенностях могут разобраться и неподготовленные Пользователи.

    4. Особый случай
      Для сайтов, для которых переход к следующей странице осуществляется при помощи прокрутки окна браузера вниз, например, для Твиттера, в качестве признака следующей страницы указывайте: >прокрутка<.

    Важно.
    1. Во всех случаях обязательно проверьте на совпадение c реальными числами "вычисленные" количество пунктов на странице и количество мест перехода на следующую страницу. Для этого воспользуйтесь кнопками "№", расположенными на второй вкладке .
    2. Рекомендуется сначала попытаться распознать оба признака вторым способом - "По подсказке". Он, с одной стороны, точнее первого способа, с другой стороны, проще третьего.


Шаг 3. Общие параметры и проверка работоспособности ИИ "на лету".

    Перейдите к третьей вкладке.
    Введите свои значения общих параметров и проверьте "на лету" работоспособность подключаемого ИИ:

    Меню мастера 3 SiteSputnik

    Назначение параметров следующее
    1. Уникальное название ИИ используется для того, чтобы при формировании запроса иметь возможность прописывать его выполнение именно на этом ИИ. Уникальность следует соблюдать в рамках сценария. Обращение к этому параметру при формировании запросов автоматизировано.
    2. Максимальная глубина поиска в страницах - это то количество страниц, на которое ведется поиск при выполнении запросов на данном ИИ.
    3. Номер главной ссылки в сниппете. Обычно главной является первая ссылка. На ней размещена искомая информация. Допустимые значения от 0 до 127.
    4. Использовать в сценарии. Если значение этого параметра равно "Нет", то данный ИИ не будет по умолчанию задействован в метапоиске.
    5. Только текстовая выдача. Если значение этого параметра равно "Нет", то выдача источника будет содержать мультимедийные элементы. В настоящей версии программы SiteSputnik выдача является только текстовой.

    Проверка работоспособности "На лету".
    После нажатия на кнопку "Проветить работоспособность подключаемого ИИ "На лету"" появится картинка:

      Запрос СайтСпутник

      Введите на ней ключевые слова или любой запрос на языке запросов подключаемого ПС (если таковой имеется) и нажмите на кнопку "Поиск". В нашем случае мы ввели запрос "газовый конфликт Россия Украина".

      Важно.
      Рекомендуется проконтролировать результаты выдачи подключаемого ИИ на предмет его соответствия с выдачей, выдаваемой им в Вашем любимиом браузере. Возможно, что Вы или SiteSputnik неверно распознали признаки начала пункта и места перехода на следующую страницу. Если соответствие не достигнуто, то вернитесь на предыдущий шаг (на вкладку 2) и более тщательно повторите процедуру распознавания одного или обоих признаков.

      Результат проверки "на лету" для нашего случая представлен на размещенной ниже картинке:

      Проверка на лету SiteSputnik


Шаг 4. Регистрация ИИ в сценарии и проверка работоспособности сценария "на лету".

Это последний шаг подключения нового ИИ. Он выполняется на четвертой вкладке.

  1. Подключаемый ИИ можно зарегистрировать "В новом сценарии" или "В существующем сценарии":

    Меню мастера 4 SiteSputnik

    1. Для подключения ИИ в новый сценарий введите его уникальное имя и нажмите кнопку "Зарегистрировать". Не должно быть двух сценариев с одним именем, в противном случае, второй сценарий будет недоступен.

    2. Для подключения ИИ в существующий сценарий нажмите на кнопку "Открыть список и выбрать сценарий". На появившейся картинке:

    Настройка поиска СайтСпутник

    выберите нужный Вам сценарий в верхней таблице и нажмите на кнопку "Зарегистрировать в выбранном сценарии". В нашем случае мы выбрали сценарий с именем "Порталы" (обведен линией синего цвета), в котором уже был поиск по Narod.ru и Wikipedia.org (смотрите в нижней таблице). Поиск по Livejournal.com, названный нами ЖЖ, поместился вслед на ними. Изменить порядок ИИ в сценарии можно посредством перетаскивания строк нижней таблицы при помощи мышки.

  2. Можно (но далеко не обязательно) сразу "на лету" проверить работоспособность всего сценария. Для этого нажмите на самую нижнюю кнопку на картинке Регистрация в сценарии и в появившемся окне:

    Проверка сценария СайтСпутник

    введите запрос, например, "гастарбайтеры в Москве", после выполнения которого, получаем результат:

    Объединение СайтСпутник

    Одна из множества страничек, а именно, первая, на основе которых формируется результат, приведена на картинке:

    Narod СайтСпутник

    С остальными страничками Вы, при необходимости, можете ознакомиться в любое время - они автоматически сохраняются в базе данных программы СайтСпутник. Доступ к этим страничкам через нижнюю таблицу.

На этом работа Мастера окончена. О способах применения подключенных ИИ смотрите в следующем пункте.

Способы применения подключенных ИИ.
Подключенные при помощи Мастера новые ИИ на равных правах со встроенными (Яндекс, Google, Рамблер, Yahoo, MSN, Mail, Апорт, поиск в блогах Яндекса и Google) могут быть задействованы во всех функциях программы SiteSputnik за исключением универсального поиска. То есть, все, что написано в приведенном ниже списке литературы, за исключением публикации об Универсальном поиске, применимо для подключаемых новых ИИ.

В настоящей публикации уместно коротко остановиться на четырех способах обращения к ИИ.
  1. Индивидуальное обращение.
  2. Метапоиск.
  3. Пакет запросов.
  4. Универсальный поиск - не применяется.
  5. Мониторинг ИИ.
Нажимаем на иконку "Золотой ключик", расположенную на верхней инструментальной панели программы SiteSputnik. Вводим запрос, например, "экономическая ситуация в России". Наводим курсор на кнопку, обведенную черной линией, и получаем доступ к меню, которое предназначенно для выбора одного ИИ или нескольких ИИ. Это меню в правой трети картинки:

Меню СайтСпутник

i. Индивидуальное обращение.
Нажимаем на пункт меню, обведенный красной линией, получаем индивидуальное обращение к поиску по LiveJournal.com:

Индивидуальный поиск SiteSputnik

Серой линией обведена конструкция, указывающая на то, что запрос должен быть выполнен только на LiveJournal.com. При необходимости, эта конструкция может быть набрана вручную.

ii. Метапоиск.
Нажимаем на пункт меню, обведенный синей линией, получаем обращение к метапоиску - поиску по всему сценарию "Порталы":

Метапоиск SiteSputnik

Серой линией обведена конструкция, указывающая на то, что запрос должен быть выполнен по всему сценарию "Порталы", а именно: по Narod.ru на глубину 3 страницы, по Wikipedia.org на глубину 3 страницы и по LiveJournal.com на глубину 3 страницы. При необходимости, эта конструкция может быть набрана вручную. Вследствие того, что для данного сценария применяется тип мониторинга "По ссылке", все повторно найденные ссылки будут удалены.

iii. Пакет запросов.
Для полного и точного поиска в программе SiteSputnik имеется следующее.
  • Мастер подключения ИИ, позволяющий подключать конкретные, востребованные при решении поставленной задачи ИИ и формировать на их основе сценарии поиска.
  • Пакет запросов, позволяющий совместно выполнить несколько запросов, каждый из которых может быть написан на языке запросов конкретного ИИ и выполнен на этом и только на этом ИИ. ИИ, применяемые в пакете, могут принадлежать разным сценариям. Тексты запросов в конкретном пакете могут быть самые разнообразные - это не есть фиксированная фраза.


  • Демонстрационный пример подобного пакета приведен на расположенной ниже картинке. Пояснения размещены прямо в тексте пакета. Для этого использованы комментарии. Комментарием в СайтСпуник''е считается тот текст, который расположен правее символов ^^.

    Полный и точный поиск SiteSputnik

    v. Мониторинг ИИ.
    Включает в себя поиск новых ссылок, их скачивание, выделение значимого контента, составление полнотекстовой новостной ленты, удаление контента с одинаковым содержанием, рубрикацию. Подробнее в нескольких публикациях и на форумах, ссылки на которые имеются в списке литературы.

    Важное замечание.
    Рассмотренный в данной публикации Мастер является важным дополнением к пакету запросов.
    Вместе с пакетом он обеспечивает полноту и точность поиска и мониторинга информации.
    Полнота достигается возможностью формирования нескольких запросов к нескольким нужным источникам.
    Точность - подбором источников и тем, что каждый запрос может быть выполнен на том и только на том источнике, на языке запросов которого он написан.
    При мониторинге точность также обеспечивается возможностью рубрикации потока информации, получаемой из источников.

    Ограничения настоящей версии Мастера.
    1. Максимальное количество ИИ в сценарии - 100. Поэтому, если требуется осуществить поиск или мониторинг более, чем по 100 источникам, то придется создать более одного сценария и применить пакет для их совместного выполнения. Можно обратиться к автору программы и запросить увеличение указанной цифры.
    2. Абсолютно всё источники по абсолютно всем параметрам подключить невозможно, но для практической работы возможностей Мастера вполне достаточно.

    Список литературы.
    Приложение FileForFiles & SiteSputnik хорошо документировано. Полный список публикаций по программе: инструкции, очерки, статьи, отзывы, пресс-релизы, обсуждения на нескольких форумах, полевые испытания, - собран на этой странице.

    О сотрудничестве.
    Ваши предложения по развитию программы можно обсудить с автором.
    Пишите по этому электронному адресу.
    Скачать программу можно здесь.

    Copyright © 2003-2024 ИП Мыльников Алексей Борисович. Все права защищены. E-mail: 1a@sitesputnik.ru, +7(8442) 73 71 23, +7(905) 3 92 97 92