SiteSputnik Station. Создание сети коллективного сбора,
SiteSputnik Station. мониторинга и анализа информации
Автор
Алексей Мыльников
Дата выхода публикации - 17.10.11г.     
Последнее изменение - 20.10.15г.     



В версию 7.3.1 от 17.10.11 программы SiteSputnik News добавлен новый вариант комплектации программы, название которого SiteSputnik Station.

Функциональное назначение и организация работы SiteSputnik Station.
SiteSputnik Station предназначен для следующего.
  • Создание корпоративной или профессиональной сети для коллективной обработки информации. Участниками и создателями такой сети являются сотрудники корпорации, члены профессионального сообщества или группы по интересам. Географическое расположение участников не имеет значение. Далее участников будем называть клиентами.

  • Распараллеливание процессов обработки информации. Это увеличивает производительность и надежность, позволяет выполнить работу на одну заданную тему с использованием нескольких компьютеров.

Организация сети и параллельной работы.
  • Установка программы SiteSputnik Station на компьютерах нескольких клиентов.

  • Выделение в корпоративной сети или глобальной сети Интернета общедоступного пространства (папок в локальной сети или папок на сайте).

  • Настройка клиентских экземпляров программы SiteSputnik Station на обмен информацией через выделенное общедоступное пространство.

Под обработкой информации понимается следующее.
  • Сбор информации. Он осуществляется посредством применения нужных источников, а именно: а) встроенных в сайты поисков; б) RSS-потоков; в) произвольных страниц сайтов, на которых периодически появляется новая информация (эмуляция RSS-потоков). Это, своего рода, фильтр грубой очистки: из огромного информационного потока Интернета формируется составляющая, в которой должна быть нужная информация.

  • Мониторинг: а) выделение новых ссылок из информационного потока; б) выделение значимого контента каждой ссылки (очистка её от окружающего мусора); в) удаление неоднократно повторяющегося контента; г) удаление контента, который присутствовал в предыдущих потоках (уже был получен ранее в предыдущих поисках на заданную тему). Этот процесс можно рассматривать как процесс «промежуточной» очистки информационного потока от ненужной информации, а сам полученный поток будем называть Чистым потоком.

  • Анализ Чистых потоков – выделение из них нужной информации (фильтр тонкой очистки). На этом этапе данные из сформированных Чистых потоков раскладываются по тематическим Рубрикам согласно специальным Правилам попадания информации в Рубрику.

  • Обмен Чистыми потоками между клиентами осуществляется через общедоступное пространство, анализ своих и чужих Чистых потоков происходит на компьютере конкретного клиента.
Цель данного способа обработки информации – совместить четыре трудносовместимые вещи, а именно: полноту, точность, оперативность и надёжность процесса сбора, мониторинга и анализа информации.

Настройки клиентских экземпляров программы SiteSputnik Station.
Способ обмена потоками.
Открыв из главного меню программы «Параметры – Настройки - Вкладку Station», можно увидеть приведенную ниже картинку:

сеть, соцсеть, социальная сеть

  • Переключатель ”Включить экспорт потоков в прописанные ниже клиентские папки и адреса” – включает или отключает экспорт Чистых потоков в клиентские папки (КП), которые прописываются в окне, размещённом сразу под этим переключателем. На картинке прописаны четыре КП: первая в локальной сети корпорации, вторая папка на Рабочем столе компьютера клиента, третья и четвертая – на корпоративном сайте sitesputnik.ru.
    Именно во все эти четыре папки будут экспортироваться все Чистые потоки, формируемые на данном компьютере.

  • Переключатель ”Включить импорт потоков из прописанных ниже клиентских папок и адресов” – включает или отключает импорт Чистых потоков из КП, прописанных в окне, размещённом сразу под этим переключателем. На картинке прописаны три КП: две первые на корпоративном сайте sitesputnik.ru, третья в папке на Рабочем столе компьютера клиента.
    Именно из всех этих трёх папок будут импортироваться сформированные на чужих компьютерах и переданные в эти папки Чистые потоки.

  • Количество КП - теоретически не ограничено.
    Количество компьютеров - теоретически не ограничено.

    Важно.
    В КП экспортируются, а из КП импортируются не Рубрики, а Чистые потоки.
    На формирование Чистых потоков ориентировочно затрачивается около 90% времени и других потребляемых ресурсов.

  • Следующий параметр – переключатель ”Раздельный учёт импортируемых потоков для каждого Проекта и Ящика”. Если галочка установлена, то каждый импортируемый Чистый поток будет использован по одному разу для каждого Проекта и Ящика. Отсутствие галочки означает, что каждый Чистый поток на компьютере клиента будет использован только один раз - при первом выполнении любого Проекта. Опрос на наличие ещё не использованных Чистых потоков происходит на заключительной стадии выполнения каждого Проекта - после формирования своего Чистого потока.

  • Следующий параметр – ”Максимальный размер базы данных импортируемых потоков”. Он устанавливается в диапазоне от 10 до 1000 потоков. Это чисто технический параметр. Он предназначен для предотвращения неконтролируемого разрастания базы Чистых потоков и автоматически удаляет самый старый поток из базы, если достигнут её максимальный размер.


  • Применение настоящей реализации SiteSputnik Station.
    Настоящая реализация программы может пригодиться в следующих случаях.
    1. Имея один экземпляр СайтСпутника, на одном компьютере можно «передавать» друг другу Чистые потоки, сформированные разными Проектами. Для этого достаточно в каждом Проекте экспорту и импорту потоков прописать одну и туже папку на локальном диске своего компьютера.

    2. Поиск с нескольких компьютеров на одну заданную тему. Это увеличит скорость обработки информации. Скорость в идеальном случае будет прямо пропорциональна количеству запущенных экземпляров программы СайтСпутник. Задание нужно разбить на N частей, выполнить части отдельно на N компьютерах и получить тот же результат, что и при выполнении одного большого задания на одном компьютере.

    3. Предположим, что на Вашем предприятии в разных подразделениях в корпоративной сети работают N экземпляров программы SiteSputnik. Каждый из них ориентирован на сбор, мониторинг и анализ информации на заданную тему для конкретной группы сотрудников. Для этого на конкретном рабочем месте СайтСпутник использует свои источники информации, свои обращения к ним, свои Рубрики, своё расписание работ. Но вероятность того, что в источниках группы А «проходит» информация, интересующая группу Б, и наоборот, - больше нуля. Поэтому применение СайтСпутника позволит полнее собрать информацию. Точность практически не пострадает.

    4. Устойчивость и надежность обработки информации повышаются, потому что отказ одного СайтСпутника по техническим или другим причинам приводит к некоторому уменьшению количества собранной информации, а не к её полному отсутствию в случае применения одного экземпляра программы.

    5. Применив Планировщик задач, можно организовать работу таким образом, что в СайтСпутник придётся «заглядывать» только тогда, когда требуется сделать какое-либо усовершенствование процесса обработки информации, например, подключить новый источник.

    Обсуждение SiteSputnik Station.
    Обсуждение данной темы открыто на форуме СПКР.

    Подробнее о программе FileForFiles & SiteSputnik.
    Полный список публикаций собран на странице.
    Скачать программу можно здесь.

    Copyright © Автор ИП Мыльников Алексей Борисович, г. Волгоград, 2018г. Все права защищены.