SiteSputnik. Рубрики: применение в мониторинге
SiteSputnik. электронных СМИ и новостных источников
Автор
Алексей Мыльников
Дата выхода публикации - 28.07.10г.     
Последнее изменение - 16.05.19г.     



    Важные замечания от 08.04.16

    1. Рекомендуется ознакомиться с динамическими Рубриками, о которых написано на форуме.
    2. Несколько примеров правил попадания информации в Рубрики на ссылке.


О рубриках в программе SiteSputnik
  1. Рубрики могут быть применены при мониторинге СМИ, социальных сетей и других новостных источников в SiteSputnik Pro+News и выше.

  2. Рубрики - это иерархическая структура (тематическое дерево), создаваемая Пользователем под свои задачи.
    Каждый узел и лист этой структуры - отдельная Рубрика.

  3. У каждой Рубрики существует "Правило попадания информации в рубрику".
    Оно может быть сформулировано при создании Рубрики и, при необходимости, отредактировано позднее.

    На картинке ниже приведено простое учебное (демонстрационное) Правило:

    Рубрика. СайтСпутник

    Оно означает следующее.
    В Рубрику с именем Акции будут попадать те ссылки, контенты которых:

    • или содержат словоформы от всех 4-х слов: "накапливать", "покупать", "держать", "акции" и не содержат словоформы от слова "политическая";
    • или содержат словоформы от всех 3-х слов: "котировки", "ценные", "бумаги", причем две последние словоформы расположены рядом;
    • или словоформы от слов Анатолий и Чубайс, находящиеся в тексте на расстоянии не более двух пробелов (одного слова).


  4. Формально "Правила попадания информации в рубрику" (Правила попадания в Рубрику) таковы:

    • 01) каждая строка - набор ключевых слов, которые должны присутствовать в содержании ссылки (логическое "И");

    • 02) таких строк может быть несколько (логическое "ИЛИ");

    • 03) | - явное логическое "ИЛИ": применяется между ключевыми словами, размещенными в одной строке;

    • 04) ~слово - эта конструкция означает, что слово в содержании ссылки не должно присутствовать (логическое "НЕТ");
      если есть несколько ненужных слов, то все они должны быть прописаны со знаком ~ впереди.

        Добавление от 03.05.16

        вместо ~слово может быть ~выражение, содержащее даже скобки, например:

        ~(Алексей /1 (Кудрин | Мыльников)) означает, что ни Кудрина, ни Мыльникова не болжно быть в содержании ссылки.


    • 05)точное 'слово' или 'точная фраза' берутся в одинарные кавычки (двойные кавычки - это значащий символ);

    • 06)максимальное расстояние между словами в пробелах задается после наклонной черты:

      Алексей /2 Мыльников

      /1 - означает, что слова стоят рядом, /0 - находятся в одном слове.

    • 07)Слова в одном предложении:

      Медведев & Дворкович

    • 08)Слова в одном абзаце:

      Медведев && Дворкович

    • 09)звёздочка в конце слова означает, что далее могут следовать любые симвомы (удлиннение справа);

    • 10)восклицательный знак вначале слова означает, что впереди не могут следовать никакие символы (отсечение слева):

      !Омск*

      Например: Омская область - удовлетворяет правилу, а Томская - нет.

    • 11)правило, например: //3 - означает, что в содержании ссылки есть не менее трех слов, содержащих и русские и английские буквы;

    • 12)одноуровневая скобочная структура, например:

      (Ходорковский | Лужков* | Виктор /1 Батурин ) /5 (мошенничество | махинации | хищения | предъявлен* /1 обвинение)

    • 13)многоуровневая скобочная структура, например:

      (Ходорковский | Лужков* | Виктор /1 Батурин ) /5 (мошенничество | махинации | хищения | предъявлен* /1 (обвинение | доказательства))

    • 14)вставка текста из файла, например:

      (Горбунов | Романенко) /5 "Моя папка\Негатив.txt"

      Содержание файла "Негатив.txt" (здесь он размещен в папке "Моя папка", вложенной в корневую папку программы SiteSputnik), может быть таким:

      ( алкаш* | алкоголик*
      | бездарный
      | болтун*
      | демагог*
      | достал*
      | дурилка /1 картонная
      | идиот*
      | козел | козл* | казел | казл*
      | критин*
      | махинации
      | мерзав*
      | мошенник
      | надоел
      | овощ*
      | отмороз*
      | !плох*
      | 'редиска'
      | прихвост*
      | японский /1 городовой
      )


      или таким:

      ( алкаш* | алкоголик* | бездарный | болтун* | демагог* | достал* | дурилка /1 картонная | идиот* | козел | козл* | казел | казл* | критин* | махинации | мерзав* | мошенник | надоел | овощ* | отмороз* | !плох* | 'редиска' | прихвост* | японский /1 городовой )

      Оба содержания эквивалентны, потому что знаки: |, & и ), стоящие в первой позиции строки, кроме своих прямых функций означают, что строка приписывается в конец предыдущей строки (конкатенация строк). Два знака && - конкатенация строк, при этом символы && удаляются из полученной строки. Это улучшает наглядность.

      При помощи файла-вставки можно описывать сущности, события, объекты, действия и другие понятия, а затем применять их в разных Рубриках.

    • 15)inurl: и insource:

      Например, Правило: (inurl:lenta.ru | inurl:comments | insource:blogs) означает, что в Рубрику попадет информация только с сайта lenta.ru, или со ссылки, адрес которой содержит слово comments, или название источника, используемого при сборе информации, содержит слово blogs. Напомню, что название источника прописывается при его подключении в Мастере на третьей вкладке.

    • 16)Регулярные выражения (РВ) берутся в фигурные скобки. РВ бывают и простые, и сложные. Например:

      {Медведев(а|у|е|\s)} - найдет Медведева, Медведеву, Медведеве, Медведев.
      {(В\.Путин.{1,}){12,}} - найдет интервью Путина, а именно, где В.Путин упомянут не менее 12 раз.
      {10[0-1][0-9][0-9][0-9]]} - найдет любое число из диапазона 100000 до 101999.
      {[0-9a-z_\-\.]+@[0-9a-z_\-^\.]+\.[a-z]{2,4}} - это все е-майлы.

      Регулярные выражения - это отдельная тема: подробнее и обсуждение смотрите на форуме СПКР.

    • 17)Внешние функции - это написанные на любом языке программирования программы произвольной обработки контента ссылок.

      Подробнее и обсуждение смотрите в отдельной публикации и на форуме СПКР.

    • 18)Объекты (Объектное мышление) - это поставляемые вместе с программой или созданные Пользователями Правила анализа контента ссылок.

      Объект может быть задан как логическое выражение, сформированное из обычных Правил, из Регулярных выражений, из Внешних функций.
      На картинке ниже показан способ выбора Объекта и Правило, составленное из них:

      Рубрики. СайтСпутник

      Назначение приведенного на картинке Правила, содержащего три объекта следующее: Правилу удовлетворяют те ссылки, в контенте которых имеются и 10-значный номер телефона (любой), и адрес электронной почты (любой), и название Юридического лица (любого), и слова Москва или Московская область. Как видно по картинке, наименованию Объекта предшествует символ %.


  5. Пример структуры Рубрики "Прогнозы", приведен на картинке ниже. Она обведена красной линией.

    Рубрики. СайтСпутник

    Для входящей в ее состав рубрики "Россия" на зеленом фоне подсвечено "Правило попадания информации в Рубрику": если ссылка содержит слова "индекс" и "ММВБ" или "индекс" и "РТС", то ее содержание попадет в эту рубрику. Эквивалентная запись этого Правила: индекс (ММВБ | РТС), более точная запись: индекс /3 (ММВБ | РТС), более правильная запись: индекс & (ММВБ | РТС).

    Подобных структур можно создать любое количество.


  6. (!) Содержание Рубрик может быть отправлено в клиентские папки, а именно: папки локального компьютера, папки локальной сети, по E-mail адресам, в папки сайтов. Примеры клиентских папок приведены на картинке ниже. Подробнее в разделе Клиентские папки для конкретной новостной ленты статьи на тему SiteSputnik News. Основа информационного обеспечения предприятия.

    Клиентские папки. СайтСпутник

  7. Параметр: "Искать только в родительской"

    1) Если в дочерней Рубрике для параметра "Искать только в родительской" установлена галочка, то Рубрика будет иметь дело только с той информацией, которая попала в родительскую Рубрику.
    2) Если у такой дочки, есть такая же дочка, то она будет иметь дело только с той информацией, которая останется у мамы от бабушки.
    3) Если Рубрика не имеет галочки в параметре "Искать только в родительской", то независимо от того, на какой глубине она расположена, а также есть или нет галочки у её родителя или прародителя, она будет "имеет дело" со всей собранной информацией.
    4) Не ставьте галочку в Главных Рубриках Проекта (в самых старших Рубриках Проекта) - в этом случае они будут всегда пустыми, так как не имеют родителя и, соответственно, нет информации для рубрикации.


  8. Специальная Рубрика: "Ящик остальные"

    Для того, чтобы получить новостную ленту из ссылок, которые попали в родительскую, но не попали ни в одну из её дочерних Рубрик сделайте следующее.

    1. Создайте (или используйте готовую) родительскую рубрику без параметра "Искать только в родительской" и с Правилом, например, "Космонавт".
    2. Создайте в ней дочерние Рубрики с параметром "Искать только в родительской" и Правилами, например, "Гагарин", "Титов", "Терешкова", ...
    3. Создайте в ней специальную дочернюю Рубрику с именем "Ящик остальные" без Правил (параметр "Искать только в родительской" может быть любой).

    В этом случае в Рубрику из п.3 попадёт всё что попало в Рубрику из п.1 и не попало ни в одну из Рубрик из п.2.

  9. Типы файлов

    В настоящей версии программы кроме HTML-файлов реализована рубрикация текстовой составляющей материалов, созданных в Word, Excel, Acrobat и PowerPoint, соответственно, размещенных в типах файлов DOC(x), RTF, XLS(x), PDF и PPT(x). Структура документов сохраняется в значительной степени.

  10. Динамические Рубрики

    Рубрики можно создавать динамически, другими словами, не создавать заранее, а прописывать прямо в Проекте.

    Это достаточно востребованная возможность. О ней подробнее на форуме.

  11. Редактирование выдачи: Рубрик и Лент

    Полученные контенты Рубрик можно редактировать прямо в СайтСпутнике.

    Подпробнее на ссылке.

  12. "Фотография ссылки" или оператор toPDF: в Рубриках (05.01.2019)

    Например, если в Проекте прописана следующая Рубрика:

    Рубрика://Люди/Фирма-А/Мамонтов
    Константин /1 Мамонтов toPDF:C:\Путь\Folder-01


    то это означает, что как только до оператора toPDF:C:\Путь\Folder-01 дойдет управление вычислительным процессом (другим словами, как только в контенте ссылки встретится упоминание К.Мамонтова), так сразу текущее состояние ссылки будет "сфотографировано" (преобразовано в PDF-формат) и отправлено в папку C:\Путь\Folder-01.

    • Операторов toPDF: может быть сколько угодно.
    • Папки в них могут быть прописаны самые разнообразные, но существующие, иначе будет создана папка -Error- на рабочем столе Вашего компьютера, и все "фото" отправятся в эту папку.
    • Если напишите так: ToPDF:C:\Путь-7/+date, то имя создаваемых в папке C:\Путь-7 PDF-файлов будет дополнительно содержать текущую дату и время (иногда это удобно).

  13. Автозамены в Рубриках до рубрикации и после неё
    Редактирование новостных лент налету
    (25.03.2019)

    Можно выполнить замены (отредактировать контенты новостей и сообщений, точнее целых тематических новостных лент):
    до выполнения Рубрикации и
    после неё.

    Наглядный пример применения Правил редактирования приведён ниже (напомню, что в СайтСпутнике комментарии начинаются с символов ^^, соотвествненно, они могут быть отброшены, красный цвет применён исключительно для наглядности):

    Рубрика://Автозамены/До
    Site Sputnik <-> SiteSputnik ^^Редактирую до рубрикации (убираю пробел)
    Сайт Спутник <-> СайтСпутник ^^Действие аналогично сделанному в предыдущем Правиле
    (мониторингу | мониторинге | мониторингом | мониторинга | мониторинг) <-> monitoring^^Замена нескольких слов на одно слово
    (>Ответить< | >Нравится< | >Комментировать<) <-> ^^Удаляю безвозвратно ненужный контент (заменяю на пусто)
    РОСКОСМОС <-> Z5Z ^^Прячу текст, например, от рубрикации или переводчика
    (SiteSputnik | СайтСпутник) <-> <b><font size=5 color=blue>Программный комплекс</font></b>^^Замена слов SiteSputnik или СайтСпутник на html-код
    [Файлы\Замена 01.txt]^^Замены берутся из текстового файла-вставки
    [Файлы\Замена 02.txt]^^Замены берутся из другого текстового файла-вставки
    Рубрика://Автозамены/После
    программа <-> <b>Приложение</b> ^^Замена после рубрикации
    Z5Z <-> РОСКОСМОС ^^Восстанавливаю спрятанный текст на своём месте
    [Файлы\Замена 03.txt] ^^Замены берутся из третьего текстового файла-вставки

    Рубрики Автозамены\До и Автозамены\После могут быть:
      • вложены в любую Рубрику;
      • сами содержать вложенные Рубрики;
      • содержать любое количество файлов-вставок (это отдельные текстовые файлы, содержащие Правила замены);
      • если в Проекте таких Рубрик и файлов-вставок несколько, то содержащиеся в них Правила замены объединяются в один список;
      Замены делаются в html-коде, это нужно учитывать при составлении Правил;
      • в Правилах замены можно использовать логическое ИЛИ, И, скобки;
      • сами Рубрики Автозамены в процессе рубрикации не участвуют, в них только содержатся Правила замены до и после рубрикации.


    ВАЖНО или ещё несколько Правил замены и редактирования налету:
    1. Вырезание (удаление) фрагмента текста с заменой - если Вы напишите Правило:
    Сегодня в мире: ... >Ваши комментарии <-> Удалён фрагмент текста ^^Замена или удалене фрагмента текста
    • то ищутся фрагменты текста, начинающиеся на "Сегодня в мире: и заканчивающиеся на ">Ваши комментарии",
    • найденные фрагменты заменяются на текст "Удалён фрагмент текста",
    • если бы после знаков <-> не было бы текста, то это привело бы к удаление фрагмента текста.

    2. Удаление "хвоста" текста - если Вы напишите Правило:
    Сегодня в мире: ... <-> ^^Удаляю хвост текста (всё, что содержится в тексте, начиная с "Сегодня в мире:")
    • то удалите весь "хвост" текста (всё, что содержится в тексте, начиная с "Сегодня в мире:")

    3. Удаление "головы" текста - если Вы напишите Правило:
    ... Сегодня в мире: <-> ^^Удаляю головную часть текста (всё, что содержится в тексте до "Сегодня в мире:")
    • то удалите весь текст, который написан до "Сегодня в мире:")

    4. О применении знака *:
    мониторинг* <-> monitoring^^Замена нескольких слов на одно слово
    (мониторингу | мониторинге | мониторингом | мониторинга | мониторинг) <-> monitoring^^Замена нескольких слов на одно слово
    • первое правило сделает немного больше и отработает немного лучше, чем второе, а именно: будут обработаны все окончания слова мониторинг даже синтаксически неверные.

    О применение данного инструмента.

    На самом деле применение данного инструмента весьма "интересное".
    Автоматически налету можно:

      • Исправлять синтаксические и другие ошибки, допущенные в контенте.
      • Удалять или заменять незначащую информацию (инфомусор), размещённую как вначале и окончании контента, так и в его середине.
      • Удалять, заменять или вставлять в контент "нужные" слова, фразы, целые фрагменты текста.
      • Зачищать тексты от "нежелательной" информации.
      • Размещать в тексте "нужную" информацию.
      • В принципе, можно изменить контент до "неузнаваемости", например, сделать из "мухи" "слона" в прямом и переносном смысле.
      • Прятать от Переводчика или Рубриктора необходимые слова, фразы, целые фрагменты текста.
      • Самому переводить некоторые фразы, названия, аббревиатуры или другие части контента, которые Переводчик переводит не правильно.
      • Направлять в нужные новостные ленты нужную информацию, которой в них быть не должно, соотвественно, прописывать "обратную" операцию.
      • Описанное выше выполняется не только над контентом отдельной ссылки, а "массово",
         а именно: над динамически построенными потоками информации на заданные темы.
      • Такие "отредактированные" потоки могут быть созданы на самых разных языках.
      • Возможны другие варианты применения редактора, - работы в данном направлении будут продолжены.


  14. Выполнение Ботов СайтСпутника GoBOT: в Рубриках (16.05.2019)

    Если в Правиле попадания в Рубрику написано: GoBOT:<имя и параметры Бот-программы>, то дойдя до данной конструкции при обработке Правила, СайтСПутник выполнит Бот-программу. Подробнее о ботах в отдельной публикации Боты СайтСпутника.


Подробнее, обсуждение на форуме
Более подробная и новая информация о Рубриках - на форуме.

Также можно ознакомиться с видеороликом на тему SiteSputnik News - Мониторинг региональных СМИ на примере Челябинской области.
Он от 2011 года, но общую картину отражает.

Список литературы.
Полный список публикаций о программе собран на этой странице http://sitesputnik.ru/Public.htm.
Сайт о программе - http://sitesputnik.ru/.
Скачать программу можно отсюда.


Copyright © 2003-2019 ИП Мыльников Алексей Борисович. Все права защищены. E-mail: 1a@sitesputnik.ru, +7(8442) 73 71 23, +7(905) 3 92 97 92