SiteSputnik. Рубрики: применение в мониторинге
SiteSputnik. электронных СМИ и новостных источников
Автор
Алексей Мыльников
Дата выхода публикации - 28.07.10г.     
Последнее изменение - 03.05.16г.     



    Важное замечание от 08.04.16

    Рекомендуется ознакомиться с динамическими Рубриками, о которых написано на форуме.


О рубриках в программе SiteSputnik
  1. Рубрики могут быть применены при мониторинге СМИ, социальных сетей и других новостных источников в SiteSputnik Pro+News и выше.

  2. Рубрики - это иерархическая структура (тематическое дерево), создаваемая Пользователем под свои задачи.
    Каждый узел и лист этой структуры - отдельная Рубрика.

  3. У каждой Рубрики существует "Правило попадания информации в рубрику".
    Оно может быть сформулировано при создании Рубрики и отредактировано позднее.
    На картинке ниже приведено учебное (демонстрационное) Правило:

    Рубрика. СайтСпутник

    Оно означает следующее. В Рубрику с именем Акции будут попадать те ссылки, контенты которых:
    а) или содержат словоформы от всех 4-х слов: "накапливать", "покупать", "держать", "акции" и не содержат словоформы от слова "политическая";
    б) или содержат словоформы от всех 3-х слов: "котировки", "ценные", "бумаги", причем две последние словоформы расположены рядом;
    в) или словоформы от слов Анатолий и Чубайс, находящиеся в тексте на расстоянии не более двух пробелов (одного слова).

  4. Формально "Правила попадания информации в рубрику" таковы:

    • 01)каждая строка - набор ключевых слов, которые должны присутствовать в содержании ссылки (логическое "И");

    • 02)таких строк может быть несколько (логическое "ИЛИ");

    • 03) | - явное логическое "ИЛИ": применяется между ключевыми словами, размещенными в одной строке;

    • 04) ~слово - эта конструкция означает, что слово в содержании ссылки не должно присутствовать (логическое "НЕТ");
      если есть несколько ненужных слов, то все они должны быть прописаны со знаком ~ впереди.

        Добавление от 03.05.16

        вместо ~слово может быть ~выражение, содержащее даже скобки, например:

        ~(Алексей /1 (Кудрин | Мыльников)) означает, что ни Кудрина, ни Мыльникова не болжно быть в содержании ссылки.


    • 05)точное 'слово' или 'точная фраза' берутся в одинарные кавычки (двойные кавычки - это значащий символ);

    • 06)максимальное расстояние между словами в пробелах задается после наклонной черты:

      Алексей /2 Мыльников

      /1 - означает, что слова стоят рядом, /0 - находятся в одном слове.

    • 07)Слова в одном предложении:

      Медведев & Дворкович

    • 08)Слова в одном абзаце:

      Медведев && Дворкович

    • 09)звёздочка в конце слова означает, что далее могут следовать любые симвомы (удлиннение справа);

    • 10)восклицательный знак вначале слова означает, что впереди не могут следовать никакие символы (отсечение слева):

      !Омск*

      Например: Омская область - удовлетворяет правилу, а Томская - нет.

    • 11)правило, например: //3 - означает, что в содержании ссылки есть не менее трех слов, содержащих и русские и английские буквы;

    • 12)одноуровневая скобочная структура, например:

      (Ходорковский | Лужков* | Виктор /1 Батурин ) /5 (мошенничество | махинации | хищения | предъявлен* /1 обвинение)

    • 13)многоуровневая скобочная структура, например:

      (Ходорковский | Лужков* | Виктор /1 Батурин ) /5 (мошенничество | махинации | хищения | предъявлен* /1 (обвинение | доказательства))

    • 14)вставка текста из файла, например:

      (Горбунов | Романенко) /5 "Моя папка\Негатив.txt"

      Содержание файла "Негатив.txt" (здесь он размещен в папке "Моя папка", вложенной в корневую папку программы SiteSputnik), может быть таким:

      ( алкаш* | алкоголик*
      | бездарный
      | болтун*
      | демагог*
      | достал*
      | дурилка /1 картонная
      | идиот*
      | козел | козл* | казел | казл*
      | критин*
      | махинации
      | мерзав*
      | мошенник
      | надоел
      | овощ*
      | отмороз*
      | !плох*
      | 'редиска'
      | прихвост*
      | японский /1 городовой
      )


      или таким:

      ( алкаш* | алкоголик* | бездарный | болтун* | демагог* | достал* | дурилка /1 картонная | идиот* | козел | козл* | казел | казл* | критин* | махинации | мерзав* | мошенник | надоел | овощ* | отмороз* | !плох* | 'редиска' | прихвост* | японский /1 городовой )

      Оба содержания эквивалентны, потому что знаки: |, & и ), стоящие в первой позиции строки, кроме своих прямых функций означают, что строка приписывается в конец предыдущей строки (конкатенация строк). Два знака && - конкатенация строк, при этом символы && удаляются из полученной строки. Это улучшает наглядность.

      При помощи файла-вставки можно описывать сущности, события, объекты, действия и другие понятия, а затем применять их в разных Рубриках.

    • 15)inurl: и insource:

      Например, Правило: (inurl:lenta.ru | inurl:comments | insource:blogs) означает, что в Рубрику попадет информация только с сайта lenta.ru, или со ссылки, адрес которой содержит слово comments, или название источника, используемого при сборе информации, содержит слово blogs. Напомню, что название источника прописывается при его подключении в Мастере на третьей вкладке.

    • 16)Регулярные выражения (РВ) берутся в фигурные скобки. РВ бывают и простые, и сложные. Например:

      {Медведев(а|у|е|\s)} - найдет Медведева, Медведеву, Медведеве, Медведев.
      {(В\.Путин.{1,}){12,}} - найдет интервью Путина, а именно, где В.Путин упомянут не менее 12 раз.
      {10[0-1][0-9][0-9][0-9]]} - найдет любое число из диапазона 100000 до 101999.
      {[0-9a-z_\-\.]+@[0-9a-z_\-^\.]+\.[a-z]{2,4}} - это все е-майлы.

      Регулярные выражения - это отдельная тема: подробнее и обсуждение смотрите на форуме СПКР.

    • 17)Внешние функции - это написанные на любом языке программирования программы произвольной обработки контента ссылок.

      Подробнее и обсуждение смотрите в отдельной публикации и на форуме СПКР.

    • 18)Объекты (Объектное мышление) - это поставляемые вместе с программой или созданные Пользователями Правила анализа контента ссылок.

      Объект может быть задан как логическое выражение, сформированное из обычных Правил, из Регулярных выражений, из Внешних функций.
      На картинке ниже показан способ выбора Объекта и Правило, составленное из них:

      Рубрики. СайтСпутник

      Назначение приведенного на картинке Правила, содержащего три объекта следующее: Правилу удовлетворяют те ссылки, в контенте которых имеются и 10-значный номер телефона (любой), и адрес электронной почты (любой), и название Юридического лица (любого), и слова Москва или Московская область. Как видно по картинке, наименованию Объекта предшествует символ %.


  5. Пример структуры Рубрики "Прогнозы", приведен на картинке ниже. Она обведена красной линией.

    Рубрики. СайтСпутник

    Для входящей в ее состав рубрики "Россия" на зеленом фоне подсвечено "Правило попадания информации в Рубрику": если ссылка содержит слова "индекс" и "ММВБ" или "индекс" и "РТС", то ее содержание попадет в эту рубрику. Эквивалентная запись этого Правила: индекс (ММВБ | РТС), более точная запись: индекс /3 (ММВБ | РТС), более правильная запись: индекс & (ММВБ | РТС).

    Подобных структур можно создать любое количество.


  6. (!) Содержание Рубрик может быть отправлено в клиентские папки, а именно: папки локального компьютера, папки локальной сети, по E-mail адресам, в папки сайтов. Примеры клиентских папок приведены на картинке ниже. Подробнее в разделе Клиентские папки для конкретной новостной ленты статьи на тему SiteSputnik News. Основа информационного обеспечения предприятия.

    Клиентские папки. СайтСпутник

  7. Параметр: "Искать только в родительской"

    1) Если в дочерней Рубрике для параметра "Искать только в родительской" установлена галочка, то Рубрика будет иметь дело только с той информацией, которая попала в родительскую Рубрику.
    2) Если у такой дочки, есть такая же дочка, то она будет иметь дело только с той информацией, которая останется у мамы от бабушки.
    3) Если Рубрика не имеет галочки в параметре "Искать только в родительской", то независимо от того, на какой глубине она расположена, а также есть или нет галочки у её родителя или прародителя, она будет "имеет дело" со всей собранной информацией.
    4) Не ставьте галочку в Главных Рубриках Проекта (в самых старших Рубриках Проекта) - в этом случае они будут всегда пустыми, так как не имеют родителя и, соответственно, нет информации для рубрикации.


  8. Специальная Рубрика: "Ящик остальные"

    Для того, чтобы получить новостную ленту из ссылок, которые попали в родительскую, но не попали ни в одну из её дочерних Рубрик сделайте следующее.

    1. Создайте (или используйте готовую) родительскую рубрику без параметра "Искать только в родительской" и с Правилом, например, "Космонавт".
    2. Создайте в ней дочерние Рубрики с параметром "Искать только в родительской" и Правилами, например, "Гагарин", "Титов", "Терешкова", ...
    3. Создайте в ней специальную дочернюю Рубрику с именем "Ящик остальные" без Правил (параметр "Искать только в родительской" может быть любой).

    В этом случае в Рубрику из п.3 попадёт всё что попало в Рубрику из п.1 и не попало ни в одну из Рубрик из п.2.

  9. Типы файлов

    В настоящей версии программы кроме HTML-файлов реализована рубрикация текстовой составляющей материалов, созданных в Word, Excel, Acrobat и PowerPoint, соответственно, размещенных в типах файлов DOC(x), RTF, XLS(x), PDF и PPT(x). Структура документов сохраняется в значительной степени.

  10. Динамические Рубрики

    Рубрики можно создавать динамически. Это достаточно востребованная возможность. О ней подробнее на форуме.

Подробнее, обсуждение на форуме
Более подробная и новая информация о Рубриках - на форуме.

Также можно ознакомиться с видеороликом на тему SiteSputnik News - Мониторинг региональных СМИ на примере Челябинской области Он от 2011 года, но общую картину отражает.

Список литературы.
Полный список публикаций о программе собран на этой странице http://sitesputnik.ru/Public.htm.
Сайт о программе - http://sitesputnik.ru/.
Скачать программу можно отсюда.


Copyright © Автор ИП Мыльников Алексей Борисович, г. Волгоград, 2016г. Все права защищены.