SiteSputnik. Рубрики: применение при мониторинге СМИ,
SiteSputnik. социальных сетей, новостных источников
Дата выхода публикации - 28.07.10г.     
Последнее изменение - 03.04.24г.     
Назначение программы SiteSputnik: автоматизация поиска, сбора и мониторинга информации.
Перейти на главную страницу сайта о программе можно по ссылке - программа Сайт Спутник.


    Важные замечания от 08.04.16

  1. Рекомендуется ознакомиться с динамическими Рубриками, о которых написано на форуме и
    в Части 1 публикации "SiteSputnik News. Текстовая или рукописная форма новостного Проекта".
    Динамические рубрики очень удобны в работе.

  2. Несколько примеров элементарных правил попадания информации в Рубрики - на ссылке.

Рубрики в Сайт Спутнике - анализ СМИ, мониторинг социальных сетей, поиск в сети, интернет-розыск

Спутник. Site Sputnik. Мониторинг, бренд. Программа мониторинга СМИ, мониторинг комментариев, программа,наблюдение, автоматизация, система,слова ключевые

SiteSputnik (Site Sputnik) - программа сбора информации,соцмедиа,мониторинг СМИ, мониторинг соцсетей, анализ, поиск файлов, информационная безопасность, отслеживание изменений

розыск в интернете, Спутник. Sputnik. Мониторинг соцсетей. Поиск в интернете. Сбор. Компьютерная криминалистика, мониторинг сети. Ключ

Мониторинг информации. Спутник. Система. Бренд. Программа. Мониторинг СМИ, упоминаний в социальных медиа, поиск телефона по номеру. key words, Прога.

СайтСпутник
Об автоматической рубрикации материалов в программе SiteSputnik
  1. Рубрики могут быть применены при мониторинге СМИ, социальных сетей, Телеграм
    и других новостных источников в SiteSputnik Pro+News.

  2. Рубрики - это иерархическая структура (тематическое дерево).
    Каждый узел и лист этой структуры - отдельная Рубрика.

  3. У каждой Рубрики существует "Правило попадания информации в рубрику".
    Оно может быть сформулировано при создании Рубрики и, при необходимости, отредактировано позднее.

    На картинке ниже приведено простое учебное (демонстрационное) Правило:

    Рубрика. СайтСпутник

    Оно означает следующее.
    В Рубрику с именем Акции будут попадать те ссылки, контенты которых:

    • или содержат словоформы от всех 4-х слов: "накапливать", "покупать", "держать", "акции" и не содержат словоформы от слова "политическая";
    • или содержат словоформы от всех 3-х слов: "котировки", "ценные", "бумаги", причем две последние словоформы расположены рядом;
    • или словоформы от слов Анатолий и Чубайс, находящиеся в тексте на расстоянии не более двух пробелов (одного слова).

    Если Вам удобнее использовать динамические Рубрики, то прямо в тексте Проекта можно написать следующее:

      Рубрика://Акции
      накапливать покупать держать акции ~политическая
      котировки ценные /1 бумаги
      Анатолий /2 Чубайс


  4. Формально "Правила попадания информации в рубрику" (Правила попадания в Рубрику) таковы:

    • 01) каждая строка - набор ключевых слов, которые должны присутствовать в содержании ссылки (логическое "И").

    • 02) таких строк может быть несколько (логическое "ИЛИ").

    • 03) | - явное логическое "ИЛИ": применяется между ключевыми словами, размещенными в одной строке.

        Находящееся между логическими "ИЛИ" правила, будем называть элементарными правилами (ЭП).
        В реальных Проектах в некоторых Рубриках, например, касающихся сбора негатива, их число достигает нескольких сотен и даже тысяч.

    • 04) ~слово - эта конструкция означает, что слово в содержании ссылки не должно присутствовать (логическое "НЕТ");
      если есть несколько ненужных слов, то все они должны быть прописаны со знаком ~ впереди.

        Добавление от 03.05.16

        вместо ~слово может быть ~выражение, содержащее даже скобки, например:

        ~(Алексей /1 (Кудрин | Мыльников)) означает, что ни Кудрина, ни Мыльникова не болжно быть в содержании ссылки.


    • 05)точное 'слово' или 'точная фраза' берутся в одинарные кавычки (двойные кавычки - это значащий символ);

    • 06)максимальное расстояние между словами в пробелах задается после наклонной черты:

      Алексей /2 Мыльников

      /1 - означает, что слова стоят рядом, /0 - находятся в одном слове.

    • 07)Слова в одном предложении:

      Медведев & Дворкович

    • 08)Слова в одном абзаце:

      Медведев && Дворкович

    • 09)звёздочка в конце слова означает, что далее могут следовать любые симвомы (удлиннение справа);

    • 10)восклицательный знак вначале слова означает, что впереди не могут следовать никакие символы (отсечение слева):

      !Омск*

      Например: Омская область - удовлетворяет правилу, а Томская - нет.

    • 11)правило, например: //3 - означает, что в содержании ссылки есть не менее трех слов, содержащих и русские и английские буквы;

    • 12)одноуровневая скобочная структура, например:

      (Ходорковский | Лужков* | Виктор /1 Батурин ) /5 (мошенничество | махинации | хищения | предъявлен* /1 обвинение)

    • 13)многоуровневая скобочная структура, например:

      (Ходорковский | Лужков* | Виктор /1 Батурин ) /5 (мошенничество | махинации | хищения | предъявлен* /1 (обвинение | доказательства))

    • 14)вставка текста из файла, например:

      (Горбунов | Романенко) /5 "Моя папка\Негатив.txt"

      Содержание файла "Негатив.txt" (здесь он размещен в папке "Моя папка", вложенной в корневую папку программы SiteSputnik), может быть таким:

      ( алкаш* | алкоголик*
      | бездарный
      | болтун*
      | демагог*
      | достал*
      | дурилка /1 картонная
      | идиот*
      | козел | козл* | казел | казл*
      | критин*
      | махинации
      | мерзав*
      | мошенник
      | надоел
      | овощ*
      | отмороз*
      | !плох*
      | 'редиска'
      | прихвост*
      | японский /1 городовой
      )


      или таким:

      ( алкаш* | алкоголик* | бездарный | болтун* | демагог* | достал* | дурилка /1 картонная | идиот* | козел | козл* | казел | казл* | критин* | махинации | мерзав* | мошенник | надоел | овощ* | отмороз* | !плох* | 'редиска' | прихвост* | японский /1 городовой )

      Оба содержания эквивалентны, потому что знаки: |, & и ), стоящие в первой позиции строки, кроме своих прямых функций означают, что строка приписывается в конец предыдущей строки (конкатенация строк). Два знака && - конкатенация строк, при этом символы && удаляются из полученной строки. Это улучшает наглядность.

      При помощи файла-вставки можно описывать сущности, события, объекты, действия и другие понятия, а затем применять их в разных Рубриках.

    • 15)inurl: и insource:

      Например, Правило: (inurl:lenta.ru | inurl:comments | insource:blogs) означает, что в Рубрику попадет информация только с сайта lenta.ru, или со ссылки, адрес которой содержит слово comments, или название источника, используемого при сборе информации, содержит слово blogs. Напомню, что название источника прописывается при его подключении в Мастере на третьей вкладке.

    • 16)Регулярные выражения (РВ) берутся в фигурные скобки. РВ бывают и простые, и сложные. Например:

      {Медведев(а|у|е|\s)} - найдет Медведева, Медведеву, Медведеве, Медведев.
      {(В\.Путин.{1,}){12,}} - найдет интервью Путина, а именно, где В.Путин упомянут не менее 12 раз.
      {10[0-1][0-9][0-9][0-9]]} - найдет любое число из диапазона 100000 до 101999.
      {[0-9a-z_\-\.]+@[0-9a-z_\-^\.]+\.[a-z]{2,4}} - это все е-майлы.

      Регулярные выражения - это отдельная тема: подробнее и обсуждение смотрите на форуме СПКР.

    • 17)Внешние функции - это написанные на любом языке программирования программы произвольной обработки контента ссылок.

      Подробнее и обсуждение смотрите в отдельной публикации и на форуме СПКР.

    • 18)Объекты (Объектное мышление) - это поставляемые вместе с программой или созданные Пользователями Правила анализа контента ссылок.

      Объект может быть задан как логическое выражение, сформированное из обычных Правил, из Регулярных выражений, из Внешних функций.
      На картинке ниже показан способ выбора Объекта и Правило, составленное из них:

      Рубрики. СайтСпутник

      Назначение приведенного на картинке Правила, содержащего три объекта следующее: Правилу удовлетворяют те ссылки, в контенте которых имеются и 10-значный номер телефона (любой), и адрес электронной почты (любой), и название Юридического лица (любого), и слова Москва или Московская область. Как видно по картинке, наименованию Объекта предшествует символ %.

    • Явная подсветка (подзеленение) точных фраз в Рубриках: Установить или Удалить.
      Например, если в Правило будут внесены две строки:
      +цв:Путин; СВО; НАТО; точных фраз
      -цв:США; Байден; EC;
      тогда точные фразы, перечисленные через точку с запятой, из строки "+цв:" будут выделены в содержании Рубрики,
      а с точных фраз из "-цв:" выделение, если оно встречается в содержании Рубрики, будет снято (удалено).
      Это касается отдельно стоящих точных фраз, учитывается даже регистр.

    Ниже приведены ещё несколько Правил, используемых при автоматической Рубрикации материалов.


  5. Сортировка Рубрики по значимости её содержания (по релевантности) или
    Способы обработки Элементарных правил (тех, которые перечислены через логическое "ИЛИ"):

    автоматическая Рубрикация материалов

    • Если установить галочку по красной стрелочке, xинт:
      "Анализировать на истинность все Элементарные правила Рубрики, а не только до 1-го истинного правила",
      то СайтСпутник соберёт все ЭП, которым удовлетворяет контент "Новости".

    • Если установить галочку по зеленой стрелочке, xинт:
      "Упорядочить "Новости" по уменьшению количества истинных Элементарных правил",
      то СайтСпутник поставит ближе к началу Рубрики те "Новости", которые удовлетворяют большему количеству ЭП.

    Полезно. Например, при отслеживании негативных "Новостей", "Новости",
    содержащие больше негатива, "всплывут" наверх сами без дополнительных усилий Пользователя.

    Другими словами, эти две Настройки способствуют:
      упорядочиванию "Новостей", попавших в Рубрику, по значимости их содержания (по релевантности),

    Все ЭП попадут в "Статистику расширенную" (коричневая стрелочка), в том числе в формате Excel. Соотвественно, могут быть проанализированы внешними программами.

  6. Пример структуры Рубрики "Прогнозы", приведен на картинке ниже. Она обведена красной линией.

    Рубрики. СайтСпутник

    Для входящей в ее состав рубрики "Россия" на зеленом фоне подсвечено "Правило попадания информации в Рубрику": если ссылка содержит слова "индекс" и "ММВБ" или "индекс" и "РТС", то ее содержание попадет в эту рубрику. Эквивалентная запись этого Правила: индекс (ММВБ | РТС), более точная запись: индекс /3 (ММВБ | РТС), более правильная запись: индекс & (ММВБ | РТС).

    Подобных структур можно создать любое количество.


  7. (!) Содержание Рубрик может быть отправлено в клиентские папки, а именно: папки локального компьютера, папки локальной сети, по E-mail адресам, в папки сайтов, в Телеграм. Примеры клиентских папок приведены на картинке ниже.

    Клиентские папки. СайтСпутник

  8. Параметр: "Искать только в родительской"

    1) Если в дочерней Рубрике для параметра "Искать только в родительской" установлена галочка, то Рубрика будет иметь дело только с той информацией, которая попала в родительскую Рубрику.
    2) Если у такой дочки, есть такая же дочка, то она будет иметь дело только с той информацией, которая останется у мамы от бабушки.
    3) Если Рубрика не имеет галочки в параметре "Искать только в родительской", то независимо от того, на какой глубине она расположена, а также есть или нет галочки у её родителя или прародителя, она будет "имеет дело" со всей собранной информацией.
    4) Не ставьте галочку в Главных Рубриках Проекта (в самых старших Рубриках Проекта) - в этом случае они будут всегда пустыми, так как не имеют родителя и, соответственно, нет информации для рубрикации.


  9. Специальная Рубрика: "Ящик остальные"

    Для того, чтобы получить новостную ленту из ссылок, которые попали в родительскую, но не попали ни в одну из её дочерних Рубрик сделайте следующее.

    1. Создайте (или используйте готовую) родительскую рубрику без параметра "Искать только в родительской" и с Правилом, например, "Космонавт".
    2. Создайте в ней дочерние Рубрики с параметром "Искать только в родительской" и Правилами, например, "Гагарин", "Титов", "Терешкова", ...
    3. Создайте в ней специальную дочернюю Рубрику с именем "Ящик остальные" без Правил (параметр "Искать только в родительской" может быть любой).

    В этом случае в Рубрику из п.3 попадёт всё что попало в Рубрику из п.1 и не попало ни в одну из Рубрик из п.2.

  10. Типы файлов

    В настоящей версии программы кроме HTML-файлов реализована рубрикация текстовой составляющей материалов, созданных в Word, Excel, Acrobat и PowerPoint, соответственно, размещенных в типах файлов DOC(x), RTF, XLS(x), PDF и PPT(x). Структура документов сохраняется в значительной степени.

  11. Динамические Рубрики

    Рубрики можно создавать динамически, другими словами, не создавать заранее, а прописывать прямо в Проекте.

    Это достаточно востребованная возможность. О ней подробнее на форуме.

  12. Редактирование выдачи: Рубрик и Лент

    Полученные контенты Рубрик можно редактировать прямо в СайтСпутнике.

    Подпробнее на ссылке.

  13. "Фотография ссылки" или оператор toPDF: в Рубриках (05.01.2019)

    Например, если в Проекте прописана следующая Рубрика:

    Рубрика://Люди/Фирма-А/Мамонтов
    Константин /1 Мамонтов toPDF:C:\Путь\Folder-01


    то это означает, что как только до оператора toPDF:C:\Путь\Folder-01 дойдет управление вычислительным процессом (другим словами, как только в контенте ссылки встретится упоминание К.Мамонтова), так сразу текущее состояние ссылки будет "сфотографировано" (преобразовано в PDF-формат) и отправлено в папку C:\Путь\Folder-01.

    • Операторов toPDF: может быть сколько угодно.
    • Папки в них могут быть прописаны самые разнообразные, но существующие, иначе будет создана папка -Error- на рабочем столе Вашего компьютера, и все "фото" отправятся в эту папку.
    • Если напишите так: ToPDF:C:\Путь-7/+date, то имя создаваемых в папке C:\Путь-7 PDF-файлов будет дополнительно содержать текущую дату и время (иногда это удобно).

  14. Автозамены в Рубриках до рубрикации и после неё
    Редактирование новостных лент на лету
    (25.03.2019)

    Можно выполнить замены (отредактировать контенты новостей и сообщений, точнее целых тематических новостных лент):
    до выполнения Рубрикации и
    после неё.

    Наглядный пример применения Правил редактирования приведён ниже (напомню, что в СайтСпутнике комментарии начинаются с символов ^^, соотвествненно, они могут быть отброшены, красный цвет применён исключительно для наглядности):

    Рубрика://Автозамены/До
    Site Sputnik <-> SiteSputnik ^^Редактирую до рубрикации (убираю пробел)
    Сайт Спутник <-> СайтСпутник ^^Действие аналогично сделанному в предыдущем Правиле
    (мониторингу | мониторинге | мониторингом | мониторинга | мониторинг) <-> monitoring^^Замена нескольких слов на одно слово
    (>Ответить< | >Нравится< | >Комментировать<) <-> ^^Удаляю безвозвратно ненужный контент (заменяю на пусто)
    РОСКОСМОС <-> Z5Z ^^Прячу текст, например, от рубрикации или переводчика
    (SiteSputnik | СайтСпутник) <-> <b><font size=5 color=#7B68EE>Программный комплекс</font></b>^^Замена слов SiteSputnik или СайтСпутник на html-код
    [Файлы\Замена 01.txt]^^Замены берутся из текстового файла-вставки
    [Файлы\Замена 02.txt]^^Замены берутся из другого текстового файла-вставки
    Рубрика://Автозамены/После
    программа <-> <b>Приложение</b> ^^Замена после рубрикации
    Z5Z <-> РОСКОСМОС ^^Восстанавливаю спрятанный текст на своём месте
    [Файлы\Замена 03.txt] ^^Замены берутся из третьего текстового файла-вставки

    Рубрики Автозамены\До и Автозамены\После могут быть:
      • вложены в любую Рубрику;
      • сами содержать вложенные Рубрики;
      • содержать любое количество файлов-вставок (это отдельные текстовые файлы, содержащие Правила замены);
      • если в Проекте таких Рубрик и файлов-вставок несколько, то содержащиеся в них Правила замены объединяются в один список;
      Замены делаются в html-коде, это нужно учитывать при составлении Правил;
      • в Правилах замены можно использовать логическое ИЛИ, И, скобки;
      • сами Рубрики Автозамены в процессе рубрикации не участвуют, в них только содержатся Правила замены до и после рубрикации.


    ВАЖНО или ещё несколько Правил замены и редактирования на лету:
    1. Вырезание (удаление) фрагмента текста с заменой - если Вы напишите Правило:
    Сегодня в мире: ... >Ваши комментарии <-> Удалён фрагмент текста ^^Замена или удалене фрагмента текста
    • то ищутся фрагменты текста, начинающиеся на "Сегодня в мире: и заканчивающиеся на ">Ваши комментарии",
    • найденные фрагменты заменяются на текст "Удалён фрагмент текста",
    • если бы после знаков <-> не было бы текста, то это привело бы к удаление фрагмента текста.

    2. Удаление "хвоста" текста - если Вы напишите Правило:
    Сегодня в мире: ... <-> ^^Удаляю хвост текста (всё, что содержится в тексте, начиная с "Сегодня в мире:")
    • то удалите весь "хвост" текста (всё, что содержится в тексте, начиная с "Сегодня в мире:")

    3. Удаление "головы" текста - если Вы напишите Правило:
    ... Сегодня в мире: <-> ^^Удаляю головную часть текста (всё, что содержится в тексте до "Сегодня в мире:")
    • то удалите весь текст, который написан до "Сегодня в мире:")

    4. О применении знака *:
    мониторинг* <-> monitoring^^Замена нескольких слов на одно слово
    (мониторингу | мониторинге | мониторингом | мониторинга | мониторинг) <-> monitoring^^Замена нескольких слов на одно слово
    • первое правило сделает немного больше и отработает немного лучше, чем второе, а именно: будут обработаны все окончания слова мониторинг даже синтаксически неверные.

    Дополнение от 23.11.2020
    Написав в Автозамены\До: Сегодня в мире...Ваши комменарии<->Файл1.txt, - Вы спрячете от Рубрикации большой фрагмент текста ссылки.
    Написав в Автозамены\После: Файл1.txt<->Файл1.txt, - Вы восстановите спрятанный фрагмент на своем месте в тексте.

    О применение данного инструмента.

    На самом деле применение данного инструмента весьма "интересное".
    Автоматически на лету можно:

      • Исправлять синтаксические и другие ошибки, допущенные в контенте.
      • Удалять или заменять незначащую информацию (инфомусор), размещённую как вначале и окончании контента, так и в его середине.
      • Удалять, заменять или вставлять в контент "нужные" слова, фразы, целые фрагменты текста.
      • Зачищать тексты от "нежелательной" информации.
      • Размещать в тексте "нужную" информацию.
      • В принципе, можно изменить контент до "неузнаваемости", например, сделать из "мухи" "слона" в прямом и переносном смысле.
      • Прятать от Переводчика или Рубриктора необходимые слова, фразы, целые фрагменты текста.
      • Самому переводить некоторые фразы, названия, аббревиатуры или другие части контента, которые Переводчик переводит не правильно.
      • Направлять в нужные новостные ленты нужную информацию, которой в них быть не должно, соотвественно, прописывать "обратную" операцию.
      • Описанное выше выполняется не только над контентом отдельной ссылки, а "массово",
         а именно: над динамически построенными потоками информации на заданные темы.
      • Такие "отредактированные" потоки могут быть созданы на самых разных языках.
      • Возможны другие варианты применения редактора, - работы в данном направлении будут продолжены.

  15. Выполнение Ботов СайтСпутника - GoBOT: в Рубриках (16.05.2019)

    Если в Правиле попадания в Рубрику написано: GoBOT:<имя и параметры Бот-программы>, то дойдя до данной конструкции при обработке Правила, СайтСПутник выполнит Бот-программу. В качестве бот-программы может выступать bat или cmd-файл, любая готовая программа или программа, написанная Вашими программистами на любом языке программитрования. Подробнее о ботах в отдельной публикации Боты СайтСпутника.

  16. "Статистика по Рубрикам" и содержание Рубрик (18.07.2019)

    В табличке "Статистика по Рубрикам" (Жёлтая табличка) к количеству ссылок, папавших в Рубрику, прикреплена ссылка на локальный файл с содержанием соответствующей Рубрики (смотрите на картинке ниже по красной стрелочке):

    Рубрика Статистика

    Это удобно:

    • при визуальном ознакомлении с информацией - вся история Проекта доступна с одной страницы -
      жми на "количество" (красная стрелочка) и смотри информацию:
        - на выбранную тему (зелёная стрелочка),
        - в выбранное время (чёрная стрелочка),
    • при программной обработке - не сложно "пройтись" по всем контентам и сделать нужную обработку (при написании бота, например, может пригодиться).

Подробнее, обсуждение на форуме
Более подробная и новая информация о Рубриках - на форуме.

Также можно ознакомиться с видеороликом на тему SiteSputnik News - Мониторинг региональных СМИ на примере Челябинской области.
Он от 2011 года, но общую картину отражает.

Список литературы.
Полный список публикаций о программе собран на странице - Публикации о Сайт Спутнике.
Главная страница сайта о программе - https://sitesputnik.ru/.
Скачать демоверсию программы можно по ссылке - Скачать программу.

Copyright © 2003-2024 ИП Мыльников Алексей Борисович. Все права защищены. E-mail: 1a@sitesputnik.ru, +7(8442) 73 71 23, +7(905) 3 92 97 92