SiteSputnik. Рубрики: применение в мониторинге
SiteSputnik.
электронных СМИ и новостных источников
|
Автор Алексей Мыльников
|
Дата выхода публикации - 28.07.10г.
Последнее изменение - 01.12.11г.
О рубриках в программе SiteSputnik
- Предположим, что Вы систематически выполняете мониторинг электронных СМИ и
новостных источников и собираете информацию на заданную тему или о заданном объекте. Как это можно сделать в программе SiteSputnik Pro+News описано в отдельной публикации о
мониторинге СМИ.
- Рубрики - это иерархическая структура (тематическое дерево), создаваемая пользователем под свои задачи.
Каждый узел и лист этой структуры - отдельная Рубрика.
- У каждой Рубрики существует "Правило попадания информации в рубрику". Оно может быть сформулировано при создании рубрики и отредактировано позднее.
На картинке ниже
правило обведено желтой линией. Оно означает следующее.
В Рубрику с именем Акции будут попадать те ссылки, которые:
а) или содержат словоформы от всех 4-х слов: "накапливать", "покупать", "держать", "акции" и не содержат словоформы от слова "политическая";
б) или содержат словоформы от всех 3-х слов: "котировки", "ценные", "бумаги";
в) или словоформы от слов Анатолий и Чубайс, находящиеся рядом в тексте.
- Формально "Правила попадания информации в рубрику"
таковы:
- 01)каждая строка - набор ключевых слов, которые обязательно все должны присутствовать в содержании ссылки (логическое "И");
- 02)строк с ключевыми словами может быть несколько (логическое "ИЛИ" между строками);
- 03)~слово - эта конструкция означает, что слово в содержании ссылки должно отсутствовать (логическое "НЕТ");
- 04)точное 'слово' или 'точная фраза' берутся в одинарные кавычки;
- 05)максимальное расстояние между словами задается после наклонной черты: Алексей /2 Мыльников;
- 06)правило, например: //3 - означает, что в содержании ссылки есть не менее трех слов, содержащих и русские и английские буквы;
- 07)звёздочка в конце слова означает, что далее могут следовать любые симвомы (удлиннение справа);
- 08)восклицательный знак вначале слова означает, что впереди не могут следовать никакие символы (отсечение слева): !Омск*;
- 09)одноуровневая скобочная структура, например:
(Ходорковский | Лужков* | Виктор /1 Батурин ) /5 (мошенничество | махинации | хищения | предъявлено /1 обвинение)
- 10)вставка текста из файла, например:
(Горбунов | Романенко) /5 "Моя папка\Негатив.txt"
Содержание файла "Негатив.txt" из папки "Моя папка", вложенной в корневую папку программы SiteSputnik, может быть таким:
( алкаш* | алкоголик*
| бездарный
| болтун*
| демагог*
| достал*
| дурилка /1 картонная
| идиот*
| козел | козл* | казел | казл*
| критин*
| махинации
| мерзав*
| мошенник
| надоел
| овощ*
| отмороз*
| !плох*
| "редиска"
| прихвост*
| японский /1 городовой
)
или таким:
( алкаш* | алкоголик*
| бездарный
| болтун*
| демагог*
| достал*
| дурилка /1 картонная
| идиот*
| козел | козл* | казел | казл*
| критин*
| махинации
| мерзав*
| мошенник
| надоел
| овощ*
| отмороз*
| !плох*
| "редиска"
| прихвост*
| японский /1 городовой
)
Оба содержания эквивалентны.
Пример структуры Рубрики "Прогнозы", приведен на картинке ниже. Она обведена красной линией.
Для входящей в ее состав рубрики "Россия" на зеленом фоне подсвечено правило попадания информации: если ссылка содержит слова "индекс" и "ММВБ" или "индекс" и "РТС", то ее содержание попадет в эту рубрику.
Подобных структур можно создать любое количество.
Подробнее, обсуждение на форуме
Более подробная и новая информация о Рубриках - на
форуме.
Также можно ознакомиться с видеороликом на тему
SiteSputnik News - Мониторинг региональных СМИ на примере Челябинской области.
Список литературы.
Полный список публикаций о программе собран на этой странице
http://sitesputnik.ru/Public.htm.
Сайт о программе - http://sitesputnik.ru/.
Скачать программу можно отсюда.