SiteSputnik News. Индивидуальная настройка
SiteSputnik News. сайтов, ресурсов и их папок
Автор
Алексей Мыльников
Дата выхода публикации - 12.01.12г.     



Аннотация.
В версии 7.4.4 от 12.01.12 программы SiteSputnik News реализована новая функция, позволяющая прописывать "индивидуальные" настройки для ссылок, найденных в процессе мониторинга источников информации (сайтов).

Настройки предназначены для выбора из содержания ссылок значимой информации. Они применяются, когда автоматический выбор какого-то фрагмента значимой информации невозможен.

Настройки могут быть прописаны сайтам, ресурсах или принадлежащим им папкам, в которые "попадают" ссылки. Они принадлежат к контекстно-зависимому типу.


Описание новой функции.
К значимой информации относятся: очищенное от мусора смысловое содержание ссылки (контент), дата публикации, автор контента, источник. По мере развития программы SiteSputnik News этот список будет расширяться.

В настоящей версии программы реализованы следующие контекстно-зависимые условия выбора значимой информации.
  1. Начало контента (новости) - часть тега, тег или несколько тегов, размещенных перед началом значимого контента. Как правило, началом значимого контента является заголовок новости, статьи или сообщения, но можно практически прописать любое "место" в ссылке.

  2. Окончание контента (новости) - тег или фраза, следущие после значимого контента. В качестве признака окончания контента можно брать стандартные фразы, следующие за новостью, например, "Ещё материалы по теме".

  3. Удалить с (в значимый контент иногда вставляют незначимый, например, рекламу) - тег или фраза, с которой начинается этот ненужный фрагмент.

  4. Удалить до - тег или фраза, которой оканчивается ненужный фрагмент.

  5. Пройти по ссылке,   дата,   автор,   источник и другие поля зарезервированны под будущую разработку программного обеспечения.

На картинке ниже приведен фрагмент базы данных "Настройка сайтов" (тонкая красная стрелка). Она вложена в базу данных "Настройка поиска".

база данных настройка сайтов

Значения настроек можно прямо живьём вводить в таблицы базы данных. Для этого используйте иконки, на которые указывает синяя стрелка: левый плюсик - создать строку в верхней таблице, правый - в нижней. Можно для ввода и редактирования настроек воспользоваться иконками, на которые указывает зеленая стрелка. В этом случае появится картинка, размещенная ниже.

Редактирование настроек сайтов



Особенности работы с контекстно-зависимыми настройками.
  1. С каждой строкой верхней таблицы связано несколько строк нижней таблицы.

  2. Обязательным для заполнения столбцом верхней таблицы является только столбец Сайт, ресурс, папка сайта. На первой картинке - он третий.

    Програма СайтСпутник при выполнении мониторинга выбирает нужные настройки следующим образом. Из адреса ссылки выделяется самая глубокая папка. Если она присутствует в верхней таблице, то осуществляется переход к работе с соответствующими настройками, имеющимися в нижней таблице. Если папка в столбце не обнаружена, то выделяется папка, в которую она вложена, и проверяется её присутствие в верхней таблице. Этот процесс продолжается до тех пор, пока не будет обработан сайт или ресурс, которому ссылка принадлежит.

  3. В нижней таблице заполняются только те ячейки, которые необходимы: может быть заполнена только одна ячейка, могут быть заполнены все ячейки. Может быть только одна строка, может быть несколько строк.

    Настроек Начало контента (новости) и Окончание контента (новости) может быть сколько угодно. Они не спарены, то есть, работают независимо друг от друга. Как правило, для Начало контента (новости) достаточно одной настройки.

    Настроек Удалить с и Удалить до может быть также сколько угодно, но они спарены, то есть, из значимого контента ссылки, выделенного автоматически или при помощи настроек из предыдущего пункта, удаляются только фрагменты, заключенные в теги или фразы, размещенные в одной строке нижней таблицы.

  4. В обеих таблицах есть столбец "Использовать ...". Если в нем прописать значение "Нет", то соответствующие настройки использоваться не будут.

  5. Чтобы отключить или включить применение всех "Настроек сайтов" воспользуйтесь параметром "Включить "Настройку сайтов"", который доступен из главного меню: "Настройки - Параметры - вкладка News".



Отладка настроек.
    Для того, чтобы правильно определить значения настроек, используйте специальный режим отладки. Он не влияет на результаты основной работы программы. Для его включения в "Настройки - Параметры - вкладка News" установите галочку для параметра "Создавать отладочные файлы на рабочем столе для "Настройка сайтов"". Параметр размещён в правом нижнем углу вкладки.

    Это приведет к тому, что на рабочем столе перед моментом выделения значимого контента ссылок создастся папка с именем "SiteSputnik Work", в которую будут записываться контенты ссылок. Именно в них рационально искать настройки сайтов. Например, если начало новости в автоматическом режиме определено неправильно, то Вам следует найти её заголовок в тексте, затем взять впереди стоящий тег, его часть или несколько тегов, проверить является ли эта конструкция единственной до заголовка и перекопировать её в столбец Начало контента (новости).

    Смысл отладочного режима в следующем. Текст новости уже упрощён. Он пошёл предварительную обработку, в частности, приведен к единой читабельной кодировке на русском языке, несодержащей аброкадабр. Знание языка html не требуется - понимать смысл конструкций этого языка при определении настроек нет необходимости.

    Искать настройки следует только в программе "Блокнот". Другие программы могут "приукрашивать" (искажать) реальный html-код текста.

Применение "Настройки сайтов".
Кроме применения для "внутренних" целей, планируется "Настройку сайтов" в будущем применить при импорте-экспорте потоков информации, создаваемых и используемых в других программах.

Обсуждение "Настройки сайтов".
Обсуждение данной темы открыто на форуме СПКР.

Подробнее о программе FileForFiles & SiteSputnik.
Полный список публикаций собран на странице.
Скачать программу можно здесь.

Copyright © Автор ИП Мыльников Алексей Борисович, г. Волгоград, 2018г. Все права защищены.