Индивидуальная настройка сайтов, ресурсов и папок :: Библиотека источников и иструменты её создания и ведения :: Форум СПКР (146)


Первоисточник: http://forum.razved.info/index.php?t=2581&p=27246
Компиляция: программой SiteSputnik - https://sitesputnik.ru/

 
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 872
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
В версии 7.4.4 от 12.01.12 программы SiteSputnik News реализована новая функция, позволяющая прописывать "индивидуальные" настройки для ссылок, найденных в процессе мониторинга источников информации (сайтов).

Настройки предназначены для выбора из содержания ссылок значимой информации.
Они применяются, когда автоматический выбор какого-то фрагмента значимой информации невозможен.

Настройки могут быть прописаны сайтам, ресурсах или принадлежащим им папкам, в которые "попадают" ссылки.
Они принадлежат к контекстно-зависимому типу.


Описание новой функции.

К значимой информации относятся: очищенное от мусора смысловое содержание ссылки (контент), дата публикации, автор контента, источник.
По мере развития программы SiteSputnik News этот список будет расширяться.



В настоящей версии программы реализованы следующие контекстно-зависимые условия выбора значимой информации.

  • Начало контента (новости) - часть тега, тег или несколько тегов, размещенных перед началом значимого контента.
    Как правило, началом значимого контента является заголовок новости, статьи или сообщения, но можно практически прописать любое "место" в ссылке.

  • Окончание контента (новости) - тег или фраза, следущие после значимого контента.
    В качестве признака окончания контента можно брать стандартные фразы, следующие за новостью, например, "Ещё материалы по теме".

  • Удалить с (в значимый контент иногда вставляют незначимый, например, рекламу) - тег или фраза, с которой начинается этот ненужный фрагмент.

  • Удалить до - тег или фраза, которой оканчивается ненужный фрагмент.

  • Пройти по ссылке, дата выхода (сделано), автор (сделано), источник и другие поля зарезервированны под будущую разработку программного обеспечения.


На картинке ниже приведен фрагмент базы данных "Настройка сайтов" (красная стрелка). Она вложена в базу данных "Настройка поиска".



Значения настроек можно прямо живьём вводить в таблицы базы данных.
Для этого используйте иконки, на которые указывает синяя стрелка: левый плюсик - создать строку в верхней таблице, правый - в нижней.
Можно для ввода и редактирования настроек воспользоваться иконками, на которые указывает зеленая стрелка. В этом случае появится картинка, размещенная ниже.





Особенности работы с контекстно-зависимыми настройками.


  • С каждой строкой верхней таблицы связано несколько строк нижней таблицы.

  • Обязательным для заполнения столбцом верхней таблицы является только столбец Сайт, ресурс, папка сайта.
    На первой картинке - он третий.

    Програма СайтСпутник при выполнении мониторинга выбирает нужные настройки следующим образом. Из адреса ссылки выделяется самая глубокая папка.
    Если она присутствует в верхней таблице, то осуществляется переход к работе с соответствующими настройками, имеющимися в нижней таблице.
    Если папка в столбце не обнаружена, то выделяется папка, в которую она вложена, и проверяется её присутствие в верхней таблице.
    Этот процесс продолжается до тех пор, пока не будет обработан сайт или ресурс, которому ссылка принадлежит.

  • В нижней таблице заполняются только те ячейки, которые необходимы: может быть заполнена только одна ячейка, могут быть заполнены все ячейки.
    Может быть только одна строка, может быть несколько строк.

    Настроек Начало контента (новости) и Окончание контента (новости) может быть сколько угодно. Они не спарены, то есть, работают независимо друг от друга.
    Как правило, для Начало контента (новости) достаточно одной настройки.

    Настроек Удалить с и Удалить до может быть также сколько угодно, но они спарены,
    то есть, из значимого контента ссылки, выделенного автоматически или при помощи настроек из предыдущего пункта,
    удаляются только фрагменты, заключенные в теги или фразы, размещенные в одной строке нижней таблицы.

  • В обеих таблицах есть столбец "Использовать ...". Если в нем прописать значение "Нет", то соответствующие настройки использоваться не будут.

  • Чтобы отключить или включить применение всех "Настроек сайтов" воспользуйтесь параметром "Включить "Настройку сайтов"",
    который доступен из главного меню: "Настройки - Параметры - вкладка News".




Отладка настроек.


    Для того, чтобы правильно определить значения настроек, используйте специальный режим отладки. Он не влияет на результаты основной работы программы.
    Для его включения в "Настройки - Параметры - вкладка News" установите галочку для параметра "Создавать отладочные файлы на рабочем столе для "Настройка сайтов"".
    Параметр размещён в правом нижнем углу вкладки.

    Это приведет к тому, что на рабочем столе перед моментом выделения значимого контента ссылок создастся папка с именем "SiteSputnik Work",
    в которую будут записываться контенты ссылок. Именно в них рационально искать настройки сайтов.
    Например, если начало новости в автоматическом режиме определено неправильно, то Вам следует найти её заголовок в тексте,
    затем взять впереди стоящий тег, его часть или несколько тегов, проверить является ли эта конструкция единственной до заголовка и перекопировать её в
    столбец Начало контента (новости).

    Смысл отладочного режима в следующем. Текст новости уже упрощён.
    Он пошёл предварительную обработку, в частности, приведен к единой читабельной кодировке на русском языке, несодержащей аброкадабр.
    Знание языка html не требуется - понимать смысл конструкций этого языка при определении настроек нет необходимости.

    Искать настройки следует только в программе "Блокнот". Другие программы могут "приукрашивать" (искажать) реальный html-код текста.


Подробнее на ссылке о настройке сайтов в СайтСпутнике.

Структура базы данных "Настройка сайтов" с несколькими настройками прикреплена к сообщению. Поместите ее в папку "Alias\Internet\Настройка поиска" и обновите структуру: "Ящик - Иерархия Ящиков - Обновить". Это можно сделать пользователям, у которых +News уже установлена и работает. В дальнейшем эта база данных будет находиться в дистрибутиве на своем месте.

Прикрепленный файл (Настройка сайтов.rar, 9259 байт, скачан: 373 раза)
<<Назад  Вперед>>Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Библиотека источников и иструменты её создания и ведения »   Индивидуальная настройка сайтов, ресурсов и папок