SiteSputnik WebSpider. Мониторинг изменений на сайтах :: Приемы работы с программой СайтСпутник (SiteSputnik) :: Форум СПКР (92)


Первоисточник: http://forum.razved.info/index.php?t=3175&p=34995
Компиляция: программой SiteSputnik - https://sitesputnik.ru/

 
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5730
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Игорь Нежданов написал:
[q]
Хотя бы по тому, что виртуальные папки являются накопителем ссылок на изменившуюся страничку с пометкой что изменилось. Рубрики позволяют гибче работать с информацией.
[/q]

А в чем именно гибче?


Игорь Нежданов написал:
[q]
с появлением Спайдера в СайтСпутнике полностью мигрировал на него. Работать "в одно окно" всё же удобнее
[/q]

Интересно было бы услышать - в чем находит ув. tungus1973 выгоды использования WSW в данной ситуации? Т.е., почему тоже не мигрировал на СайтСпутник.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 803
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

CI-KP написал:
[q]
tungus1973 написал:
[q]

Каждая программа занимается своим видом мониторинга.
[/q]

А какая каким, если не секрет?
[/q]

WSW мониторит сайты, которые не может мониторить СайтСпутник:
- сайты, защищённые паролем,
- сайты, защищённые каптчей,
- сайты, которые часто выдают ошибки. И которые СайтСпутник пропускает, а WSW сообщает мне об ошибках,
- сайты, имеющие ошибки в коде, например egrul.nalog.ru, на котором переход на следующую страничку возможен только через макрос WSW,
- сайты требующие функций, отключенных в настройках IE (например, из соображений безопасности),
- странички, в которых мне нужен только определённый контент, который я могу выделить с помощью плагина и сверстать в единый документ. Пример: Ниже приведён отчёт о мониторинге Google Hacks. WSW отслеживает появление новых хаков Google, и если находит новый текст, то вырезает из странички только то, что мне нужно (таблицу с описанием хака) и дополняет отчёт. Я получаю уведомление о появлении новой возможности в хакинге Google (сейчас в списке ~1400 хаков).

Прикрепленный файл (GoogleHacks.htm, 2017607 байт, скачан: 44 раза)
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

tungus1973 написал:
[q]
WSW мониторит сайты, которые не может мониторить СайтСпутник:
- сайты, защищённые паролем,
- сайты, защищённые каптчей,
- сайты, которые часто выдают ошибки. И которые СайтСпутник пропускает, а WSW сообщает мне об ошибках,
- сайты, имеющие ошибки в коде, например egrul.nalog.ru, на котором переход на следующую страничку возможен только через макрос WSW,
- сайты требующие функций, отключенных в настройках IE (например, из соображений безопасности),
- странички, в которых мне нужен только определённый контент, который я могу выделить с помощью плагина и сверстать в единый документ.
[/q]

Да - у WSW есть свои преимущества. Возможность задействовать запароленные ресурсы без предварительного их открытия в IE и обойти каптчу, пожалуй наиболее существенные из них..

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 872
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

Игорь Нежданов написал:
[q]
Да - у WSW есть свои преимущества. Возможность задействовать запароленные ресурсы без предварительного их открытия в IE и обойти каптчу, пожалуй наиболее существенные из них..
[/q]

Да. Это делать буду. В SiteSputnik News в этом практически необходимости не было. Новостные источники открыты, капчей практически нет, ошибок тоже - сайты отлажены, а в WebSider(е) может потребоваться поставить на мониторинг самые разнообразные страницы.

Также, думаю, что рационально реализовать возможность задания пост-запроса и Рубрикации в функциях SiteSputnik Invisible. Это позволит находить не только адреса невидимых ссылок, но и рубрицировать их контент.

Из сказанного выше согласен, что рационально вывести WebSpider из News в Pro (возможно, что кому-то он потребуется без +News), т.е. можно будет работать в Pro+News, Pro+WebSpider, Pro+News+WebSpider.

По поводу поста #14 tungus1973.

Посмотрел инструкцию по ВСВ из темы о нем. "Ключевые слова" в ВСВ - это намного слабее, чем Рубрики и "Правила попадания в Рубрики" в СайтСпутнике.

Слабее они по трем причинам.

Первое.
"Ключевые слова" - это далеко не дерево Рубрик, через которое просеиваются обновления страниц, а всего один листок этого дерева. Более того, в СайтСпутнике можно просеить поток обновлений сразу через несколько Деревьев.

Второе.
Этот листок привязан только к конкретной одной закладке, а не к группе закладок (в СайтСпутнике группа ссылок-закладок размещается в пакете).

Третье.
Сами Правила попадания в Рубрику в СайтСпутнике намного эффективнее, чем набор ключевых слов, одно из которых должно присутствовать в контенте обновлений. Нет, например, расстояния между словами, нет точных фраз, нет возможности описать сущности, отсутствует логическое "Нет", нет скобочной структуры, вставки текста из файла.

Поэтому, выводы, сделанные в сообщение 10, на мой взгляд верны. Они таковы.

1. Есть программы, которые рубрицируют потоки новых ссылок. Это делает тот же SiteSputnik News. Есть программы, которые выделяют цветом обновления на странице. Это умеем упомятый WSW. Нет программы, которая умеют и то, и другое, а именно: выделить фрагменты новой информации и Рубрицировать их. SiteSputnik Webspider находит контенты обновлений страниц и Рубрицирует именно их, а не весь контент страниц.

2. Есть паук, который сам по себе не уникальное явление, но при наличие п.1 позволяет находить новые ссылки и ставить на мониторинг обновление их контента. Паук, делающий такую работу, мне не известен.

3. Существование в рамках одной программы мониторинга потока новых страниц и мониторинга обновления уже существующих страниц, мне так же не известно.

Уточню только, что под работой паука понимается и его деятельность по Рубрикации.

CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5730
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Алексей Мыльников написал:
[q]
рационально вывести WebSpider из News в Pro (возможно, что кому-то он потребуется без +News), т.е. можно будет работать в Pro+News, Pro+WebSpider, Pro+News+WebSpider.
[/q]

+1

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 872
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Мониторинг изменений по пакету запросов: отслеживание обновлений поисковых страниц.

Оператор ^^WebSpider доступен в версии 8.1.4 от 31.10.12 программы SiteSputnik News.

На картинке на него указывает красная стрелка.



Это позволяет найти обновления результатов поиска для любых пакетов запросов, включая поиск в основных поисковиках и встроенных в сайты поисков, и Рубрицировать их (см. зеленую стрелочку).

Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Благодаря функции WebSpider можно не напрягаясь отслеживать те потоки новостей, которые не удалось зацепить никаким из имеющихся в СайтСпутнике вариантов.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 803
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

Игорь Нежданов написал:
[q]
Благодаря функции WebSpider можно не напрягаясь отслеживать те потоки новостей, которые не удалось зацепить никаким из имеющихся в СайтСпутнике вариантов.
[/q]
Очень интересно! Расскажите пожалуйста поподробнее?
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

tungus1973 написал:
[q]
Игорь Нежданов написал:
[q]

Благодаря функции WebSpider можно не напрягаясь отслеживать те потоки новостей, которые не удалось зацепить никаким из имеющихся в СайтСпутнике вариантов.
[/q]

Очень интересно! Расскажите пожалуйста поподробнее?
[/q]


И тебе привет! - а что это ты на "Вы" перешел?

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Разобрались после сепаратных переговоров...

Значит так - если по какой то причине не получилось подключить страницу как источник информации (ни поисковик, ни РСС). Не нашел начало пункта, не знаю как пользоваться поиском в txt файлах, еще что или просто лень, то можно задействовать функцию WebSpider. В этом случае СайтСпутник действует следующим образом:
- "фотографирует" страницу, проходит по всем ссылкам и выкачивает оттуда контент (на этом этапе много лишнего);
- при повторном проходе выявляет новое по сравнению с предыдущей версией и забирает контент только с новых ссылок;
- ну и рубрицирует найденное.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
<<Назад  Вперед>>Страницы: 1 2 * 3 4
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   SiteSputnik WebSpider. Мониторинг изменений на сайтах