Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 872 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Данная публикация является вводной инструкцией по применению нового варианта программы SiteSputnik, получившего название SiteSputnik WebSpider. В ней достаточно просто описывается назначение и способ применения этого варианта программы. Назначение программы SiteSputnik WebSpider Программа SiteSputnik WebSpider следит за обновлениями уже существующих страниц, а именно, за появлением на них новой информации, удовлетворяющей запросу, заданному пользователем. В этом ее отличие от варианта SiteSputnik News, предназначенного для мониторинга потока новых страниц. Программы дополняют друг друга. Вместе они обеспечивают мониторинг открытых источников интернета на заданную тему. Язык, на котором формируется запрос, которому должны удовлетворять изменения на страницах, похож на язык запросов Яндекса. Поскольку запрос выполняется после скачивания и сравнения нового контента страницы со старым, будем называть его пост-запросом. Пост-запрос - это критерий, которому должны удовлетворять контенты обновлений на страницах. Под мониторингом ниже будем понимать весь процесс обработки информации, а именно: скачивание и сохранение веб-страниц, сравнение их контента с предыдущим состоянием, выделение фрагментов новой информации и проверка удовлетворения их контентов пост-запросу. Описание демонстрационной задачи Возможности WebSpider(а) продемонстрируем на наглядном примере. Покажем как можно организовать отслеживание появления новой информации в интернете о самой программе SiteSputnik (СайтСпутник) и её авторе. Для этого пост-запросу поручим проверять наличие словоформ от слов "СайтСпутник", "SiteSputnuk" и стоящих рядом слов "Алексей" и "Мыльников" в обновлениях страниц из нескольких открытых источников, в которых может появиться интересующая нас информация. В качестве таких источников возьмем сайты, живые журналы, RSS-потоки или поисковые страницы с ресурсов Бориса Воронцова, Александра Кузина, Елены Лариной, Алексея Мыльникова, Игоря Нежданова, Дмитрия Петряшова, Романа Ромачёва, Евгения Ющука, а также обновившиеся темы форума СПКР и первую поисковую страницу Яндекса по запросу "SiteSputnik". Решение демонстрационной задачи Последовательность действий пользователя такова.
Это простая, хорошо известная пользователям программы процедура. Она выполняется следующим образом: - выбираем ящик (папку) на вкладке "Поиск в Интернете", - выбираем в главном меню пункт "Ящик - Создать новый подобный Ящик...", - в появившемся окне вводим его имя "О СайтСпутнике", - нажимаем на кнопку "Создать".
Выбираем в главном меню пункт: "Настройки - Параметры - вкладка WebSpider". В графе "Пост-запрос" (смотрите синюю стрелку на картинке ниже) определяем критерий, которому должны удовлетворять изменения на сайтах. ![]() Пояснения. Заданный на картинке Пост-запрос буквально означает следующее. Нас будут интересовать изменения на сайтах, в которых упомянуты словоформы от слов "СайтСпутник", или "SiteSputnik", или двух слов "Алексей" и "Мыльников", стоящих рядом. Пост-запрос выполняется над новыми фрагментами страниц сайтов. То есть, WebSpider находит изменения контента каждой страницы относительно предыдущего её состояния и выполняет пост-запрос только над изменениями, а не над всей страницей.
Это делается один раз для каждой темы. При необходимости, список может быть отредактирован. Нажмите на иконку "Золотой ключик", затем на кнопку "Пакет" и в открывшемся окне введите адреса ресурсов и глубину проникновения WebSpider(а) для каждого из них. Окно показано на картинке ниже. ![]() Пояснения. В 1-ом столбце прописывается адрес сайта, ресурса, страницы или RSS-потока. Во 2-ом - WebSpider (паук), который собственно выполняет скачивание и проверки. В 3-ем - глубина поиска (глубина проникновения WebSpider(а)). В 4-ом - можно ввести комментарии. Ознакомьтесь с ними. В качестве адреса страницы можно, в частности, указать обращение к поисковой странице. Смотрите последний адрес. Для него глубину проникновения паука мы установили равной 1. Это означает, что мониторинг будет проводиться не только над самой поисковой страницей, но и над ссылками размещенными на ней. Чтобы не мониторить ненужные ссылки, которые присутствуют на поисковой странице, применим фильтр. На первой картинке на него указывает серая стрелка. Фильтр содержит две лексемы. Адреса ссылок, содержащие эти лексемы, не будут учитываться при мониторинге. На картинке выше зеленая стрелка указывает на момент выбора одного из трех стандартных вариантов WebSpider(а). Затем, при необходимости, в колонке Стр. пользователь самостоятельно может прописать любую глубину поиска (проникновения WebSpider(а)). Наибольшее практическое значение имеют первые два варианта.
Для этого нажмите на кнопку "Совместно". Первое выполнение пакета - это практически просто создание базы страниц, относительно которой будет проводиться мониторинг при следующих выполнениях. Хотя, как написано ниже, в качестве нового фрагмента такой страницы берется весь её контент, над которым и выполняется пост-запрос. Если ссылка исчезнет, а потом вновь появится, то мониторинг будет проводиться относительно её последнего состояния. Замечание. Перед первым выполнением мониторинга рекомендуется предварительно сохранить сформированный пакет. Для этого воспользуйтесь кнопкой "Сохранение". Другие возможности WebSpider(а) В настоящей реализации программы SiteSputnik WebSpider от 23.07.12 уже можно делать следующее.
Собственно, описанные в этом абзаце действия должны применяться в реальных задачах. В пакете (на второй картинке) можно прописать одну или несколько Рубрик. Каждая Рубрика может содержать вложенные Рубрики. Каждая Рубрика - суть Пост-запрос, определяющий условия попадания в Рубрику новых фрагментов. Рубрики из SiteSputnik WebSpider и SiteSputnik News абсолютно эквивалентны: в обоих вариантах программы могут быть применены одни и те же Рубрики. Соответственно, в SiteSputnik WebSpider можно задействовать несколько сложных древовидных структур Рубрик (задать очень много разнообразных пост-запросов к нескольким источникам), а в SiteSputnik News теперь можно дополнительно применить один пост-запрос, не обращаясь к Рубрикам. На второй картинке коричневая стрелка показывает где и как прописываются Рубрики.
В качестве них могут выступать папки Вашего компьютера, папки локальной сети и папки глобальной сети, а именно: папки корпоративного сайта или е-майл-адреса (отправка по электронной почте).
При первом обнаружении новой страницы, её контент рассматривается как один "большой" новый фрагмент, который также отправляется на пост-запрос и/или на рубрикацию.
При необходимости можно использовать "Настройки сайтов" для этих целей. Подробнее о технических деталях, о перечисленных и некоторых других возможностях программы - в следующей публикации. Здесь отмечу только то, что на мой взгляд является главным.
Предложенная технология проста в применение от начала до конца. В частности, она позволяет пользователю, не прибегая к анализу html-кода ссылки, получать хорошие результаты, практически без мусора, за счет прохождения найденных фрагментов новой информации через дополнительный фильтр (пост-запрос). Мусор автоматически отсеивается пост-запросом, а не вручную пользователем посредством указания от каких HTML-тегов до каких HTML-тегов находятся интересующие его изменения на страницах. Например, в нашем и в подавляющем большинстве случаев, изменения времени, дат, счетчиков, обновления рекламы будут автоматически отфильтрованы пост-запросом и не попадут в выдачу. Не нужно применять требующий специальных навыков Мастер подключения новых источников, достаточно просто вписать адреса интересующих источников в пакет. Также автоматически находятся и ставятся на мониторинг новые ссылки, которые появляются в исследуемых источниках. В настоящее время проводятся работы по интеграции SiteSputnik WebSpider, SiteSputnik News и SiteSputnik Station, что так же является составной частью разрабатываемой технологии мониторинга открытых источников интернета. Подробнее в отдельной публикации - sitesputnik.ru/Help/SSWebSpider.htm |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 872 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Описанное в старт-топике в настоящее время доступно для испытаний из SiteSputnik News. Единственно, перепишите прикрепленную папку в Alias\Internet\Ссылки открытые\Рубрики и выполните из главного меню: "Ящик - Дерево ящиков - Обновить". Прикрепленный файл (Пост-запрос., 5448 байт, скачан: 400 раз) |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 872 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 24 июля 2012 10:07 Сообщение отредактировано: 24 июля 2012 10:48
В прикрепленном файле то, что "выцарапал" этот пакет на 10:00 24.07.12 относительно 07:00 24.01.12 Фрагменты с новой информацией отделены друг от друга тонкой линией. Прикрепленный файл (Пост-запрос_1.htm, 4576 байт, скачан: 656 раз) |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1055 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Данная технология удобна в следующих случаях: - когда нужно контролировать изменение информации на конкретной странице (текст Закона, прайс, состав учредителей или ТОПов, поставщики-клиенты и т.п.); - когда нужно отлавливать определенные изменения на заранее известной странице и/или на сайте; - когда нужно извлекать информацию из новостного потока, но подключить его к СайтСпутнику не получается; - когда некогда подключать новый источник, а результат нужен уже сейчас. В общем кто в курсе - замена WSW, причем с интересными возможностями и под углом работы с новостями, а не просто отслеживание изменений. ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 872 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
![]() Вот на главную страницу it2b, задействованную в мониторинге, Bot принес информацию с CI2B о публикации из 3-го топика. WebSpider обнаружил именно это, хотя изменений на задействованных источниках было много. Они не по теме, и перебирать страницы в поиске нужных изменений не надо, но при необходимости, можно ознакомится со всеми изменениями - они в списке "Символьный поток". |
PetroFF
Долгожитель форума
Всего сообщений: 270 Рейтинг пользователя: 2 Ссылка Дата регистрации на форуме: 31 янв. 2012 |
Ух...!! Как интересно, спасибо за развитие проекта! Дело конечно не моё, но цена получилась махровая... 55 000 руб. + 20 000 руб. = 75 000 руб. Я понимаю, что цена свалилась не с потолка, а как сумма чел\час затраченных на разработку, но "маркетинг в этом случае рулит". Подешевле бы за совмещение двух прекрасных модулей ... глядишь и "нас" тут бы было больше, а от этого только всем интереснее! |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5730 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
PetroFF написал: цена получилась махровая... 55 000 руб. + 20 000 руб. = 75 000 руб Особенно против 40 - 100 евро за WSW (раз уж о его замене речь идет). Если цена действительно такова, мне кажется, надо бы более четко объяснить - в чем преимущество новой программы, по сравнению с WSW, которое способно перекрыть эту разницу. Тем более, что, как мне со стороны видится, СайтСпутник все дальше уходит от простой и интуитивно понятной программы в область массы настроек, которым надо специально учиться. Это, в некотором роде, похоже на сравнение Windows и Mac OS. Первая, конечно, очень гибко настраивается (много ли любителей становиться сисадминами?), зато вторая - просто (т.е. интуитивно понятно и без заморочек) работает. Вопрос этот задавать, бесспорно, будут, и лучше на него получить ответ здесь всем вместе. Как мне кажется. ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 872 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
А причем здесь WSW? Он показывает (подсвечивает) изменения на конкретных страницах, а здесь развитие SiteSputnik News для Рубрикации изменений (обновлений) на страницах, причем, при необходимости, страницы могут находиться пауком. Насчет усложнения. Ровно наоборот - проще некуда для такого функционала: прописал адреса стартовых страниц, глубину проникновения паука и Пост-запрос или Рубрики и всё. Результат - новостные ленты, содержащие фрагменты обновлений, относящиеся к интересующим темам. Это уникальный функционал, по крайней мере, аналоги мне не известны. |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5730 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 26 июля 2012 16:49 Сообщение отредактировано: 26 июля 2012 16:50 Алексей Мыльников написал: А причем здесь WSW? Он показывает (подсвечивает) изменения на конкретных страницах, а здесь развитие SiteSputnik News для Рубрикации изменений (обновлений) на страницах, причем, при необходимости, страницы могут находиться пауком. Ну, собственно, я задумался о различиях именно с WSW, прочитав вот эту фразу: Игорь Нежданов написал: В общем кто в курсе - замена WSW, причем с интересными возможностями и под углом работы с новостями, а не просто отслеживание изменений. Алексей Мыльников написал: Насчет усложнения. Ровно наоборот - проще некуда для такого функционала: прописал адреса стартовых страниц, глубину проникновения паука и Пост-запрос или Рубрики и всё. Результат - новостные ленты, содержащие фрагменты обновлений, относящиеся к интересующим темам. Возможно, и так. Я на количество разных кнопок смотрю просто. Лично мне с 90% из них дел иметь не приходилось, я говорю о субъективном восприятии сообщений о новых настройках разного рода. Допускаю, что мое субъективное восприятие неверно. В таком случае, как мне кажется, имеет смысл позиционировать СайтСпутник именно как ОЧЕНЬ ПРОСТОЕ решение. И как-то продемонстрировать это на примерах. Вполне возможно, что всегда есть любители каких-то экзотических настроек. Но, как правило, их немного. Алексей Мыльников написал: Это уникальный функционал, по крайней мере, аналоги мне не известны. Ну не знаю. "Проверка изменений на страницах" - это само по себе точно не уникальный функционал. А если уникальность таки есть (я верю, что есть, я не спорю, а именно уточняю ее) - хотелось бы внятно понимать - в чем она заключается и почему это действительно важно. Вот вопросы, котрые у меня возникли. Предлагаю рассматривать меня как чайника в СайтСпутнике, которому интересно понять - что за новые штуки в нем появились. Как правило корпоративные аналитики примерно такими и являются. Игорь Нежданов написал: Данная технология удобна в следующих случаях: В чистом виде - функционал WSW (как мне кажется). Или все же нет? Игорь Нежданов написал: - когда нужно отлавливать определенные изменения на заранее известной странице и/или на сайте; "когда нужно отлавливать определенные изменения на заранее известной странице" - в чем разница с предыдущим пунктом? "и/или на сайте" - тут да, тут, как я понимаю, речь идет о том, что поисковикам стал известен адрес на сайте, который ранее был неизвестен? Но если да, то чем это отличается от построения карты сайта в версии "Инвизибл"? Игорь Нежданов написал: - когда нужно извлекать информацию из новостного потока, но подключить его к СайтСпутнику не получается; Это что значит? Кроме, конечно, того, что "далеко не всегда, потратив на полноценный СайтСпутник деньги, вы сможете реально мониторить новостные потоки". Игорь Нежданов написал: - когда некогда подключать новый источник, а результат нужен уже сейчас. А это что значит? Первое что приходит в голову - "подключение источников - такой большой геморрой, что даже не думайте о них, если вам прямо сейчас надо результат". А на самом деле о чем речь? ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 872 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
CI-KP написал: Алексей Мыльников написал: Уникальность в следующем. 1. Есть программы, которые рубрицируют потоки новых ссылок. Это делает тот же SiteSputnik News. Есть программы, которые выделяют цветом обновления на странице. Это умеем упомятый WSW. Нет программы, которая умеют и то, и другое, а именно: выделить фрагменты новой информации и Рубрицировать их. SiteSputnik Webspider находит контенты обновлений страниц и Рубрицирует именно их, а не весь контент страниц. 2. Есть паук, который сам по себе не уникальное явление, но при наличие п.1 позволяет находить новые ссылки и ставить на мониторинг обновление их контента. Паук, делающий такую работу, мне не известен. 3. Существование в рамках одной программы мониторинга потока новых страниц и мониторинга обновления уже существующих страниц, мне так же не известно. CI-KP написал: Игорь Нежданов написал: Думаю, что здесь имелось ввиду другое. Абсолютно всё подключить не возможно. Редко, но могут ещё попасться страницы, которые в SiteSputnik News не удается подключить. В этом случае можно "отдать" такие страницы на "WebSpider=1". Для новостных потоков это приведет к тому, что фрагментом изменений будет вся страница, она и попадет под рубрикацию. Минус такого подхода - "грязнее" выдача, взамен - проще организовать мониторинг. Я так понял Игоря. CI-KP написал: Игорь Нежданов написал: Вы абсолютно правы - подключить источники не очень просто. Такова техническая обстановка. Именно по этой причине SiteSputnik - пожалуй едиственная программа, которая в январе 2009 года уже имела Мастер для подключения встроенных в сайты поисков. Какая программа это умеет делать в 2012 году? Если кому-то известно, то приведите пример. Кстати, прописывание в WSW: от такого-то тега до такого-то тега мне нужно обнаруживать изменения на странице примерно равна трудоемкости подключения нового источника. |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5730 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
Спасибо, Алексей! Теперь понятно. Мне кажется, есть смысл поставить ссылку непосредственно на Ваш комментарий с разъяснениями, отредактировав первый пост топика. Чтобы читатель сразу это видел. Если считаете это правильным - я могу это сделать. ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 872 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Думаю, что не надо - всё стоит на своих местах. |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5730 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
ОК ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 803 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Алексей Мыльников написал: WSW умеет это делать. Он ищет в изменившемся контенте ключевые слова и, если находит их, помещает изменённые странички в "виртуальные папки" (аналог "Рубрик" СайтСпутника). Нет программы, которая умеют и то, и другое, а именно: выделить фрагменты новой информации и Рубрицировать их. Алексей Мыльников написал: В WSW это можно делать для любого сайта/странички через функционал "отслеживание ссылок". Можно задавать, по каким ссылкам ходить, по каким не ходить. WSW сообщает о появлении новых страничек (нужно установить флажок "уведомление об инициализации"), затем мониторит изменение контента на страничках. Написав простой плагин (3-5 строк кода), можно мониторить только определённый контент на сайте. позволяет находить новые ссылки и ставить на мониторинг обновление их контента. Паук, делающий такую работу, мне не известен. Алексей Мыльников написал: WebSite Watcher. Существование в рамках одной программы мониторинга потока новых страниц и мониторинга обновления уже существующих страниц, мне так же не известно. Алексей Мыльников написал: В СайтСпутнике подключение поисковиков намного легче, это факт! В остальном принцип работы такой же. В WSW нужно писать плагин для определённого вида сайтов. Если сайт меняет html-код, достаточно один раз внести изменения в плагин, чтобы изменения коснулись всех страничек. Кстати, прописывание в WSW: от такого-то тега до такого-то тега мне нужно обнаруживать изменения на странице примерно равна трудоемкости подключения нового источника. И "СайтСпутник" и "WebSite Watcher" обладают своими уникальными возможностями и своими уникальными недостатками, поэтому у меня они работают оба. Каждая программа занимается своим видом мониторинга. И не забывайте, что WSW - чисто мониторинговая программа, тогда как "СайтСпутник" - ещё и продвинутый поисковик! |
PetroFF
Долгожитель форума
Всего сообщений: 270 Рейтинг пользователя: 2 Ссылка Дата регистрации на форуме: 31 янв. 2012 |
Алексей Мыльников Может хотя бы 30 дневную версию сделаете с полным функционалом, по запросу от уже имеющих лицензию на программу. Так как необходимо практическое подтверждение возможностей представленных на листе и обкатка их в боевых условиях, а так это просто выглядит заманчиво, но цена оттормаживает и заставляет использовать другие комплексы. Алексей согласитесь, это не 100 американских рублей за WSW.. |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5730 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
tungus1973 написал: Каждая программа занимается своим видом мониторинга. А какая каким, если не секрет? ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1055 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 27 июля 2012 12:48 Сообщение отредактировано: 27 июля 2012 12:51 tungus1973 написал: написал: "Виртуальные" папки WSW всё же НЕ аналог "Рубрик" в СайтСпутнике. Они могут в какой то мере заменить Рубрики СайтСпутника, но работа с ними посложнее. Хотя бы по тому, что виртуальные папки являются накопителем ссылок на изменившуюся страничку с пометкой что изменилось. Рубрики позволяют гибче работать с информацией. tungus1973 написал: написал: Именно написание плагина в 3-5 строк и является ключевым отличием. Я не знаком с кодингом и мне куда удобнее в этом плане СайтСпутник. Вот тебе это действительно удобнее и результат получается интересный (сам видел). Поэтому правильнее будет говорить о возможностях одной и другой проги в зависимости от подготовки пользователя. tungus1973 написал: И "СайтСпутник" и "WebSite Watcher" обладают своими уникальными возможностями и своими уникальными недостатками, поэтому у меня они работают оба. Каждая программа занимается своим видом мониторинга. Вот тут согласен полностью. И у меня ВСВ использовался для отдельных работ. Правда с появлением Спайдера в СайтСпутнике полностью мигрировал на него. Работать "в одно окно" всё же удобнее, хоть и "разложить яица в разные корзины" - безопаснее. ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5730 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
Игорь Нежданов написал: Хотя бы по тому, что виртуальные папки являются накопителем ссылок на изменившуюся страничку с пометкой что изменилось. Рубрики позволяют гибче работать с информацией. А в чем именно гибче? Игорь Нежданов написал: с появлением Спайдера в СайтСпутнике полностью мигрировал на него. Работать "в одно окно" всё же удобнее Интересно было бы услышать - в чем находит ув. tungus1973 выгоды использования WSW в данной ситуации? Т.е., почему тоже не мигрировал на СайтСпутник. ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 803 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
CI-KP написал: tungus1973 написал: WSW мониторит сайты, которые не может мониторить СайтСпутник: - сайты, защищённые паролем, - сайты, защищённые каптчей, - сайты, которые часто выдают ошибки. И которые СайтСпутник пропускает, а WSW сообщает мне об ошибках, - сайты, имеющие ошибки в коде, например egrul.nalog.ru, на котором переход на следующую страничку возможен только через макрос WSW, - сайты требующие функций, отключенных в настройках IE (например, из соображений безопасности), - странички, в которых мне нужен только определённый контент, который я могу выделить с помощью плагина и сверстать в единый документ. Пример: Ниже приведён отчёт о мониторинге Google Hacks. WSW отслеживает появление новых хаков Google, и если находит новый текст, то вырезает из странички только то, что мне нужно (таблицу с описанием хака) и дополняет отчёт. Я получаю уведомление о появлении новой возможности в хакинге Google (сейчас в списке ~1400 хаков). Прикрепленный файл (GoogleHacks.htm, 2017607 байт, скачан: 44 раза) |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1055 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
tungus1973 написал: WSW мониторит сайты, которые не может мониторить СайтСпутник: Да - у WSW есть свои преимущества. Возможность задействовать запароленные ресурсы без предварительного их открытия в IE и обойти каптчу, пожалуй наиболее существенные из них.. ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 872 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Игорь Нежданов написал: Да - у WSW есть свои преимущества. Возможность задействовать запароленные ресурсы без предварительного их открытия в IE и обойти каптчу, пожалуй наиболее существенные из них.. Да. Это делать буду. В SiteSputnik News в этом практически необходимости не было. Новостные источники открыты, капчей практически нет, ошибок тоже - сайты отлажены, а в WebSider(е) может потребоваться поставить на мониторинг самые разнообразные страницы. Также, думаю, что рационально реализовать возможность задания пост-запроса и Рубрикации в функциях SiteSputnik Invisible. Это позволит находить не только адреса невидимых ссылок, но и рубрицировать их контент. Из сказанного выше согласен, что рационально вывести WebSpider из News в Pro (возможно, что кому-то он потребуется без +News), т.е. можно будет работать в Pro+News, Pro+WebSpider, Pro+News+WebSpider. По поводу поста #14 tungus1973. Посмотрел инструкцию по ВСВ из темы о нем. "Ключевые слова" в ВСВ - это намного слабее, чем Рубрики и "Правила попадания в Рубрики" в СайтСпутнике. Слабее они по трем причинам. Первое. "Ключевые слова" - это далеко не дерево Рубрик, через которое просеиваются обновления страниц, а всего один листок этого дерева. Более того, в СайтСпутнике можно просеить поток обновлений сразу через несколько Деревьев. Второе. Этот листок привязан только к конкретной одной закладке, а не к группе закладок (в СайтСпутнике группа ссылок-закладок размещается в пакете). Третье. Сами Правила попадания в Рубрику в СайтСпутнике намного эффективнее, чем набор ключевых слов, одно из которых должно присутствовать в контенте обновлений. Нет, например, расстояния между словами, нет точных фраз, нет возможности описать сущности, отсутствует логическое "Нет", нет скобочной структуры, вставки текста из файла. Поэтому, выводы, сделанные в сообщение 10, на мой взгляд верны. Они таковы. 1. Есть программы, которые рубрицируют потоки новых ссылок. Это делает тот же SiteSputnik News. Есть программы, которые выделяют цветом обновления на странице. Это умеем упомятый WSW. Нет программы, которая умеют и то, и другое, а именно: выделить фрагменты новой информации и Рубрицировать их. SiteSputnik Webspider находит контенты обновлений страниц и Рубрицирует именно их, а не весь контент страниц. 2. Есть паук, который сам по себе не уникальное явление, но при наличие п.1 позволяет находить новые ссылки и ставить на мониторинг обновление их контента. Паук, делающий такую работу, мне не известен. 3. Существование в рамках одной программы мониторинга потока новых страниц и мониторинга обновления уже существующих страниц, мне так же не известно. Уточню только, что под работой паука понимается и его деятельность по Рубрикации. |
CI-KP
Администратор
Откуда: Екатеринбург Всего сообщений: 5730 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 15 мая 2009 |
Алексей Мыльников написал: рационально вывести WebSpider из News в Pro (возможно, что кому-то он потребуется без +News), т.е. можно будет работать в Pro+News, Pro+WebSpider, Pro+News+WebSpider. +1 ---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь. |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 872 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Мониторинг изменений по пакету запросов: отслеживание обновлений поисковых страниц. Оператор ^^WebSpider доступен в версии 8.1.4 от 31.10.12 программы SiteSputnik News. На картинке на него указывает красная стрелка. ![]() Это позволяет найти обновления результатов поиска для любых пакетов запросов, включая поиск в основных поисковиках и встроенных в сайты поисков, и Рубрицировать их (см. зеленую стрелочку). |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1055 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Благодаря функции WebSpider можно не напрягаясь отслеживать те потоки новостей, которые не удалось зацепить никаким из имеющихся в СайтСпутнике вариантов. ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 803 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Игорь Нежданов написал: Очень интересно! Расскажите пожалуйста поподробнее? Благодаря функции WebSpider можно не напрягаясь отслеживать те потоки новостей, которые не удалось зацепить никаким из имеющихся в СайтСпутнике вариантов. |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1055 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
tungus1973 написал: Игорь Нежданов написал: И тебе привет! - а что это ты на "Вы" перешел? ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1055 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Разобрались после сепаратных переговоров... Значит так - если по какой то причине не получилось подключить страницу как источник информации (ни поисковик, ни РСС). Не нашел начало пункта, не знаю как пользоваться поиском в txt файлах, еще что или просто лень, то можно задействовать функцию WebSpider. В этом случае СайтСпутник действует следующим образом: - "фотографирует" страницу, проходит по всем ссылкам и выкачивает оттуда контент (на этом этапе много лишнего); - при повторном проходе выявляет новое по сравнению с предыдущей версией и забирает контент только с новых ссылок; - ну и рубрицирует найденное. ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 803 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Спасибо! |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1055 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
К стати - можно задать глубину прохождения по ссылкам..... и при необходимости выкачать весь сайт. ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
petryashov
Администратор
Откуда: Москва Всего сообщений: 490 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Пытался протестировать систему мониторинга по инструкции, изложенной на первой странице ветки. Возможно, что-то не так делаю, но вместо полных текстов страниц отображаются только заголовки и теги. |
petryashov
Администратор
Откуда: Москва Всего сообщений: 490 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Вот пакет |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 872 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
petryashov написал: Вот пакет 1. После Новости поставьте знак "точка с запятой", 2. Не Рубрики/Сайтпутник, a Рубрики\СайтСпутник. Чтобы не делать синтаксических ошибок, выбирайте эти операторы из меню (см. красную и зеленую галочки): ![]() |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 872 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Игорь Нежданов написал: Разобрались после сепаратных переговоров... Да, это так (это про источник "|| WebSpider=N"), но в топике #23, всё-таки, речь не об этом. в СайтСпутнике есть оператор: ^^WebSpider; Если он стоит в пакете вместо оператора ^^Новости;, то СайтСпутник переключается на алгоритм нахождения и Рубрикации обновлений по пакету запросов. То есть, выполняется поиск, если находятся новые относительно всех выполненных ранее пакетов ссылки, то они целиком попадают на Рубрикацию. Если ссылка хотя бы один раз уже "попадалась", то СайтСпутник возьмет последнее состояние ссылки, определит что в нем появилось новое (новые фрагменты, обновления) и Рубрицирует эти обновления по тем же Рубрикам, что и новые ссылки. Если Вы мониторите обновление по пакету запросов в поисковиках, то рекомендуется в "Настройках" убрать выделение значимого контента ссылки (см. на вкладке News внизу набранный мелким шрифтом параметр: "Не выделять контент новосити из ссылки (оставлять контент ссылки "как есть")). Если это пакет запросов к "хорошим" источникам , то этого делать не надо. Да, при отказе от выделения контента ссылки всё будет не так "красиво", но не приведет к потере значимой информации. |
<<Назад Вперед>> | Страницы: 1 2 3 4 | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Приемы работы с программой СайтСпутник (SiteSputnik) » SiteSputnik WebSpider. Мониторинг изменений на сайтах |