SiteSputnik. Работа с найденными ссылками (веб-страницами).
Дата выхода публикации: 24.04.07г.     



Устаревшая (историческая) страница. Её контент обновлю в ближайшее время.

Главная страница сайта о программе: Поиск, сбор, мониторинг интернета.


Терминология и сокращения.
УП - условие поиска. УП будем называть запрос на языке запросов Яндекса или другого поисковика.
АО - аналитическое объединение.


Поиск окончен. Ссылки найдены. Что дальше?


Шаг 1. Выбор ссылок.
Итак, поиск окончен. Получен список ссылок в виде простого или аналитического объединения. Он соответственно называется Простое объединение и АО - объединение. Для дальнейших пояснений возьмем развернутый на весь экран второй список и назовем его просто Объединение.

Объединение

Теперь можно пойти двумя путями.

Путь 1.
Посредством нажатия на ссылки открывать их браузером, установленным по умолчанию, другими словами, окончить работу в программе SiteSputnik и перейти к работе с другими программами.

Путь 2.
Для продолжения работы в СайтСпутник''е нажмите на серые шарики в списке Объединение, принадлежащие тем пунктам, которые Вас заинтересовали. Серые шарики превратятся в зеленые. Выбрав несколько заинтересовавших Вас пунктов, нажмите на большой зеленый шарик. Это приведет к созданию списка Отмеченные, который содержит только выбранные Вами пункты (ссылки).

SiteSputnik - Отмеченные

Для того, чтобы открыть сразу все ссылки из отмеченных пунктов, нажмите на большой шарик с зеленой стрелкой. Оба больших шарика имеются также на верхней панели инструментов.

Другие действия.
1. Можно еще раз просмотреть Отмеченные ссылки и, при необходимости, отказаться от открытия некоторых из них посредством нажатия на соответствующий маленький зеленый шарик, что приведет к превращению его в серый шарик.

СайтСпутник - Дополнительные операции

2. Обратившись к картинке Операции над списком, можно отметить все пункты, можно убрать все отметки, можно сделать жесткое объединение - оставить не более одной ссылки для каждого корневого домена. То есть, если имеются ссылки http://ab.nn.ru/h1.htm и http://ab.nn.ru/h2.htm, принадлежащие домену nn.ru, то в жестком объединении отстанется только первая ссылка (пункт содержащий эту ссылку). Также можно экспортировать ссылки в текстовый файл, html-файл и построить веб-карту из найденных ссылок. Эта картинка имеется в конце всех списков, создаваемых программой СайтСпутник, в том числе и в конце списка Объединение.
3. В настройках можно прописать СайтСпутник''у следующее задание. После завершения поиска, не останавливаясь, автоматически перейти к скачиванию и скачать сразу все найденные ссылки, можно дополнительно скачать еще кеш-ссылки (подробнее здесь).



Шаг 2. Открытые ссылки.
Итак, после нажатия на большой шарик с зеленой стрелкой дожидаемся окончания процесса открытия ссылок. Если Вы отметили документы Word, Excel или другие не html-документы, то они будут скачаны. В нашем примере SiteSputnik откроет и автоматически запомнит в базе данных "Ссылки открытые" три выбранные ссылки.

Ссылка 1



Ссылка 2



Ссылка 3

Если Вы желаете удалить конкретную открытую ссылку из базы данных, то нажмите на соответствующий красный крестик (обведен синей окружностью), если требуется удалить все открытые ссылки, принадлежащие нижней таблице и родительскую строку верхней таблицы, то нажмите на иконку "Корзина" (обведена черной окружностью).

Советы от автора
Оставляйте все открытые ссылки, даже ненужные. Это не займет много места на диске, но поможет Вам, например, избежать скачивания через некоторый промежуток времени заведомо ненужной информации. Кроме этого, Вы будете иметь своеобразный кеш, историю Вашей работы, что может пригодиться в будущем. Можно будет мониторить скачанные ссылки по контенту.


Важные опции.
Зеленым прямоугольником обведены две очень важные опции, которые применимы на открытых ссылках.
1. Offline - присутствие галочки обеспечивает полную блокировку подкачки при просмотре открытых ссылок.
2. Браузер - присутствие галочки означает следующее. Если при просмотре открытой ссылки Вы кликните мышкой по гиперссылке, то гиперссылка будет открываться установленным по умолчанию браузером. Важно. Отсутствие галочки приводит к запоминанию URL гиперссылок в нижней таблице. Запомнив несколько гиперссылок, можно открыть их сразу все или каждую отдельно. Такой режим работы позволяет поступательно просматривать информацию, не "прыгая" от родительских ссылок к дочерним и от дочерних к родительским.

Контекстный граббер.
Реализована Бета версия функции, называемой контекстным граббером. Способ обращения к ней показан на приведенной ниже картинке.

Вызов граббера

В настоящее время контекстный граббер умеет обходить все открытые страницы для одного запроса, выделять в них фрагменты, содержащие заданное слово или фразу, и запоминать выделенные фрагменты в специальном списке.

Граббер 1

На картинке выше собраны фрагменты страниц, содержащие слово "SiteSputnik".
На картинке ниже собраны фрагменты страниц, содержащие слово "Фрагмент".
Красными галочками отмечены ссылки на страницы-источники найденных фрагментов. Нажатие мышкой на ссылку приведет к открытию страницы-источника браузером, установленным по умолчанию.

Граббер 2

Ввиду отсутствия обратной связи от пользователей, развитие контекстного граббера приостановлено. Планировалось создать инструмент для определения группы страниц, на которых будет выполняться контексный граббер, а также реализация более сложного условия для определения вырезаемых фрагментов, вместо самого простого условия - одного единственного слова или одной единственной фразы. Если у Вас есть интерес к развитию этой операции, то можете связаться с автором по электронному адресу.


Шаг 3. Возможности СайтСпутник''а не удовлетворяют Вашим запросам или исчерпаны. Что делать?
SiteSputnik - это инструмент не сам в себе и не сам для себя. Это открытая система. В любой момент Вы можете покинуть СайтСпутник и на основе полученных в нем результатов продолжить работу в других программах. Все результаты своей работы: базы данных, папки, файлы, списки, - СайтСпутник раскладывает по папкам. Перечень папок приведен на картинке ниже.

Граббер 1

Alias Здесь размещены базы данных.
Condition Files Библиотека пакетов запросов.
Condition Forms Библиотека пакетов с параметрами.
DataBase Files Папки, файлы и списки, сохраненные в "Базе данных".
Fragment Files Здесь хранятся фрагменты из файлов.
Group Files Поименованные группы запросов. Над запросами из группы можно выполнить специальные групповые операции.
Internet Files       Перечень папок с сохраненными страницами поисковиков, списками "Объединение", "Отмеченные", "Новые", "Открытые", "Статистика".
Internet Pages Перечень папок с сохраненными открытыми ссылками и скачанными файлами.
Help и Sys Эти папки используются программой SiteSputnik. Их "посещение" не рекомендуется.

Наибольший интерес для продолжения обработки информации в других программах представляют две папки, отмеченные красной галочкой. Они содержат соответственно найденные ссылки и открытые ссылки.

Варианты работ.
На практике автору известны следующие варианты работ с использованем результатов, полученных в SiteSputnik.
1. Список "Объединение" -> открытие ссылок установленным по умолчанию браузером.
2. Список "Объединение" -> экспорт URL ссылок -> менеджер закачек -> локальный поиск.
3. Папки с открытыми ссылками -> программа Архивариус нацеливается на всю папку Internet Pages или на одну или несколько вложенных в нее папок.
4. Опции "Скачивать только текстовую часть ссылок" и "Найти и открыть все найденные ссылки" -> локальный поиск.


Список литературы.
Приложение FileForFiles & SiteSputnik хорошо документировано. Полный список публикаций по программе: инструкции, очерки, статьи, отзывы, пресс-релизы, обсуждения на нескольких форумах, полевые испытания, - собран на этой странице.


Copyright © 2003-2023 ИП Мыльников Алексей Борисович. Все права защищены. E-mail: 1a@sitesputnik.ru, +7(8442) 73 71 23, +7(905) 3 92 97 92