SiteSputnik. Процедурный поиск в интернете. Автор
Алексей Мыльников
Дата выхода публикации - 15.11.08г.     
Последнее изменение - 27.11.09г.     


Основные понятия, терминология и сокращения.
Данную страницу рекомендуется просматривать при помощи Internet Explorer.

ОП - основные поисковики, а именно: Яндекс, Google, Yahoo, Рамблер, MSN (Live Search), Mail и Апорт.

Метапоиск - это поиск сразу на всех ОП.

ЯЗ - язык запросов поисковика.

Ссылка - веб-страница любого формата, размещенная в интернете, точнее ее адрес (URL).


Замечание от 27.01.09.
Все, о чем говорится в настоящей публикации, справедливо не только для ОП, но и для подключенных с помощью Мастера новых поисковиков и встроенных средств поиска по сайтам.


Цель.
Целесообразность применения нескольких поисковиков при поиске и сборе информации рассматривалась в публикации "SiteSputnik. Сравнительный анализ поисковиков."

Цитата из этой публикации (если ее смысл окажется сложным для восприятия, то перейдите к чтению следующего абзаца): "Процедурный поиск позволяет на 100% использовать алгоритмическую мощность языков запросов каждого поисковика, при этом обеспечивает возможность выполнения запроса, написанного на языке запросов конкретного поисковика, на том и только на том поисковике, на языке которого он написан. Объединенные в пакет несколько таких запросов позволяют максимально полно и точно "запрограммировать" и выполнить задачу поиска и сбора информации по искомому объекту. Повторно найденные ссылки удаляются."

Целью настоящей публикации является разъяснение смысла этой цитаты, а именно: что понимается под процедурным поиском, что такое запрограммировать поисковую задачу, что в СайтСпутник`е имеется ввиду под полным и точным поиском.

Процедурный поиск.
Предположим, что нам требуется собрать информацию в интернете на тему минимизации налогообложения по налогу на добавленную стоимость (НДС), причем нас интересуют только легальные схемы. Сформируем несколько запросов и применим все семь ОП для решения этой задачи.

Пакет запросов.
    ^^Пакет сбора легальных схем минимизации налогооблажения по НДС. Автор Алексей Мыльников.
  1. "схемы оптимизации НДС" +легальные || Метапоиск=30
  2. "схемы минимизации НДС" +легальные || Метапоиск=30
  3. "схемы снижения НДС" +легальные    || Метапоиск=30
  4. +"как вернуть НДС" +легальные      || Mетапоиск=30
  5. "способы вернуть НДС" +легальные   || Метапоиск=30
  6. (схемы | методы | способы) /2 (оптимизации | минимизации) /3 налогов +НДС ~~(черные | серые)  || Yandex=60
  7. (схемы | методы | способы) &<<(оптимизации OR минимизации) &< налогов +НДС NOT(черные | серые)|| Rambler=40
  8. схемы | методы | способы * оптимизации | минимизации ** налогов +НДС -черные -серые   || Google=60
  9. схемы OR методы OR способы оптимизации OR минимизации налогов +НДС -черные -серые     || Yahoo=60
  10. (схемы | методы | способы) (оптимизации | минимизации) налогов +НДС -(черные | серые) || MSN=60
  11. оптимизация /+1 налогооблажения /3 добавленная /+1 стоимость || Yandex=40
  12. +"оптимизации налогооблажения" ** добавленная * стоимость    || Google=40
  13. "вернуть НДС" /2 (вычеты | компенсации | возмещение) || Yandex=50
  14. "вернуть НДС" * вычеты | компенсации | возмещение    || Google=50
  15. "вернуть НДС" && (вычеты | компенсации | возмещение) && легальные || Yandex=40
  16. "вернуть НДС" вычеты | компенсации | возмещение легальные   || Google=40
  17. "вернуть НДС" (вычеты | компенсации | возмещение) легальные || MSN=50
Условные обозначения.
1. Знаками || отделяется текст запроса от поисковика, на котором целесообразно его выполнять, после знака = указана глубина поиска в количестве страниц.
2. Знаки ^^ означают, что правее них расположен комментарий.
3. Нумерация строк не является частью тела пакета. Она сделана для удобства и применяется в приводимых ниже пояснениях.

Замечания.
1. Данные запросы являются демонстрационными и не претендуют на профессиональные как с точки зрения предметной области, к которой они относятся, так и с точки зрения использования ЯЗ.
2. Приведена только часть запросов на данную тему. Ограничений на количество запросов нет.

Важно.
При помощи пакета все эти запросы можно выполнить совместно и получить результирующий список ссылок без повторов. Можно выполнить запросы раздельно, а затем при помощи "Аналитического объединения" объединить и получить аналогичный список и дополнительную аналитическую информацию. Последовательность работы с пакетом описана здесь.

Пояснения.
1. Первые пять запросов - это поиск документов, содержащих точные фразы. Все они отправлены на семь поисковиков. Эти запросы сформированы в данном примере для того, чтобы показать как в СайтСпутник`е можно "запрограммировать" логическое "ИЛИ". Всего здесь задано 35 логических "ИЛИ", а именно, пять запросов, в каждом из которых использованы по семь поисковиков. В результирующем списке все повторы ссылок будут удалены.
2. Запрос под номером 6 написан на ЯЗ Яндекса. Конструкция ~~(черные | серые), означает, что документы, содержащие словоформы от слов "черные" или "серые", не удовлетворяют запросу. Она не будет "понята" верно ни на одном поисковике, поэтому выглядит по-другому в запросах 7, 8, 9 и 10, написанных соответственно на ЯЗ Рамблера, Google, Yahoo и MSN. Также эти запросы отличаются способом указания расстояния между словами и возможностью применения скобок.
3. Остальные запросы также написаны на разных ЯЗ. Они могут быть любой сложности.

Вы можете прямо из читаемого в данный момент текста скопировать все 17 запросов и выполнить их в пакетном поиске программы SiteSputnik. Вот начало и окончание списка ссылок, собранных в результате такого действия.

Дата выполнения пакета - 13.11.08г.

  1. Yandex ...
  1. легальные методы уменьшения налоговых обязательств по НДС . схемы оптимизации НДС при совершении отдельных операций; эффективность оптимизации НДС.
    www.finofficer.ru/Ed/Seminar/EdIzmVAT.htm  · 37 КБ
    --

  2. ­
  3. Белые схемы оптимизации НДС  02/04/2008.
    www.testnaspam.ru/tag_35  · 15 КБ
    --

  4. ­
  5. На конкретных примерах представлены методы определения налоговой нагрузки организации и схемы оптимизации НДС через учетную политику и договоры гражданско-правового характера.
    www.booknavigator.ru/?page=itrec_104&id=4645  · 23 КБ
    --

  6. ­
  7. Схемы оптимизации НДС. Схемы минимизации НДС. Глава 4. Налогообложение прибыли. Схемы оптимизации налога на прибыль. Схемы минимизации налога на прибыль.
    www.bizbook.ru/book.html?id=4084  · 20 КБ
    --
  8. ­
• • •
  1. Если проблема в оптимизации налогообложения, то добавленную стоимость и прибыль надо выводить в третьи фирмы.
    forum.aup.ru/viewtopic.php?t=1050  · 5 КБ
    --

  2. ­
  3. ...оптимизации налогообложения добавленной стоимости. 1. Налог на добавленную стоимость, его сущность и роль в образовании доходов бюджета. 1.1. Сущность налога на добавленную стоимость, его место в налоговой системе Российской Федерации.
    revolution.allbest.ru/finance/00005660_0.html  · 87 КБ
    --

  4. ­
    1. MSN/Live ...

  5. Как вернуть НДС: вычеты и компенсации
    ... в том числе и вполне легальные ... Как вернуть НДС: вычеты и компенсации: Как перевести ...
    www.grossmedia.ru/book.asp?book_id=867&id=2
  6. --

Замечание.
В данном случае SiteSputnik работает исключительно с поисковиками. Поэтому точность поиска зависит от того, насколько точно Вы сформировали запросы.

Почему такие названия?
Для процедурных языков программирования, к которым относится, например, хорошо известный Pascal, характерно то, что задача в них кодируется оператор за оператором, строка за строкой. По аналогии, рассмотренный способ сбора информации в SiteSputnik`e назван процедурным поиском.

Термин запрограммировать поисковую задачу происходит из этих же соображений.

Полным поиск называется потому, что можно сформировать достаточное количество запросов на нескольких поисковиках.

Под точным поиском понимается то, что каждый конкретный запрос можно написать на конкретном ЯЗ и выполнить его на том и только на том поисковике, на языке запросов которого он написан.

Важно.
Если в процессе поиска будет обнаружено, что для сбора информации требуется выполнение еще нескольких запросов, то это может быть сделано в любое время. Полученные результаты можно объединить с результатами предыдущего поиска. Новые ссылки можно выделить в отдельный список. Под новыми понимаются не все найденные в новом запросе ссылки, а только те из них, которые не содержатся в результате предыдущего поиска.

Практический пример.
В публикации Дмитрия "МОS", с которым автор этих строк постоянно обсуждает проблемы поиска информации на форуме и в частной переписке, приведен такой пример. Возьму только его одну четвертую часть, а именно, первый пакет.

^^ Пакет №1. Поиск на файлообменниках нескольких программ. Автор Дмитрий "MOS".

^^ 1.1. - Адреса СОДЕРЖАТ название файлообменников.

 

^^ В ГУГЛЕ:

^^ рекомендую названия брать в кавычки - Гугль иногда считает себя вправе разбивать составне слова на отдельные:

("SiteSputnik" | "FragmentsFromFiles" | "FileForFiles" | "LocalFileFinder" | "IEMarker" | "СайтСпутник") inurl:depositfiles.com/files/ || Google=100

("SiteSputnik" | "FragmentsFromFiles" | "FileForFiles" | "LocalFileFinder" | "IEMarker" | "СайтСпутник") inurl:upload.com.ua/get/ || Google=100

("SiteSputnik" | "FragmentsFromFiles" | "FileForFiles" | "LocalFileFinder" | "IEMarker" | "СайтСпутник") inurl:vip-file.com/download/ || Google=100

("SiteSputnik" | "FragmentsFromFiles" | "FileForFiles" | "LocalFileFinder" | "IEMarker" | "СайтСпутник") inurl:letitbit.net/download/ || Google=100

("SiteSputnik" | "FragmentsFromFiles" | "FileForFiles" | "LocalFileFinder" | "IEMarker" | "СайтСпутник") inurl:rapidshare.com/files/ || Google=100

("SiteSputnik" | "FragmentsFromFiles" | "FileForFiles" | "LocalFileFinder" | "IEMarker" | "СайтСпутник") inurl:rapidshare.de/files/ || Google=100

("SiteSputnik" | "FragmentsFromFiles" | "FileForFiles" | "LocalFileFinder" | "IEMarker" | "СайтСпутник") inurl:filefactory.com/file/ || Google=100

("SiteSputnik" | "FragmentsFromFiles" | "FileForFiles" | "LocalFileFinder" | "IEMarker" | "СайтСпутник") inurl:sms4file.com/download/ || Google=100

("SiteSputnik" | "FragmentsFromFiles" | "FileForFiles" | "LocalFileFinder" | "IEMarker" | "СайтСпутник") inurl:ifolder.ru/ || Google=100

("SiteSputnik" | "FragmentsFromFiles" | "FileForFiles" | "LocalFileFinder" | "IEMarker" | "СайтСпутник") inurl:4files.net/ || Google=100

 

^^ В ЯНДЕКСЕ:

(SiteSputnik | FragmentsFromFiles | FileForFiles | LocalFileFinder | IEMarker | СайтСпутник) << url="depositfiles.com/files/*" || Yandex=100

(SiteSputnik | FragmentsFromFiles | FileForFiles | LocalFileFinder | IEMarker | СайтСпутник) << url="upload.com.ua/get/*" || Yandex=100

(SiteSputnik | FragmentsFromFiles | FileForFiles | LocalFileFinder | IEMarker | СайтСпутник) << url="vip-file.com/download/*" || Yandex=100

(SiteSputnik | FragmentsFromFiles | FileForFiles | LocalFileFinder | IEMarker | СайтСпутник) << url="letitbit.net/download/*" || Yandex=100

(SiteSputnik | FragmentsFromFiles | FileForFiles | LocalFileFinder | IEMarker | СайтСпутник) << url="rapidshare.com/files/*" || Yandex=100

(SiteSputnik | FragmentsFromFiles | FileForFiles | LocalFileFinder | IEMarker | СайтСпутник) << url="filefactory.com/file/*" || Yandex=100

(SiteSputnik | FragmentsFromFiles | FileForFiles | LocalFileFinder | IEMarker | СайтСпутник) << url="sms4file.com/download/*" || Yandex=100

(SiteSputnik | FragmentsFromFiles | FileForFiles | LocalFileFinder | IEMarker | СайтСпутник) << url="ifolder.ru/*" || Yandex=100

(SiteSputnik | FragmentsFromFiles | FileForFiles | LocalFileFinder | IEMarker | СайтСпутник) << url="4files.net*" || Yandex=100

^^ N.B. - Использование последних двух яндексовских запросов (для ifolder и 4files) неэффективно, поскольку многие страницы этих ресурсов не начинаются с их названия. Этот недостаток мы выровняем другими запросами. Но оставим их тоже.

 

^^ В ЯХУ:

(SiteSputnik OR FragmentsFromFiles OR FileForFiles OR LocalFileFinder OR IEMarker OR СайтСпутник) inurl:depositfiles.com || Yahoo=100

(SiteSputnik OR FragmentsFromFiles OR FileForFiles OR LocalFileFinder OR IEMarker OR СайтСпутник) inurl:upload.com.ua || Yahoo=100

(SiteSputnik OR FragmentsFromFiles OR FileForFiles OR LocalFileFinder OR IEMarker OR СайтСпутник) inurl:vip-file.com || Yahoo=100

(SiteSputnik OR FragmentsFromFiles OR FileForFiles OR LocalFileFinder OR IEMarker OR СайтСпутник) inurl:letitbit.net || Yahoo=100

(SiteSputnik OR FragmentsFromFiles OR FileForFiles OR LocalFileFinder OR IEMarker OR СайтСпутник) inurl:rapidshare.com || Yahoo=100

(SiteSputnik OR FragmentsFromFiles OR FileForFiles OR LocalFileFinder OR IEMarker OR СайтСпутник) inurl:rapidshare.de || Yahoo=100

(SiteSputnik OR FragmentsFromFiles OR FileForFiles OR LocalFileFinder OR IEMarker OR СайтСпутник) inurl:www.filefactory.com || Yahoo=100

(SiteSputnik OR FragmentsFromFiles OR FileForFiles OR LocalFileFinder OR IEMarker OR СайтСпутник) inurl:sms4file.com || Yahoo=100

(SiteSputnik OR FragmentsFromFiles OR FileForFiles OR LocalFileFinder OR IEMarker OR СайтСпутник) inurl:ifolder.ru || Yahoo=100

(SiteSputnik OR FragmentsFromFiles OR FileForFiles OR LocalFileFinder OR IEMarker OR СайтСпутник) inurl:4files.net || Yahoo=100

 

^^ 1.2. - Адреса страниц ПРИНАДЛЕЖАТ К ДОМЕНАМ файлообменников.

 

^^ В ГУГЛЕ:

("SiteSputnik" | "FragmentsFromFiles" | "FileForFiles" | "LocalFileFinder" | "IEMarker" | "СайтСпутник") site:depositfiles.com || Google=100

("SiteSputnik" | "FragmentsFromFiles" | "FileForFiles" | "LocalFileFinder" | "IEMarker" | "СайтСпутник") site:upload.com.ua || Google=100

("SiteSputnik" | "FragmentsFromFiles" | "FileForFiles" | "LocalFileFinder" | "IEMarker" | "СайтСпутник") site:vip-file.com || Google=100

("SiteSputnik" | "FragmentsFromFiles" | "FileForFiles" | "LocalFileFinder" | "IEMarker" | "СайтСпутник") site:letitbit.net || Google=100

("SiteSputnik" | "FragmentsFromFiles" | "FileForFiles" | "LocalFileFinder" | "IEMarker" | "СайтСпутник") site:rapidshare.com || Google=100

("SiteSputnik" | "FragmentsFromFiles" | "FileForFiles" | "LocalFileFinder" | "IEMarker" | "СайтСпутник") site:rapidshare.de || Google=100

("SiteSputnik" | "FragmentsFromFiles" | "FileForFiles" | "LocalFileFinder" | "IEMarker" | "СайтСпутник") site:www.filefactory.com || Google=100

("SiteSputnik" | "FragmentsFromFiles" | "FileForFiles" | "LocalFileFinder" | "IEMarker" | "СайтСпутник") site:sms4file.com || Google=100

("SiteSputnik" | "FragmentsFromFiles" | "FileForFiles" | "LocalFileFinder" | "IEMarker" | "СайтСпутник") site:ifolder.ru || Google=100

("SiteSputnik" | "FragmentsFromFiles" | "FileForFiles" | "LocalFileFinder" | "IEMarker" | "СайтСпутник") site:4files.net || Google=100

^^ N.B. - в адресах доменах для vip-file и filefactory учтено предварительное написание www.

 

^^ В ЯНДЕКСЕ:

(SiteSputnik | FragmentsFromFiles | FileForFiles | LocalFileFinder | IEMarker | СайтСпутник) << (domain="depositfiles" /+1 domain="com") || Yandex=100

(SiteSputnik | FragmentsFromFiles | FileForFiles | LocalFileFinder | IEMarker | СайтСпутник) << (domain="upload" /+1 domain="com") || Yandex=100

(SiteSputnik | FragmentsFromFiles | FileForFiles | LocalFileFinder | IEMarker | СайтСпутник) << (domain="vip-file" /+1 domain="com") || Yandex=100

(SiteSputnik | FragmentsFromFiles | FileForFiles | LocalFileFinder | IEMarker | СайтСпутник) << (domain="letitbit" /+1 domain="net") || Yandex=100

(SiteSputnik | FragmentsFromFiles | FileForFiles | LocalFileFinder | IEMarker | СайтСпутник) << (domain="rapidshare" /+1 (domain="de" | domain="com")) || Yandex=100

(SiteSputnik | FragmentsFromFiles | FileForFiles | LocalFileFinder | IEMarker | СайтСпутник) << (domain="filefactory" /+1 domain="com") || Yandex=100

(SiteSputnik | FragmentsFromFiles | FileForFiles | LocalFileFinder | IEMarker | СайтСпутник) << (domain="sms4file" /+1 domain="com") || Yandex=100

(SiteSputnik | FragmentsFromFiles | FileForFiles | LocalFileFinder | IEMarker | СайтСпутник) << (domain="ifolder" /+1 domain="ru") || Yandex=100

(SiteSputnik | FragmentsFromFiles | FileForFiles | LocalFileFinder | IEMarker | СайтСпутник) << (domain="4files" /+1 domain="net" || Yandex=100

^^ N.B. - В Яндексе прописаны домены нескольких уровней. Их также можно объединять в комбинации, как для rapidshre

^^ N.B. - Яндекс выдает странные результаты для vip-file даже по запросам << domain="vip-file" - только главные страницы. Причина мне не известна.

 

^^ В ЯХУ:

(SiteSputnik OR FragmentsFromFiles OR FileForFiles OR LocalFileFinder OR IEMarker OR СайтСпутник) domain:depositfiles.com || Yahoo=100

(SiteSputnik OR FragmentsFromFiles OR FileForFiles OR LocalFileFinder OR IEMarker OR СайтСпутник) domain:upload.com.ua || Yahoo=100

(SiteSputnik OR FragmentsFromFiles OR FileForFiles OR LocalFileFinder OR IEMarker OR СайтСпутник) domain:vip-file.com || Yahoo=100

(SiteSputnik OR FragmentsFromFiles OR FileForFiles OR LocalFileFinder OR IEMarker OR СайтСпутник) domain:letitbit.net || Yahoo=100

(SiteSputnik OR FragmentsFromFiles OR FileForFiles OR LocalFileFinder OR IEMarker OR СайтСпутник) domain:rapidshare.com || Yahoo=100

(SiteSputnik OR FragmentsFromFiles OR FileForFiles OR LocalFileFinder OR IEMarker OR СайтСпутник) domain:rapidshare.de || Yahoo=100

(SiteSputnik OR FragmentsFromFiles OR FileForFiles OR LocalFileFinder OR IEMarker OR СайтСпутник) domain:www.filefactory.com || Yahoo=100

(SiteSputnik OR FragmentsFromFiles OR FileForFiles OR LocalFileFinder OR IEMarker OR СайтСпутник) domain:sms4file.com || Yahoo=100

(SiteSputnik OR FragmentsFromFiles OR FileForFiles OR LocalFileFinder OR IEMarker OR СайтСпутник) domain:ifolder.ru || Yahoo=100

(SiteSputnik OR FragmentsFromFiles OR FileForFiles OR LocalFileFinder OR IEMarker OR СайтСпутник) domain:4files.net || Yahoo=100

^^ N.B. - вместо domain: можно также использовать site:.


На этом примере хорошо "проиллюстрированы" понятия процедурного поиска, программирования поисковой задачи, полного и точного поиска. Есть комментарии, пропуски строк и пробелы для наглядности, сформированы сложные операторы. Исходный текст такой программы сохраняется в файле, который можно отредактировать и выполнить повторно. Также как и в предыдущем случае, Вы можете прямо из читаемого в данный момент текста, скопировать эту программу и выполнить ее в SiteSputnik`е в режиме пакетного поиска.

Об уникальности.
Рассмотренный в данной публикации поисковый инструмент не имеет аналогов в отечественных и зарубежных разработках.

Список литературы.
Приложение FileForFiles & SiteSputnik хорошо документировано. Полный список публикаций по программе: инструкции, очерки, статьи, отзывы, пресс-релизы, обсуждения на нескольких форумах, полевые испытания, - собран на этой странице.

О сотрудничестве.
Ваши предложения по развитию программы можно обсудить с автором.
Пишите по этому электронному адресу.
Скачать программу можно здесь.

Copyright © Автор ИП Мыльников Алексей Борисович, г. Волгоград, 2018г. Все права защищены.