Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1055 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Доктор ТуамОсес написал: Доктор ТуамОсес написал: У меня СайтСпутник работает ежедневно. В среднем вытаскивает каждые сутки от 12 до 18 тысяч полнотекстовых сообщений (а не только ссылок), которые затем вычищаются и рубрицируются в 120 Рубрик. И что? 800 ссылок это "мелочь" для программы. ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
Доктор ТуамОсес |
Профиль | Игнорировать
NEW! Сообщение отправлено: 21 сентября 2013 2:10 Сообщение отредактировано: 21 сентября 2013 2:31
[q=Игорь Нежданов]У меня СайтСпутник работает ежедневно. В среднем вытаскивает каждые сутки от 12 до 18 тысяч полнотекстовых сообщений [/q] Очень любопытно В связи с этим у меня к Вам ряд вопросов: - Это в гигабайтах сколько? - У Вас наверное очень жирный канал (сколько мегабайт в секунду средняя скорость даунлодадинга) - Зачем Вам так много инфы? Что Вы с ней делаете-то? Или Вы просто сканируете в инет на предмет чего-то конкретного? Типа "а не появилось ли "оно"?" - Вы согласны, что 99,9 % скаченной инфы - это шлак/мусор? Тогда зачем её качать? [q=Игорь Нежданов] 800 ссылок это "мелочь" для программы. [/q] Но для моего старенького компа и "тоненького" инет канала это огромная нагрузка. 18 000 веб страниц ... это примерно 5 гигабайт инфы в день. Зачем столько? Ведь человек даже сотню страниц в день не осилит вдумчиво прочитать. Или Вы не читаете, а просто сканируете? [q=Игорь Нежданов]800 ссылок это "мелочь" для программы. [/q] У меня одна страница загружается в среднем за 20 секунд. 800 x 20 = 16 000 секунд. Т.е. примерно 4,5 часа потребутся программе.. Я за это время 10 раз уже успею вручную "нагуглить" то, что мне надо Путем анализа выдачи поисковиков и модификации по результатам этой выдачи своих поисковых запросов И вообще, ИМХО, устраивать у себя на компе мини-гугль (закачивая на хард с целью анализа десятки тысяч ссылок) - это порочная идея. ИМХО, нужно бить интеллектуальностью, чтобы как можно меньше качать на хард не нужной инфы. А не тупо, "в лоб" качать всё что попалось За счёт чего это можно сделать? 1) За счёт более детального анализа сниппетов выдачи поисковиков и содержимого все-таки скачанных на хард веб-страниц 2) За счёт более лучших и качественных запросов Поэтому, ИМХО, главными задачами программы должны быть: 1) автоматизация анализа сниппетов и скачанных веб-страниц 2) автоматизация фильтрации "левой" информации 3) [b]автоматическое[/b] (или интерактивное в режиме "подсказка") генерирование новых "хороших" запросов по результатам анализа ---
Я разработчик новых концепций, от которых содрогнется вся цивилизация doctortuamoses.0pk.ru |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1055 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Доктор ТуамОсес написал: В связи с этим у меня к Вам ряд вопросов: По разному - от двухстрочных сообщений в твиттере или в соцсети, до аналитических текстов в десяток страниц. Поэтому каждый раз по разному. Доктор ТуамОсес написал:
Канал не плохой - утверждают, что не менее 512 мегабит. Доктор ТуамОсес написал:
У меня за 30 постоянных потребителей информации, каждого из которых интересует от одного до 15 тем (направлений). По этим темам основной вопрос именно тот - "не появилось ли чего то ценного по ней". Доктор ТуамОсес написал:
Нет - это как настроить первичный сбор информации. Т.е выбрать правильные источники, составить правильные запросы и т.п. "мусорной информации" (по ощущениям - не считал) не более 20%. И, полагаю можно еще подсократить, но это нужно тщательнее поработать с источниками. Доктор ТуамОсес написал: Зачем столько? Ведь человек даже сотню страниц в день не осилит вдумчиво прочитать. Или Вы не читаете, а просто сканируете? Надеюсь уже ответил на этот вопрос. Из всего объема именно для меня всего 5 тем, в каждой по 2 - 10 сообщений в сутки. Медленный инет это не приятно. Но и в этом случае СайтСпутник сильно облегчает жизнь Предполагаю, что вы не используете возможности тонкой настройки (их нет в бесплатной версии) и правильного построения запросов к источникам информации. Тем ни менее с вашим общим посылом я согласен - на счет того, что нужно максимально поднимать эффективность. ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 872 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 22 сентября 2013 19:32 Сообщение отредактировано: 22 сентября 2013 19:34 Доктор ТуамОсес написал: Я же писал: Отвечу: напишите в Яндексе: Лев /1 Толстой или Лев /2 Толстой и 800 страниц скачивать не надо будет. Доктор ТуамОсес написал: А если триал версия глючит (копки исчезают, постоянно вылетает с потерей данных, описалова нормального нет и т.д. и т.п. А это уже некорректное заявление. Пробный вариант не глючит, а свернулся до минимума и не дает развернуться, потому что срок его действия кончился. Об этом Пользователю постоянно выводится сообщение: "Программа не зарегистрирована, её функциональные возможности огрничены". Остался поиск на глубину одной страницы для основных поисковиков. Вам об этом не раз писали, и не только я. Вы опять повторяете, то на что ранее получили ответ. Если хотите, то в следующей версии я сделаю так, что программа, у которой истек срок опробации, просто не будет открываться. Доктор ТуамОсес написал: Поэтому, ИМХО, главными задачами программы должны быть: |
Доктор ТуамОсес |
Профиль | Игнорировать
NEW! Сообщение отправлено: 23 сентября 2013 1:04 Сообщение отредактировано: 23 сентября 2013 1:12
[q=Алексей Мыльников]А это уже некорректное заявление. Пробный вариант не глючит, а свернулся до минимума и не дает развернуться, потому что срок его действия кончился. Об этом Пользователю постоянно выводится сообщение: "Программа не зарегистрирована, её функциональные возможности огрничены". Остался поиск на глубину одной страницы для основных поисковиков. Вам об этом не раз писали, и не только я. Вы опять повторяете, то на что ранее получили ответ. Если хотите, то в следующей версии я сделаю так, что программа, у которой истек срок опробации, просто не будет открываться.[/q] Пробный период если не ошибаюсь 30 дней? А у меня "возраст" программы всего 2 дня. А глюки с исчезанием кнопок и вылетами всё равно есть [q=Алексей Мыльников]напишите в Яндексе: Лев /1 Толстой или Лев /2 Толстой и 800 страниц скачивать не надо будет.[/q] Если бы... Всё было так просто [q=Алексей Мыльников]Остался поиск на глубину одной страницы для основных поисковиков.[/q] Ну это легко обходится путем создания своего сценария ---
Я разработчик новых концепций, от которых содрогнется вся цивилизация doctortuamoses.0pk.ru |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 872 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Черные и Белые списки в рамках Проекта Доступно, начиная с версии SiteSputnik Pro 9.9.4.2 от 21.07.2021. Всё что написано выше, а именно, Черные и Белые списки, действующие в рамках Запроса, - остаётся в силе. Если эти списки прописаны, то они приоритетнее нижеследующих списков. В рамках Проекта Черные и Белые списки можно прописать следующим образом: ![]() Красная стрелка показыает как выбирается текстовый файл, содержащий Черный и/или Белый список, а Красной линией обведено имя выбранного файла. Пример содержания файла: sitesputnik.ru freesoft.ru ci-razvedka.ru razvedka-internet.ru info-war.ru nejdanov.ru informnn.ru marketinginform.ru forum.razved.info Имена сайтов или любые другие лексемы записываются в нём просто в столбик. |
Вперед>> | Страницы: 1 2 3 4 5 6 * 7 | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Предложения по программе для допроса Интернета СайтСпутник » Блэклист сайтов |