Конвертация потоков для экспорта в Excel, Access, ... :: Приемы работы с программой СайтСпутник (SiteSputnik) :: Форум СПКР (17)


Первоисточник: http://forum.razved.info/index.php?t=3427&p=36141
Компиляция: программой SiteSputnik - https://sitesputnik.ru/

 
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 872
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
По заявке Игоря Нежданова в версии 8.2.2 от 14.12.2012 реализована конвертация информационных потоков, создаваемых программой SiteSputnik News, в табличный формат, который затем может быть импортирован в Excel, в базу данных на Access и, возможно, в другие программые продукты.

    1. Если в встать на созданный в новой версии "Чистый поток" (это поток информации, создаваемый из всех задействованных в задании источников) или "Всё по Рубрике" (это подпоток "Чистого потока", содержащий информацию на заданную тему), затем нажать на правую кнопку мышки и выбрать пункт (на картинке он отмечен красной галочкой):



    то СайтСпутник конвертирует эти потоки в формат, который умеют импортировать самые различные приложения, например, Excel и Access.

    2. Чтобы автоматически создавать такие файлы и направлять их в нужные папки, рационально прописать клиентские папки для тех "Чистых потоков" и "Всё по Рубрике", информацию из которых Вы собираетесь накапливать в базе данных. Это делается при помощи префикса "table:", поставленного перед клиентской папкой. Например:

      table:C:\Users\AB\Desktop

      D:\Документы\Фирма\Негатив

      table:D:\Документы\Фирма\Негатив

      table:abm@mails.ru

      abm02@mails.ru
      table:httрs://sitesputnik.ru/Stream/


    В первом операторе прописан экспорт конвертированного в табличное представление потока прямо на рабочий стол моего компьютера,
    во втором - в папку D:\Документы\Фирма\Негатив будет отправлен неконвертированный поток,
    в третьем - в эту же папку - конвертированный поток,
    в четветром - конвертированный поток будет оправлен на указанный е-майл.
    в пятом - неконвертированный поток - на другой е-майл.
    в шестом конвертируемый поток отправится на сайт sitesputnik.ru/ в папку /Stream/

    Количество папок экспорта неограничено.
    Количество видов папок три: папка локального компьютера или локальной сети, е-майл ящик, папка глобальной сети (на сайте).

    На картинке ниже - фрагмент конвертации потока в табличную форму.



Эта возможность программы СайтСпутник предназначена для создания баз данных на заданную тему или общей базы.


    Добавление от 21.04.2014

      В настоящее время табличная форма выдачи такова:



      Добавлены столбцы:

      Автор - автор сообщения или новости.
      Tc - время события.
      Дата поиска.
      Тп - время поиска.
      Рубрики - (!) список Рубрик, в которые попало сообщение или новость.
      Объекты/кол-во - список ЮЛ и ФЛ, обнаруженных в сообщении или новости, после наклонной черты указано количество упоминаний ЮЛ и ФЛ.
      Домен 2-го уровня - источник, на котором размещено сообщение или новость.

      Ещё одно замечание.
      Если вместо префикса table: использовать excel:, то конвертация произойдет в формат Excel, расширение xlsx.

    Добавление от 09.01.2018

      Префикс json: обеспечивает конвертацию Рубрик и Чистых потоков в формат json, который может быть получен «вручную» или автоматически.
      Кроме отправки полученного json-файла: в папку сайта, в локальную папку или на E-mail можно отправить его на сервер на API.
      Подробнее на ссылках: Работа на стороне сервера и Работа на стороне клиента.

tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 803
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Спасибо Алексею Мыльникову и Игорю Нежданову за эту функцию! Теперь у СайтСпутника появилась возможность экспорта результатов в базу данных любого формата. Это позволяет использовать СайтСпутник совместно с любой другой аналитической программой.
petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Алексей, делаю вроде бы все по инструкции, но у меня появляются только заголовки таблицы, а сама она пустая

Прикрепленный файл (export-access.jpg, 116378 байт, скачан: 1002 раза)
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 872
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Ящик (Папку) уплотните, а то в нём дыры какие-то. Но это к Вашему вопросу не относится. Попробуйте на данных, полученных в новой версии. У Вас столбец с датой закрыт, может поток Вы выбрали очень старый.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
2 Алексей Мыльников
Заработало, спасибо!

И сразу вопрос: можно ли сделать так, чтобы в эту таблицу транслировались еще и следующие поля:

1. Название Рубрики (или рубрик), в которую (или которые) попал запрос.

2. Дату и время получения новости СайтСпутником из Интернета. Для упрощения обработки в СУБД дату и время лучше разнести по разным столбцам (это же относится и к дате публикации новости)

3. Домен второго уровня отдельным столбцом (для большего удобства группировки источников в СУБД)

4. Если можно, то в отдельном поле через разделитель выделенные в каждой новости Объекты.

5. Там, где есть возможность, желательно выделять еще и авторов публикаций в отдельном столбце.

Чтобы не плодить огромные файлы, эти пункты можно выводить в файл только в том случае, если пользователь прямо на это укажет в настройках. Лично я буду обязательно указывать ;-)

Все это существенно упростит обработку данных в СУБД и окажется востребованным аналитиками

Кстати говоря, пункты 3,4 и 5 могут послужить основой для создания в СайтСпутнике (или СУБД) досье объектов, источников информации и авторов (экспертов)

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 872
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
В целом - да. Это всё понятно. Вроде, больше ничего и не придумаешь, разве что "Источник", который не всегда совпадает с доменом 2-го уровня.

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 872
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
В версии 8.2.4.1 от 15.01.2013 реализовано следующее.

Дата поиска. Выводится в отдельный столбец. Время поиска (поиска, а не публикации) могу сделать легко, но стоит ли? Если стоит, то почему?

Домен 2-го уровня. Выделен также в отдельный столбец.

Рубрики. Через запятую в столбце таблицы перечисляются Рубрики, в которые попала Новость.

Объекты. Не сделал по следующей причине. У Вас, скорее всего, список объектов фиксирован (конкретные конкуренты, или товары, или "Топы", или ), поэтому нет разницы в каком столбце их эскьюэлить: в отдельном или в столбце "Описание", из которого они выделяются.

P.S.
Не забудьте, что есть префикс table:. Если его поставить перед Клиентской папкой, то конвертация потоков и содержмого Рубрик в табличное представление будет выполнено автоматически и отправлено в заданные КП.


tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 803
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009

Алексей Мыльников написал:
[q]
Время поиска (поиска, а не публикации) могу сделать легко, но стоит ли? Если стоит, то почему?
[/q]
Время поиска нужно, если СайтСпутник мониторит тему несколько раз в день. Особенно актуально, например, во время предвыборных компаний. Если из источника поступает много сообщений и разрыв между публикацией новости и появлением её в поисковике значительный, то это сигнал, что нужно отдельно поставить этот источник на мониторинг.
В самом СайтСпутнике время проверки можно посмотреть в таблицах. Однако, если данные выгружаются для анализа в БД, то провести анализ временных разрывов будет невозможно.
petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Полностью согласен с tungus1973

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 872
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

petryashov написал:
[q]
Полностью согласен с tungus1973
[/q]

"Не согласен с обоими", - цитата из классики. Нужно не время поиска, а время события, иначе можно очень сильно ошибиться.

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 872
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
4 petryashov
В версии 8.2.4.6 добавлены столбцы: "Время события" и "Время поиска".
Мне понравился столбец "Рубрики" (сделано ранее по Вашему предложению), в котором перечисляются Рубрики, в которые попала ссылка. Это, в частности, позволяет разбросать ссылки по нескольким таблицам Access, Excel или других Приложений и в дальнейшем эффективнее работать по конкретным темам. Если же Пользователь предпочтет всё держать в одной таблице, то по столбцу Рубрика легко можно находить ссылки, имеющие отношения к конкретной теме.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 490
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
2 Алексей Мыльников
Алексей, спасибо!

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 872
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
4 Nejdanov
    В версиии 8.6.6.1 программы SiteSputnik можно экспортировать (выгрузить) содержание Рубрик, Чистых потоков и потоков комментариев прямо в xlsx-файл программы Excel.

    Всё, что сказано выше о префиксе table: теперь справедливо для нового префикса excel:, за исключением того, что выходной файл формируется как xlsx-файл, а не как html-файл.

    Если коротко, то можно формировать и отправлять xlsx-файлы в папки локальной сети, по e-мейлам и в папки сайта.

    Конкретный пример xlsx-файла, созданного СайтСпутником, на ссылке Рубрика в xlsx-файле.

    Если требуется "вручную" сформировать xlsx-файл, то встаньте на нужную Рубрику или Поток и выберите пункт, отмеченный зелёной галочкой на картинке:



    Xlsx-файл появится прямо на Рабочем столе компьютера.

tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 803
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Алексей Борисович, спасибо!
Давно ждали этот функционал. Теперь собираемую информацию можно анализировать продвинутыми возможностями Excel. Например, можно группировать статьи по датам, по ключевым словам, строить графики частоты упоминания какого-либо события и т.д.
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 872
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

    В версии SiteSputnik News 8.6.9 от 21.04.14 в Табличную форму выдачи добавлены ещё два столбца:

    Автор - автор сообщения, новости или другого вида публикации;
    Объекты/кол-во - список ЮЛ и ФЛ, обнаруженных в сообщении или новости. После наклонной черты указано количество упоминаний ЮЛ и ФЛ.

    В настоящее время табличная форма выдачи такова:



    Например, в таком виде можно экспортировать в табличное информацию для группы НИЯУ МИФИ из соцсети ВКонтакте:



tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 803
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Такая таблица заметно улучшает возможности анализа новостей.
Спасибо!

Вопрос: Иногда бывает, что у статьи сразу два или даже три соавтора. Как такой случай будет обрабатываться в таблице?
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 872
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

tungus1973 написал:
[q]
Такая таблица заметно улучшает возможности анализа новостей.
Спасибо!

Вопрос: Иногда бывает, что у статьи сразу два или даже три соавтора. Как такой случай будет обрабатываться в таблице?
[/q]

Берётся первый автор. В следующей версии поправлю: авторы будут идти через запятую.

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 872
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

    В версии SiteSputnik 9.6.9.7 от 23.04.18 в Табличную форму выдачи добавлен столбец:

    "Мультимедиа", в который помещаются ссылки на элементы мультимедиа, содержащиеся в контенте новости или сообщения.

    Соответственно, эта информация попадает и в выдачу в json-формате.


<<Назад  Вперед>>Страницы: 1 2
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   Конвертация потоков для экспорта в Excel, Access, ...