Сбор и структурирование данных

Собираем всё и везде

Сбор данных

Мы собираем данные с помощью веб-парсинга. На данный момент 57 тысяч виртуальных эмуляторов браузеров (наша обертка над Selenium) собирают данные по социальным сетям.

Типы данных

У нас имеется полная копия ВКонтакте и Одноклассников без медиа контента, полная копия русскоязычного сегмента Facebook и Instagram, а также копии Twitter, Tumbler, и др. Мы также собираем сториз в Instagram, YouTube, Periscope и каналы мессенджеров, блоги, форумы, поисковую выдачу, государственные реестры (юридические лица, ФССП, база судопроизводства и т.д.). Наши парсеры собирают информацию с различных сервисов, таких как Авито, AirBnb, Юла, ЦИАН и т.д., СМИ и мобильных приложений (YouDo, Tinder, Badoo).

Обработка данных

После появления поста, комментария, новости или любой другой информации в перечисленных источниках эти данные собираются нашими парсерами, обрабатываются, анализируются и структурируются для дальнейшей работы.

Источники

  • СМИ
  • Блоги и форумы
  • Сервисы отзывов
  • Facebook
  • ВКонтакте
  • Twitter
  • Instagram
  • Одноклассники
  • Booking/AirBnb/Циан/Авито
  • Tinder/Badoo/Mamba
  • LinkedIn
  • Google+
  • YouTube
  • LiveJournal
  • Periscope
  • RSS ленты сайтов
  • Реестры юридических лиц и недвижимости
  • Поисковая выдача
  • Рекламные площадки
  • Обезличенные данные банков и мобильных операторов