Георгий Власов
Мы заходим в социальные сети так часто, что впору начать считать время, которое мы проводим без них, в чистом офлайне. Самый крупный из пожирателей нашего времени, внимания и данных, это, пожалуй, Instagram, созданный изначально в качестве конкурента чекин-сервиса Foursquare. Вот уже больше десяти лет (отсчитывая от загрузки приложения в App Store 6 октября 2010 года) мы щедро дарим компании очень много информации о нашей жизни. Давайте посмотрим, насколько глубок наш цифровой след и какие возможности он дает для изучения нашего поведения.
Аудитория Instagram (который с 2012 года принадлежит Facebook) исчисляется миллиардами, число пользователей постоянно растёт: в 2019 году Марк Цукерберг рассказал, что по просмотрам Instagram Stories превысили 500 млн пользователей в день.
Поставив лайк, добавив друга, вступив в сообщество или отметившись в фотографии с друзьями, мы оставляем в сети так называемые цифровые следы — гигабайты информации о своих действиях. Следы бывают двух типов: активные и пассивные. К первым относятся непосредственно наши активности, ко вторым — информацию о нас, оставленную кем-то другим.
Ваша подруга выложила фотографию в Instagram и отметила на ней вас. Это — пассивный цифровой след.
Вам понравилось видео, которое ваш друг выложил в ленту. Вы поставили лайк и прокомментировали его. Это — активный цифровой след.
Активные цифровые следы обычно обычно представляют для соцсетей наибольшую ценность, поскольку позволяют владельцам данных понять, каков наш осознанный выбор. К примеру, Tinder отслеживает данные о количестве лайков для категоризации пользователей (если вы лайкаете всех подряд, то приложение уменьшит ваш внутренний рейтинг и будет показывать вас меньшему количеству пользователей), а работодатели используют цифровой след в качестве основы для оценки характера кандидата на рабочее место. В Китае уже давно разработана и успешно функционирует модель социального рейтинга, базирующуюся в том числе на активных цифровых следах в соцсетях.
Пассивные следы тоже важны: их сложнее скрыть, а удалить бывает невозможно, что вызывает дискуссии о том, насколько правильно отмечать друзей на фото.
Зачем это нужно?
Наши цифровые следы стоят дорого — после покупки Instagram в 2012 году общая выручка Facebook выросла в 17 раз (до $18,7 млрд). Больше 90% дохода компании составляет реклама. На каждом активном пользователе во втором квартале 2020 года компания заработала 6$. При этом по оценкам Bloomberg, как минимум четверть дохода Facebook приносит Instagram.
Instagram предлагает различные возможности для использования данных пользователей во благо бизнеса: во-первых, можно самостоятельно продвинуть рекламную компанию через личные пост, либо воспользоваться профессиональным инструментом для управления рекламой Ads Manager. Другой способ — создать особенную рекламную кампанию, воспользовавшись экспертизой более чем 1600 партнёров соцсети. Среди партнёров, в основном, рекламные агентства и стартапы, которые занимаются техническим маркетингом. Как результат — по оценкам самого Instagram каждая третья Stories — часть чьей-то рекламной кампании.
Чем точнее и подробнее будет ваш цифровой портрет, тем больше смогут сказать про вас другие компании и точнее будут рекомендации постов в вашей ленте от Instagram. Этому мешают накрутки лайков и фолловеров среди пользователей, поэтому с недавнего времени Instagram начал бороться с ними, тестируя функцию скрытых лайков под постами пользователей. После полномасштабного запуска функции пользователи не будут видеть количество лайков под чужими постами.
Благодаря анализу личных страниц и открытых данных могут получиться необычные выводы. К примеру, совсем недавно российские учёные разработали алгоритм, позволяющий с точностью до 94% выявлять среди пользователей «ВКонтакте» отличников и двоечников — при помощи анализа их постов. А Михал Косински, разработчик технологии сбора психометрических данных через соцсети, утверждает, что его алгоритм позволяет не просто составить цифровой портрет человека по его профилю Facebook, но и всего по 70 лайкам узнать о нем больше, чем знают его друзья.
Алгоритмы
После присоединения к Facebook подход Instagram к хранению и работе с данными пользователей качественно изменился: компания стала использовать дата-центры Facebook вместо AWS Amazon для хранения данных, а для индексации взаимодействий между пользователями стал использоваться мощнейший движок Unicorn, предназначенный для построения социальных графов.
Граф — простой математический объект, состоящий из множества вершин графа и соединений между ними, называемых ребрами. В социальном графе, разработанном Facebook, вершиной может быть сам пользователь, фото с ним или публичная страница (например, фильма) — все это зависит от решаемой задачи.
Из-за конкуренции за время, проведенное нами в определенном приложении, компании не раскрывают деталей алгоритмов своей работы. Но в 2018 году, после череды скандалов, Instagram впервые рассказал о том, как работает его обновленный алгоритм вывода постов в ленту. Благодаря этому алгоритму мы теперь смотрим в среднем на 40% больше постов наших друзей.
Алгоритм использует разные данные о пользовательской активности для того, чтобы посчитать уникальные для каждого юзера параметры, называемые «сигналами». Большое количество данных от пользователей, накопленное за предыдущее время, позволяет соцсети прогнозировать «сигналы» для тех постов, которых вы еще не видели.
Алгоритм учитывает основные параметры:
- Интерес к посту — насколько вам может быть интересен пост в зависимости от ваших предыдущих активностей.
- Давность поста — информация о том, как давно был опубликован пост.
- Взаимосвязи — насколько вы близки к человеку, который поделился этим постом.
А также дополнительные:
- Частота открытия Instagram — если вы заходите в Instagram редко, соцсеть в начале покажет вам лучшие посты с момента последнего посещения.
- Подписки — чем больше у вас аккаунтов в подписках, тем меньше постов с каждого конкретного аккаунта вы увидите в ленте.
- Использование — от того, сколько времени вы проводите в Instagram, зависит, увидите ли вы только лучшие публикации, рассчитанные на короткий просмотр или же посты, рассчитанные на долгое и внимательное изучение.
Таким образом, то, что вы видите в своей ленте Instagram, представляет собой комбинацию всего вашего поведения в прошлом. Друзья, с которыми вы общаетесь чаще всего, чьи истории вы смотрите больше, люди, вместе с которыми вы отмечены на фотографиях, и, конечно же, тип постов, которые вам нравятся и которые вы комментируете.
Если упрощать, то алгоритм рекомендаций и вывода постов в тренды выглядит следующим образом:
Законы соцсетей
Дочитав досюда, вы можете задаться вопросом «Насколько это всё законно»? Если коротко — то вполне законно. Используя ваши данные, Instagram ничего не нарушает, ведь согласно политике использования, которую мы все принимаем перед регистрацией, соцсеть может хранить и использовать:
- Ваши действия, действия других людей и предоставляемая вами и ими информация: контент, сообщения, метаданные (геометка или дата создания файла), а также данные с камеры. Эти данные обрабатываются автоматически для анализа их контекста и содержания, а корпорация знает о вашем текущем местоположении, месте проживания, местах, которые вы любите посещать, а также компаниях и людях, рядом с которыми вы находитесь в режиме онлайн. Если вы решите не делиться своими геоданными, Facebook все равно сможет узнать ваше местоположение по посещениям, мероприятиям и сведениям о вашем интернет-соединении.
- Сообщения и связи: информация о людях и сообществах, с которыми вы контактируете. Используется также информация с вашего устройства — адресная книга, журнал вызовов, СМС.
- Использование сервиса: какие посты, когда и как долго вы просматриваете в Instagram.
- Помимо этого корпорация хранит информацию о действиях других людей и информацию о совершенных через приложение платежах.
Для всех продуктов компании Facebook политика использования едина, а данные из нескольких сервисов могут использоваться для более точного создания вашего «цифрового двойника» и последующей торговли вашим вниманием.
Прецедент
В 2018 году у компании Facebook случилась крупнейшая утечка данных: в результате внутренние данные более чем 50 миллионов аккаунтов пользователей в Facebook были слиты в сеть. Потом та же ситуация повторилась с Instagram. Эти данные собрала и незаконно использовала компания Cambridge Analytica, успевшая вмешаться в проведение выборов в более чем 200 странах мира. Данные помогли запустить качественно новый уровень рекламных кампаний в сфере политики. Эти рекламные кампании совмещали в себе точный таргетинг пользователей и одновременно дезинформацию о политических конкурентах (fake news). Предполагается, что в числе клиентов компании был и предвыборный штаб нынешнего президента США Дональда Трампа.
Доступные данные
Данные из Instagram и Facebook доступны всем: их можно собирать как с помощью официально разработанного компанией API (программного интерфейса приложения), так и с помощью сторонних инструментов.
После скандала с утечкой данных Facebook ограничил доступ к данным через API для обычных разработчиков. Например, лимит на сбор данных в Instagram в 5 000 запросов на пользователя в час был снижен до 200 запросов в час. При этом для бизнес-пользователей доступен значительно больший лимит: 190 тысяч запросов в час + 400 на каждого активного пользователя.
Один из неофициальных способов обойти эти ограничения — скраппинг или парсинг. Под этими терминами имеют в виду сбор данных напрямую через сайт или сервис помощью автоматизации действий пользователя. При желании в интернете легко можно найти множество парсеров для Instagram, которые позволяют быстро собрать необходимые данные за небольшие деньги. Имея стартовые навыки разработки на Python несложно даже создать свой парсер: на GitHub размещены библиотеки с открытой лицензией, которые может использовать любой разработчик. На выходе вы получите данные в том формате, который необходим именно вам.
Крупные компании предпочитают использовать готовые системы мониторинга медиа — «чёрные коробки», собирающие цифровые следы пользователей из разных соцсетей по необходимым поисковым запросам. Наиболее известные системы мониторинга медиа — YouScan, MediaToolkit, Brand-analytics, Медиалогия.
Компании прибегают к их услугам, когда хотят понять, насколько «выстрелила» та или иная рекламная компания или посмотреть на реакцию пользователей. Маркетологи анализируют данные в различных разрезах: например, social media аналитик может оценивать тональность (позитивная или негативная) сообщений пользователей под рекламным постом известного блогера или считать разные метрики вовлеченности (Engagement Rate, реакции, охват и др.) для того, чтобы оценить качество запущенной рекламной компании и понять, что именно понравилось пользователям в продукте, а что нет. Такие исследования считаются более репрезентативными, чем соцопросы, поскольку когда мы пишем комментарии, мы не всегда отдаем себе отчет в том, кто их будет читать.
Новые правила
Если в этот момент вам показалось, что пора удалять свой аккаунт в соцсетях, не спешите — все не так плохо. После череды скандалов с данными пользователей, интерес к обсуждению темы цифровых следов вырос до максимума. Даже цифровой гигант Netflix выпустил документальный фильм, призывающий задуматься о том, что происходит с нашими данными в сети, а после судебного разбирательства в 2019 году Марк Цукерберг пообещал не хранить пользовательскую информацию (дольше, чем это необходимо для работы сервиса и дольше, чем пользователь сам того хочет).
Не в последнюю очередь над безопасностью стали работать и на государственном уровне. В Европе в 2018 году приняли общий регламент по защите данных (GDPR), призванный дать гражданам контроль над собственными персональными данными. В том же году в Англии приняли аналогичный Data Protection Act. К слову, в России федеральный закон «О защите персональных данных» действует с 2006 года.
Так что да, практически любое наше действие в сети приводит к накоплению цифровых следов и составлению более точного цифрового портрета, но и у сторожей есть сторожа — компании, которые копят на нас досье, все тщательнее регулируются законами и вынуждены объяснять свои действия публично. Чтобы не происходило массивных утечек, они предпринимают активные меры защиты. Конечно, вливание денег в кибербезопасность не панацея: как мы можем убедиться, взломы и утечки происходят постоянно. Но все-так это лучше нерегулируемого хаоса и цифровой монополистской вседозволенности.