Mediagun

Агентство дата-журналистики

Как мы делали материал про муниципальные выборы в Москве

Накануне муниципальных выборов в Москве мы выпустили материал про кандидатов. На примере описания процесса мы решили рассказать, как работаем и создаем материалы. Мы не хотим грузить вас формальным языком и объясним, как это было на самом деле.

Данные
Самый простой способ найти данные — это первоисточник. В нашем случае это был сайт ЦИКа, который аккумулирует у себя всю информацию о выборах в России. Второй способ — найти ребят, которые уже вытащили эти данные. Например, в нашем случае датасет по всем кандидатам уже был на сайте избирательной комиссии . К сожалению, он нам не подошёл, так как была идея сравнить эти выборы с прошлыми.

Был написан парсер на python, который собрал нам всю информацию по кандидатам: ФИО, год рождения, партия, занятость и т. д. Это заняло три часа. В итоге скрипт открывал сайт избиркома, находил по региону, датам и ключевым словам находил выборы, по каждому району они были отдельные. Дальше мы шли по списку кандидатов и сохраняли информацию о них себе. И так мы сделали как для выборов 2017 года, так и для 2012.

Все это позволило (не без помощи pandas) сформировать понятную таблицу для анализа.

Почти всегда для анализа мы используем pandas. Он крайне удобен и позволяет очень быстро работать с достаточно крупными массивами.

Весь анализ начинается со гипотез, у нас были такие:
• Увеличилась конкуренция,
• Пришло много молодежи
• Много «понаехавших»
• У Единой России много бюджетников
• Много кандидатов с сомнительной биографией
• Есть интересные судимости
• Некоторые партии имеют кадровые проблемы и их кандидаты подавали по несколько заявок каждый

При проверках гипотез основные сложности вызывает подготовка данных к ним. Например, для оценки конкуренции нужно было убрать тех, кого не зарегистрировали, а для других гипотез — убрать повторные заявки в разных округах, чтобы не считать кандидатов по два или более раз.

Конкуренцию мы сравнили через группировку по годам и районам. Для небольших данных мы часто используем google spreadsheets, куда экспортируем данные из основной среды для анализа (jupyter notebook). Там есть и сводные таблицы, и модули с геокодерами, сведением/разделением строк и столбцов.

С молодежью было чуть сложнее. Для начала мы перевели год рождения в возраст, а потом делали рабочие визуализации.

Посмотрели еще и средний возраст по партиям, но там ничего интересного не было, кроме каких-то глупостей, типа у «Российской партии пенсионеров за справедливость» средний возраст был 34 года.

Для оценки мест рождения и жительства, мы просто проверили по наличию вхождений слов «москв», «моско» и т. д. в названия мест жительства и рождения и оценили долю «понаехавших». Их оказалось около 41%. Не очень понятно, много это или мало, поэтому на этом мы не стали заострять внимание (мне кажется, что много — Сергей). Также оценили количество кандидатов, которые даже не живут в Москве, их оказалось совсем мало.

Одна из самых затратных гипотез ввиду того, что должности и места работы не систематизированы, приходилось подбирать ключевые слова и по названию должностей и мест работ определять кандидатов к тем или иным группам. Например, «домохоз» (не «домохозяйка», так как есть и «домохозяины»), «не работ», «безраб», «неработ» — это всё про безработных. А для бюджетников «государ», «муниципал», «поликлиник», «больниц», «школ», «детский сад», «гбоу», «гау», «казенн», «гуп», «гбу», «гбпоу», «гку», «гоу», «гапоу», «универ», «колледж». Понятно, что для детального анализа это так себе, но общую картину вполне себе показывает.

Судимости ничего интересного не показали, кроме девушки, которая уехала воевать на Донбасс и имела 3 судимости в России и одну в Украине.

Кадровые проблемы выявились через подсчет одинаковых имен кандидатов в разных районах. ЛДПР всех обошла, ибо их кандидаты подавались по многу раз, некоторые даже по 9.

В итоге из гипотез остались: уровень конкуренции, возраст кандидатов и род деятельности.

Визуализация
Конкуренция по муниципальным округам
Первой задачей было изобразить увеличение конкуренции по муниципальным округам, было желание подчеркнуть ситуацию в каждом округе. Шаблон визуализации изначально выглядел так:

Макет получился очень большим, скролл шел вниз, был непонятен макро-месседж о том, что конкуренция в целом стала больше.
В итоге было принято решение сделать карту, сгенерить ее на основе обычной svg карты районов Москвы и доделывать в Adobe Illustrator.

Цифры с карты было решено убрать, цвет будет показывать уровень конкуренции. Было непонятно, откуда взялся «пустой» округ. Позже посмотрели, что это Щукино, выборы уже были в прошлом году.

Спорили по цветам. Можно было сделать градацию одним цветом, от светлого к темному, такой тип окраски называется однополярная прогрессия. Мы решили использовать биполярную прогрессию от красного к синему, так мы ясней изменения величин.
Чем темнее цвет, тем более высокий показатель он отображает.

Возраст кандидатов
Задача — визуализировать изменения среднего возраста кандидатов на выборах в 2012 и 2017 годах. Эскизы в начале выглядели так:

В этом макете непонятно, что означает зона пересечения графиков 2012 и 2017 годов. Решено разделить графики на две части. Все графики сделаны в программе Tabletau и доделаны в Adobe Illustrator.

Вот еще про возраст:

Линейный график здесь не подходит, речь идет не о динамических, а о категорийных значениях.
Пробовали представить каждого депутата точкой.

Точки для визуализации распределения кандидатов — не самый удачный вариант.

Линии выглядят, как будто это два независимых показателя, а по факту это число кандидатов каждого возраста. В итоге представляем в виде столбиков c заливкой.

Род деятельности кандидатов по партиям

Сначала была идея изобразить состав процентным соотношением того или иного типа деятельности по партиям и подчеркнуть «государственное» происхождение кандидатов отдельных партий.

Но потом стало понятно, что это будет манипуляцией — число кандидатов от разных партий неодинаково. Решили использовать диаграмму типа стейк .

Пробовали вариант в разбивкой по отраслям.

Но в итоге остановились на более компактном и удобном для соцсетей графике:

Граф на основе данных Вк

Задача: попробовать залезть во Вконтакте и сравнить аккаунты потенциальных депутатов по подпискам и друзьям.

До выборов оставалось несколько дней, поэтому делать нужно было быстро. Для начала мы попытались разобраться в API, его ограничениях и принципах работы. В итоге через день появились данные, которые мы вытащили через дату рождения и имя. Всего нашлось 2232 аккаунта кандидатов (около трети от общего числа) со всеми их взаимными друзьями и подписками.

В итоге получался граф с 370 068 объектами (кандидаты, их друзья, паблики и группы), между которыми имелось 39 337 связей. Пришлось их отфильтровать и оставить только те объекты, у которых не менее трех связей. Осталось 8138 объектов с 18 167 связями. При визуализации мы увеличили эту границу еще до 5 связей, чтобы граф принял более адекватную форму. В итоге полученные данные мы загрузили в Gephi и получилось так.

Сергей: Как по мне, данные неявно, но формировали кластеры. Например, было видно, что в потреблении контента представители «Единой России» абсолютно не пересекаются с «Яблоком», что может свидетельствовать об их очень серьезных идеологических различиях (что так и есть). В то время, как все остальные партии перемешаны друг с другом и их кандидаты мало чем отличатся друг от друга. Формирование двух таких полюсов («ЕР» и «Яблоко») показалось мне очень крутым, а также я был впечатлен тем, насколько мало остальные партии отличаются друг от друга — кандидаты от либерал-демократов, справедливороссов и коммунистов оказались людьми с примерно одинаковыми взглядами. Звучит смешно и немного абсурдно (но вполне в рамках российских политических реалий).

Но нормально это визуализировать не получалось. Мы пробовали цвета, разные алгоритмы и настройки укладки графа, но получалось все так себе.

В итоге остановились на версии “пушистика”, который, конечно, все равно выглядел так себе и плохо доносил то, что я описал выше. Нужно было побольше поработать настройками, с весом ребер и объектов, с укладкой, но времени уже не было, поэтому мы выпустили его таким.

Андрей (дизайнер): Данные вк — это круто, хотя и затратно по редакционным редакциям (граф задержал выход материала). Но важно понимать, какие гипотезы мы ими подтверждаем или опровергаем. Граф, который получился, дает такие инсайты, которых можно достичь без использования технологий big data. Но так как на производство потратили много ресурсов, решили опубликовать. Я предлагал сделать гиф или видео с аннотациями:

Однако анимация не показывала деталей и была скорее декоративным элементом. По уму, этот граф должен быть интерактивным, чтобы ты мог потянуть за конкретное ребро и увидеть, с кем связан тот или иной кандидат. Тогда и вовлеченность, и время пребывание пользователя на странице возросли. Но интерактив — это много ресурсов, которыми мы не располагали. В итоге договорились о статике в виде слайдера (неплохо бы снять метрики с того, сколько процентов пользователей им пользовались).
Мы надеемся, что те навыки, которые мы получили в работе с данными «Вконтакте» помогут нам в будущем сделать более качественные работы.

Продвижение
В условиях отсутствия собственной площадки мы стараемся использовать различные каналы донесения материала, которые зависят от его темы и формата. В данном случае мы посеяли материал в политических телеграмм-чатах, благодаря которым пост дошел до кандидатов и лидеров общественного мнения, которые распространяли его в Facebook и Twitter.

В один день с нами РБК выпустил материал, очень похожий на наш.

Почитать и посмотреть на то, что в итоге получилось: http://blog.mediagun.ru/?go=all/municipal-election-2017/

18 октября   #ddj   выборы   процесс
Подписывайтесь на новости в Фейсбуке

Самые «долгоиграющие» главы регионов в России

В сентябре 2017 года началась новая волна отставок губернаторов. Мы решили посмотреть, кто из глав регионов дольше всех у власти. Данные актуальны на утро 29 сентября.

Всего с начала 2017 года назначено 11 новых глав регионов. Рамазан Абдулатипов (Республика Дагестан) и Виктор Толоконский (Красноярский край) объявили о своей уходе, приемники пока не назначены.

Подписывайтесь на новости в Фейсбуке
Подписывайтесь на новости в Фейсбуке

Приглашаем журналистов и редакторов попробовать себя в журналистике данных

«Медиаган» — первое в России агентство журналистики данных. Мы занимаемся анализом и визуализацией данных для СМИ. Ищем журналистов и редакторов, которым интересно попробовать себя в этой сфере. Денег не платим, но хорошо прокачиваем скиллы. От нас — бесплатная помощь в сборе, анализе и визуализации данных, от вас — интерес к сфере журналистике данных, публикация на площадке вашего издания.

Подробнее о нас: mediagun.ru

Заполните анкету:

Подписывайтесь на новости в Фейсбуке

Каких кошек продают россияне

Мы проанализировали более 100 тысяч рекламных объявлений о продаже кошек в России.
Десять самых популярных пород: мейн-кун, бенгальская, канадский сфинкс, экзотическая, донской сфинкс, шотландская, персидская, сиамская, сибирская.

10% продавцов готовы отдать кота бесплатно. Кошку сибирской породы можно в среднем купить за 100 рублей, а вот кошка бурманской породы обойдется в среднем в 25 000 рублей. Вот средние цены на популярные породы кошек:

Петербуржцы чаще продают беспородных кошек, москвичи предпочитают шотландских и мейн-кунов. В северных районах люди чаще продают беспородных кошек, южане предпочитают кошек шотландской породы. Выберите свой регион и посмотрите, каких кошек продают у вас:

Подписывайтесь на новости в Фейсбуке

Умер, убили, устал. По какой причине покидали свой пост правители России

В 2018 году в России пройдут президентские выборы и возможно уже через год наша страна получит нового руководителя. Мы решили посмотреть, сколько лет были у власти все правители России, данные взяли у Википедии.

По какой причине правитель покидал пост? В половине случаев править приходилось до самой смерти. Каждого пятого правителя ждала не естественная, а насильственная смерть. Часто определить, отчего умер царь: от старости или от отравления было невозможно — медицина того времени была несовершенна. В конце XX века Россия вступила на путь демократического развития, основная причина ухода теперь — истечение срока полномочий.

18 сентября   dataviz   ddj   правители   публикации   смерть
Подписывайтесь на новости в Фейсбуке
11 сентября   dataviz   карта   карты   публикации
Подписывайтесь на новости в Фейсбуке

Что мы узнали, анализируя телепрограмму «Первого канала» с 1999 года

В чем причины кризиса телевещания на главном телеканале страны и почему на нем показывают все больше советского кино.

«Первый канал» начал вещание 1 апреля 1995 года. В 1998 году произошел обвал рекламного рынка, к лету 2000 года сложилась критическая ситуация, канал оказался под угрозой закрытия. Пожар в телецентре в августе даже заставил одно время вещать канал на других частотах — на экране зрители видели два логотипа: ОРТ и канала ОРТ.

Летом 2000 года на канале не вели архив программы, на визуализации видно «дыру» в вещании.

Некоторые телепередачи, которые были в эфире в 1999 году, до сих пор остаются в сетке вещания «Первого канала». «Доброго утро» и «Новости» и «КВН» выходят на канале еще с советских времен.

В сентябре 2000 года Борис Березовский продал свою долю акций «Первого канала» (49%). Пакет акций отошел структурам Романа Абрамовича и совет директоров стал состоять из представителей государства.

Осенью 2000 года «Первый канал» закрывает 12 телепередач и открывает новые. Со скандального НТВ переходит программа «Кто хочет стать миллионером».

С 2012 года канал предпринимает попытки изменения сетки вещания. В 2012-2014 годах запущены два удачных проекта: «Вечерний Ургант» и «Наедине со всеми». Однако телеканал побоялся потерять возрастную аудиторию, поэтому молодежные шоу чередовались с «Поле чудес».

Старые передачи, которые в эфирной сетке с 90-х, изначально копировали западные образцы и создавали так необходимую в начале нулевых аполитичную сетку вещания.

С начала десятых годов повестка становится более политической, это связано с волнениями на Болотной, присоединением Крыма и санкциями. В 2014 году программа «Другие новости» была заменена военными сводками с Украины.

В 2016 году руководство отказалось от трансляции кубка Первого канала из-за низких рейтингов и передало право «Матч ТВ». В том же году канал покинула ведущая программы «Воскресное время» Ирада Зейналова. В 2017 году еще несколько ведущих ушло с канала. Андрей Малахов перешел на телеканал «Россия 1». 9 августа ведущий программы «Точь-в-точь» и «Большая разница» Александра Олешко заявил об уходе. В августе 2017 года разгорается конфликт с авторами передачи «Пока все дома», этим делом заинтересовалась прокуратура. Взамен Тимура Кизякова утром в воскресенье зрителей будет развлекать Сергей Шнуров с программой «Главный котик страны»

В марте «Первый канал» вернулся к использованию сервиса оценки зрительского интереса «Медиаскопа». 12 лет напрямую не пользовался услугами крупнейшего телеизмерителя страны. По данным «Медиаскопа», с начала 2017 года «Первый канал» начинает уступать «России 1». Вот рейтинг передач за последнюю неделю августа 2017 года.

Мы заметили в сетке вещания фильмы, которые регулярно повторяются в эфире с 1999 года, их крутят по несколько раз за год. Вот они:

По данным «Ведомостей», россияне предпочитают советские фильмы новинкам кинопроката. На визуализации видно, как участились показы советских фильмов 50-х—70-х годов

Через несколько лет истекут авторские права на советские фильмы и они становятся общественным достоянием. Таким фильмом, например, уже стал «Небесный тихоход». В 2015 году, через 70 лет после выпуска картины, истек срок действия авторского права, ее «Первый канал» показал четыре раза за два года.

Вы можете сами посмотреть, когда шли ваши любимые (или не очень) передачи.

Подписывайтесь на новости в Фейсбуке

Почему муниципальные выборы в Москве интереснее, чем вы думаете

10 сентября 2017 года москвичи выберут депутатов в муниципальные советы районов. Всего в Москве существует 125 районов, каждый из которых имеет свой совет, в котором состоит от 10 до 20 муниципальных депутатов.

Конкуренция стала выше

Последние выборы в советы проходили в 2012 году. Тогда только прошли массовые оппозиционные митинги, поэтому власти решили выдвинуть всех кандидатов как самовыдвиженцев (не было ни одного кандидата от Единой России). Тогда до выборов не были допущены или снялись почти 20% кандидатов. В итоге при небольшой конкуренции (2,5 человека на место) во всех советах взяли большинство провластные кандидаты.

В эти выходные в Москве состоятся новые выборы, и уже сейчас ясно, что они будут весьма отличаться от предыдущих. Основным отличием является повышенный интерес к выборам независимых команд (Дмитрия Гудкова, Ильи Яшина, Юлии Галяминой и других), которые суммарно вовлекли в предвыборную гонку больше тысячи новых кандидатов.

В 2017 году стало больше желающих стать депутатом. В 2012 году на 1543 депутатских мандата приходилось 4047 зарегистрированных выдвижений, а в 2017 — на 1502 мандата 7559 зарегистрированных выдвижений.

Если в 2012 году на одно место депутата в среднем претендовало 2,6 кандидатов, то в 2017 — уже 5.

Районами с самой высокой конкуренцией стали:
— Арбат — 7,7 человек на место
— Пресненский — 7,67 человек на место
— Сокол — 7,6 человек на место
— Тверской — 7,33 человек на место
— Сокольники — 7,3 человек на место

Cреди кандидатов 2017 года коренных москвичей чуть больше половины — всего 59%.

Больше молодежи

На графике представлено количество кандидатов того или иного возраста в выборах 2012 и 2017 годов. Видно, что рост произошел за счет прихода молодого поколения — от 18 до 40 лет.

Средний возраст кандидатов в 2012 году был почти 50 лет, то в 2017 — 42 года.

Кадровые проблемы

Эти выборы иллюстрирует специфику работы системных партий.

У «Единой России» в этот раз подавляющее число бюджетников, более 70% кандидатов которой являются сотрудниками госсектора. Если посмотреть на другие партии, то у них ситуация с разнообразием деятельности кандидатов гораздо лучше.

Кампания показывает кадровые проблемы на местном уровне у ЛДПР. 160 кандидатов выставили свои кандидатуры сразу в нескольких округах или районах. Есть такие, кто выдвинулся шесть, семь или даже девять(!) раз. «Повторные выдвижения» составляют почти половину от общего числа. Это в 10 раз больше, чем у других. Например, у «Справедливой России» в более чем одном районе выдвинулись всего 13 кандидатов.

55 кандидатов имеют судимости (0,76% от общего числа). В основном, это связано с кражами, мошенничеством, наркотиками и причинением легкого вреда здоровью. Уникальный случай — это Мария Коледа. Самовыдвиженец, которая имеет сразу 4 судимости:

  • Российская Федерация: возбуждение ненависти либо вражды, хулиганство, применение насилия в отношении представителя власти
  • Украина: гос. измена, терроризм, организация массовых беспорядков, хранение и ношение оружия, покушение на территориальную целостность Украины.

Более подробную информацию про Марию Васильевну можно найти на украинских порталах, связанных с вооруженным конфликтом на Юго-Востоке Украины.

Результаты будут зависеть от пары десятков голосов

Муниципальные выборы 2012 года проходили совместно с президентскими, что помогло привести людей на участки. В этот раз такого подарка не будет, явка ожидается совсем низкой — в районе 15-20%. Движение в защиту прав избирателей «Голос» пишет, что явка может опуститься еще ниже из-за игнорирования темы в СМИ. С учетом отсутствия нижнего порога явки итоги выборов могут зависеть от нескольких десятков голосов. Свой избирательный участок можно найти по ссылке.

Взгляды кандидатов

Для того, чтобы оценить взгляды представленных кандидатов, мы решили изучить их профили «Вконтакте». Всего по имени, фамилии, дате рождения и городу проживания было найдено 2232 профиля (31% от всех кандидатов).

Мы проанализировали связи профилей в социальных сетях (друзья, подписки на группы и паблики) и сделали визуализацию, которая показывает различия в интересах и взглядах кандидатов от разных партий.

Каждая точка — профиль кандидата в социальной сети. Чем дальше точки, тем сильнее различие во взглядах кандидатов.

Расположение «Единой России» и «Яблока» отражает противоположность их взглядов. Остальные партии имеют схожие взгляды и находятся в центре. Самовыдвиженцы равномерно распределены по всему графику.

Подписывайтесь на новости в Фейсбуке

Россия в названиях улиц

Мы собрали названия всех улиц России с сайта ФИАС и проанализировали их.

В России больше миллиона улиц. Названия большинства связаны с расположением: Центральная, Лесная, Набережная. Вот десять самых популярных улиц в России:

  1. Центральная
  2. Молодежная
  3. Лесная
  4. Школьная
  5. Садовая
  6. Новая
  7. Советская
  8. Набережная
  9. Заречная
  10. Полевая

Мы выделили самую популярную улицу в каждом регионе и сделали карту:

Советская власть внесла свои коррективы в названия улиц. Многие были переименованы, в XX веке улицам, проспектам и шоссе присваивали названия коммунистических деятелей и ценностей: Ленина, Красная, Пятилеток и прочие. По ключевым словам мы выделили такие улицы (12,% от общего числа) из общего списка и сделали карту регионов по уровню «советизации». Мы не брали в учет героев Великой Отечественной войны и выдающихся деятелей советского периода.

Мы выбрали названия улиц, более 50% которых находится в одном регионе. Получились характерные для каждого региона улицы, которые отражают его специфику и особенности. Здесь мы нашли много интересного. В республике Татарстан очень чтут поэта Габдуллу Тукая, его именем названо 315 улиц. В Башкортостане 196 улиц названо в честь Салавата Юлаева, в Чувашии 158 улиц названо в честь космонавта Андрияна Николаева, в Свердловской области 135 улиц в честь писателя Павла Бажова, в Красноярском крае 74 улицы названо в честь героя партизанского движения Петра Щетинкина. На Кавказе в республике Дагестан 96 улиц в честь Имама Шамиля, в Чеченской республике 81 улица имени Ахмата Кадырова.

Нашлись «регионы-патриоты», в которых часто встречается улица с название региона или его части: Хакасская (Хакасия), Зейская (Амурский край), Таврическая (Крым), Пермяцкая (Пермский край), Калининградская (Калининградская область), Удмуртская (Удмуртия), Ненецкая (Ямало-Ненецкий АО).

В части регионов название распространенной улицы отражает специализацию региона: Рыбоводная (Мурманская область), Оленная (Ненецкий АО), Животноводческая (Калмыкия), Гористая (республика Карелия), Куст (Ханты-Мансийский АО).

Мы сделали сервис, который определяет процент той или иной улицы по регионам. В него вошла информация по более чем 2 тысячам улиц. Проверьте свою.

Мы на Фейсбуке

27 августа   #публикации #карты
Подписывайтесь на новости в Фейсбуке