Mediagun

Агентство дата-журналистики

Дорогие гости: как изменился рынок посуточной аренды квартир в городах, которые принимали матчи Чемпионата мира по футболу 2018

Мы проанализировали несколько десятков тысяч объявлений о посуточной аренде квартир в марте-июле 2018 года. Вот что мы выяснили

Большая часть фанатов поселились в аккредитованных гостиницах и отелях. Но в городах, где гостиничная инфраструктура не так развита, болельщикам и гостям города пришлось пользоваться услугами посуточной аренды квартир от частных лиц. Многие местные жители решили заработать на богатых иностранцах: цена некоторых предложений была сильно завышена. Такие сделки обычно не фиксируется в виде договоров или счетов оплаты.

Мы скачали рекламные объявления о посуточной аренде из русскоязычных сервисов 28 марта — до начала летнего сезона и Чемпионата мира и 14 июня — накануне начала игр. В выборку попали только однокомнатные квартиры. Цена указана за 1 сутки.

Первое, что мы проанализировали, число объявлений. Оно увеличилось в 10 из 11 городов, принимавших ЧМ. С чем это связано? Отчасти с началом летнего туристического сезона. В частности, в Сочи начали работать курорты, а в Петербурге в это время вовсю шел сезон «белых ночей». Не стоит забывать про «летние квартиры» — хозяева сдают жилье, а сами уезжают загород до осени. Но общая тенденция к повышению числа предложений есть — в их числе предложения для болельщиков по завышенной цене.

В Москве число предложений упало. Скорее всего, это связано с недостатком данных (мы берем только русскоязычные источники объявлений). Можно предположить, что спрос оказался действительно аномально высоким и предложений стало меньше.

***
Мы посчитали изменение медианной цены с марта по июнь 2018 года. Что это такое? Медианная — это цена, которая делит все множество цен на две равные части — половина цен ниже этого значения, а половина — выше. Если разница между средней и медианной ценами большая, значит цены в выборке распределены неравномерно. Эта неравномерность показывает те резкие выбросы, которые возникают, когда пользователи ставят высокий ценник на аренду квартир.

Сильнее всего медианная цена увеличивалась в Саранске (в 1,5 раза). Также цена увеличилась в нетуристических городах с низким числом гостиниц: Самаре, Ростове-на-Дону, Казани. В Петербурге и Сочи рост цен, вероятно, сезонный. В Екатеринбурге медианная цена осталась прежней.

***
У нас была гипотеза, что цены повышаются не из-за Чемпионата мира, а из-за начала туристического сезона. Но мы нанесли объекты на карту и выяснили, что «дорогие» объявления часто появляются недалеко от стадионов, где проводят матчи.

Вот, например, Екатеринбург. Передвигайте бегунок, чтобы увидеть различия между месяцами. Красным отмечено место, где расположен стадион.

Предложения посуточной аренды 1 к. кв. в Екатеринбурге (март и июнь 2018 года)

Или Казань.

Предложения посуточной аренды 1 к. кв. в Казани (март и июнь 2018 года)

Нижний Новгород. Все, что близко к сталиону, дорожает.

Предложения посуточной аренды 1 к. кв. в Нижнем Новгороде (март и июнь 2018 года)

Предложения посуточной аренды 1 к. кв. в Самаре (март и июнь 2018 года)

В Санкт-Петербурге видно, что объявления дороже 5000 появляются в районе Васильевского острова и Приморского района.
Предложения посуточной аренды 1 к. кв. в Санкт-Петербурге (март и июнь 2018 года)

Чемпионат мира изменил рынок посуточной аренды квартир — объявлений стало больше, цены — выше. Нехватка гостиниц вблизи спортивных объектов повлияла на появление большого числа объявлений по завышенным ценам. Смогли ли пользователи сдать квартиры по таким ценам? Данные не дают нам ответа на этот вопрос.

Подписывайтесь на новости в Фейсбуке

Путеводитель по российскому крафтовому пиву

Какое пиво выпить в следующую пятницу?
Мы проанализировали больше 4000 марок российского крафта и составили руководство по выбору пива. Кликайте на кружки, чтобы узнать о марке больше.

Мы опросили знакомых о том, как они выбирают пиво, когда приходят в бар. В ходе такого несложного расследования выяснили, что люди чаще или доверяют бармену, или экспериментируют в одном сорте: в стауте или в IPA.

Никаких исследований по русскому крафту мы не нашли и позвонили одному из владельцев магазина крафтового пива в Санкт-Петербурге. Он посоветовал нам сайт russiancraftbeer.ru, на котором сами пивовары собирают данные краундсорсингом. Мы скачали данные и оказалось невозможным определить, производят ту или иную конкретную марку пива, или она уже отправилась в рай для пива. Пока искали подтверждения наткнулись на сайт untappd.com — социальную сеть для любителей крафта. В ней люди оценивают марки, чекинятся в баре и оставляют комментарии. С untappd мы взяли число оценок каждой марки пива, что решило проблему с «мертвыми» марками. В ходе визуализации мы оставили только те марки, у которых число оценок больше 150.

Показатели пива

IBU = International Bitterness Units
Это шкала горечи от 0 до 100. Разные люди воспринимают горечь по-разному, но показатели могут быть более-менее адекватными. Чем выше показатель, тем больше горечи в пиве.

ABV = Alcohol By Volume
Чем выше этот показатель, тем выше содержание алкоголя в напитке.

Сорта пива

IPA
Индийский пейл-эль (India Pale Ale, сокращ. IPA, что значит «индийский светлый эль») — сильно охмеленная разновидность пейл-эля (устар. пель-эль). Хмель придаёт пиву богатый аромат и приятную горечь[1]. Это наиболее востребованный стиль крафтового пива в США.

Ale
Эль — традиционный английский вид пива. Производится верховым брожением, содержание спирта на 5 %-6,5 %.

Lager
Ла́гер — тип пива, при изготовлении которого используется низовое брожение с последующей ферментацией при низкой температуре.

Porter
Портер-темный сорт пива, разработанный в Лондон из хорошо охмеленного пива, сделанные из коричневого солода. Название было впервые записано в 18 веке, и считается, что происходит от его популярности с улицы и речных портье.

Stout
Ста́ут (англ. stout) — тёмный элевый сорт пива, приготовленный с использованием жжёного солода, получаемого путём прожарки ячменного зерна, с добавлением карамельного солода. Первоначально варился в Ирландии как разновидность портера. Очень популярен в Великобритании и Ирландии.

Witbier
(нидерл. Witbier, фр. Bière blanche- в переводе белое пиво), или бельгийское белое пшеничное пиво — традиционное бельгийское пиво, тип эля, приготовленного на основе пшеницы и ячменного солода, с содержанием спирта от 4,5 до 5,5%.

2018   #ddj   craftbeer   dataviz
Подписывайтесь на новости в Фейсбуке

Как мы делали материал про муниципальные выборы в Москве

Накануне муниципальных выборов в Москве мы выпустили материал про кандидатов. На примере описания процесса мы решили рассказать, как работаем и создаем материалы. Мы не хотим грузить вас формальным языком и объясним, как это было на самом деле.

Данные
Самый простой способ найти данные — это первоисточник. В нашем случае это был сайт ЦИКа, который аккумулирует у себя всю информацию о выборах в России. Второй способ — найти ребят, которые уже вытащили эти данные. Например, в нашем случае датасет по всем кандидатам уже был на сайте избирательной комиссии . К сожалению, он нам не подошёл, так как была идея сравнить эти выборы с прошлыми.

Был написан парсер на python, который собрал нам всю информацию по кандидатам: ФИО, год рождения, партия, занятость и т. д. Это заняло три часа. В итоге скрипт открывал сайт избиркома, находил по региону, датам и ключевым словам находил выборы, по каждому району они были отдельные. Дальше мы шли по списку кандидатов и сохраняли информацию о них себе. И так мы сделали как для выборов 2017 года, так и для 2012.

Все это позволило (не без помощи pandas) сформировать понятную таблицу для анализа.

Почти всегда для анализа мы используем pandas. Он крайне удобен и позволяет очень быстро работать с достаточно крупными массивами.

Весь анализ начинается со гипотез, у нас были такие:
• Увеличилась конкуренция,
• Пришло много молодежи
• Много «понаехавших»
• У Единой России много бюджетников
• Много кандидатов с сомнительной биографией
• Есть интересные судимости
• Некоторые партии имеют кадровые проблемы и их кандидаты подавали по несколько заявок каждый

При проверках гипотез основные сложности вызывает подготовка данных к ним. Например, для оценки конкуренции нужно было убрать тех, кого не зарегистрировали, а для других гипотез — убрать повторные заявки в разных округах, чтобы не считать кандидатов по два или более раз.

Конкуренцию мы сравнили через группировку по годам и районам. Для небольших данных мы часто используем google spreadsheets, куда экспортируем данные из основной среды для анализа (jupyter notebook). Там есть и сводные таблицы, и модули с геокодерами, сведением/разделением строк и столбцов.

С молодежью было чуть сложнее. Для начала мы перевели год рождения в возраст, а потом делали рабочие визуализации.

Посмотрели еще и средний возраст по партиям, но там ничего интересного не было, кроме каких-то глупостей, типа у «Российской партии пенсионеров за справедливость» средний возраст был 34 года.

Для оценки мест рождения и жительства, мы просто проверили по наличию вхождений слов «москв», «моско» и т. д. в названия мест жительства и рождения и оценили долю «понаехавших». Их оказалось около 41%. Не очень понятно, много это или мало, поэтому на этом мы не стали заострять внимание (мне кажется, что много — Сергей). Также оценили количество кандидатов, которые даже не живут в Москве, их оказалось совсем мало.

Одна из самых затратных гипотез ввиду того, что должности и места работы не систематизированы, приходилось подбирать ключевые слова и по названию должностей и мест работ определять кандидатов к тем или иным группам. Например, «домохоз» (не «домохозяйка», так как есть и «домохозяины»), «не работ», «безраб», «неработ» — это всё про безработных. А для бюджетников «государ», «муниципал», «поликлиник», «больниц», «школ», «детский сад», «гбоу», «гау», «казенн», «гуп», «гбу», «гбпоу», «гку», «гоу», «гапоу», «универ», «колледж». Понятно, что для детального анализа это так себе, но общую картину вполне себе показывает.

Судимости ничего интересного не показали, кроме девушки, которая уехала воевать на Донбасс и имела 3 судимости в России и одну в Украине.

Кадровые проблемы выявились через подсчет одинаковых имен кандидатов в разных районах. ЛДПР всех обошла, ибо их кандидаты подавались по многу раз, некоторые даже по 9.

В итоге из гипотез остались: уровень конкуренции, возраст кандидатов и род деятельности.

Визуализация
Конкуренция по муниципальным округам
Первой задачей было изобразить увеличение конкуренции по муниципальным округам, было желание подчеркнуть ситуацию в каждом округе. Шаблон визуализации изначально выглядел так:

Макет получился очень большим, скролл шел вниз, был непонятен макро-месседж о том, что конкуренция в целом стала больше.
В итоге было принято решение сделать карту, сгенерить ее на основе обычной svg карты районов Москвы и доделывать в Adobe Illustrator.

Цифры с карты было решено убрать, цвет будет показывать уровень конкуренции. Было непонятно, откуда взялся «пустой» округ. Позже посмотрели, что это Щукино, выборы уже были в прошлом году.

Спорили по цветам. Можно было сделать градацию одним цветом, от светлого к темному, такой тип окраски называется однополярная прогрессия. Мы решили использовать биполярную прогрессию от красного к синему, так мы ясней изменения величин.
Чем темнее цвет, тем более высокий показатель он отображает.

Возраст кандидатов
Задача — визуализировать изменения среднего возраста кандидатов на выборах в 2012 и 2017 годах. Эскизы в начале выглядели так:

В этом макете непонятно, что означает зона пересечения графиков 2012 и 2017 годов. Решено разделить графики на две части. Все графики сделаны в программе Tabletau и доделаны в Adobe Illustrator.

Вот еще про возраст:

Линейный график здесь не подходит, речь идет не о динамических, а о категорийных значениях.
Пробовали представить каждого депутата точкой.

Точки для визуализации распределения кандидатов — не самый удачный вариант.

Линии выглядят, как будто это два независимых показателя, а по факту это число кандидатов каждого возраста. В итоге представляем в виде столбиков c заливкой.

Род деятельности кандидатов по партиям

Сначала была идея изобразить состав процентным соотношением того или иного типа деятельности по партиям и подчеркнуть «государственное» происхождение кандидатов отдельных партий.

Но потом стало понятно, что это будет манипуляцией — число кандидатов от разных партий неодинаково. Решили использовать диаграмму типа стейк .

Пробовали вариант в разбивкой по отраслям.

Но в итоге остановились на более компактном и удобном для соцсетей графике:

Граф на основе данных Вк

Задача: попробовать залезть во Вконтакте и сравнить аккаунты потенциальных депутатов по подпискам и друзьям.

До выборов оставалось несколько дней, поэтому делать нужно было быстро. Для начала мы попытались разобраться в API, его ограничениях и принципах работы. В итоге через день появились данные, которые мы вытащили через дату рождения и имя. Всего нашлось 2232 аккаунта кандидатов (около трети от общего числа) со всеми их взаимными друзьями и подписками.

В итоге получался граф с 370 068 объектами (кандидаты, их друзья, паблики и группы), между которыми имелось 39 337 связей. Пришлось их отфильтровать и оставить только те объекты, у которых не менее трех связей. Осталось 8138 объектов с 18 167 связями. При визуализации мы увеличили эту границу еще до 5 связей, чтобы граф принял более адекватную форму. В итоге полученные данные мы загрузили в Gephi и получилось так.

Сергей: Как по мне, данные неявно, но формировали кластеры. Например, было видно, что в потреблении контента представители «Единой России» абсолютно не пересекаются с «Яблоком», что может свидетельствовать об их очень серьезных идеологических различиях (что так и есть). В то время, как все остальные партии перемешаны друг с другом и их кандидаты мало чем отличатся друг от друга. Формирование двух таких полюсов («ЕР» и «Яблоко») показалось мне очень крутым, а также я был впечатлен тем, насколько мало остальные партии отличаются друг от друга — кандидаты от либерал-демократов, справедливороссов и коммунистов оказались людьми с примерно одинаковыми взглядами. Звучит смешно и немного абсурдно (но вполне в рамках российских политических реалий).

Но нормально это визуализировать не получалось. Мы пробовали цвета, разные алгоритмы и настройки укладки графа, но получалось все так себе.

В итоге остановились на версии “пушистика”, который, конечно, все равно выглядел так себе и плохо доносил то, что я описал выше. Нужно было побольше поработать настройками, с весом ребер и объектов, с укладкой, но времени уже не было, поэтому мы выпустили его таким.

Андрей (дизайнер): Данные вк — это круто, хотя и затратно по редакционным редакциям (граф задержал выход материала). Но важно понимать, какие гипотезы мы ими подтверждаем или опровергаем. Граф, который получился, дает такие инсайты, которых можно достичь без использования технологий big data. Но так как на производство потратили много ресурсов, решили опубликовать. Я предлагал сделать гиф или видео с аннотациями:

Однако анимация не показывала деталей и была скорее декоративным элементом. По уму, этот граф должен быть интерактивным, чтобы ты мог потянуть за конкретное ребро и увидеть, с кем связан тот или иной кандидат. Тогда и вовлеченность, и время пребывание пользователя на странице возросли. Но интерактив — это много ресурсов, которыми мы не располагали. В итоге договорились о статике в виде слайдера (неплохо бы снять метрики с того, сколько процентов пользователей им пользовались).
Мы надеемся, что те навыки, которые мы получили в работе с данными «Вконтакте» помогут нам в будущем сделать более качественные работы.

Продвижение
В условиях отсутствия собственной площадки мы стараемся использовать различные каналы донесения материала, которые зависят от его темы и формата. В данном случае мы посеяли материал в политических телеграмм-чатах, благодаря которым пост дошел до кандидатов и лидеров общественного мнения, которые распространяли его в Facebook и Twitter.

В один день с нами РБК выпустил материал, очень похожий на наш.

Почитать и посмотреть на то, что в итоге получилось: http://blog.mediagun.ru/?go=all/municipal-election-2017/

Подписывайтесь на новости в Фейсбуке

Самые «долгоиграющие» главы регионов в России

В сентябре 2017 года началась новая волна отставок губернаторов. Мы решили посмотреть, кто из глав регионов дольше всех у власти. Данные актуальны на утро 29 сентября.

Всего с начала 2017 года назначено 11 новых глав регионов. Рамазан Абдулатипов (Республика Дагестан) и Виктор Толоконский (Красноярский край) объявили о своей уходе, приемники пока не назначены.

Подписывайтесь на новости в Фейсбуке
Подписывайтесь на новости в Фейсбуке

Приглашаем журналистов и редакторов попробовать себя в журналистике данных

«Медиаган» — первое в России агентство журналистики данных. Мы занимаемся анализом и визуализацией данных для СМИ. Ищем журналистов и редакторов, которым интересно попробовать себя в этой сфере. Денег не платим, но хорошо прокачиваем скиллы. От нас — бесплатная помощь в сборе, анализе и визуализации данных, от вас — интерес к сфере журналистике данных, публикация на площадке вашего издания.

Подробнее о нас: mediagun.ru

Заполните анкету:

Подписывайтесь на новости в Фейсбуке

Каких кошек продают россияне

Мы проанализировали более 100 тысяч рекламных объявлений о продаже кошек в России.
Десять самых популярных пород: мейн-кун, бенгальская, канадский сфинкс, экзотическая, донской сфинкс, шотландская, персидская, сиамская, сибирская.

10% продавцов готовы отдать кота бесплатно. Кошку сибирской породы можно в среднем купить за 100 рублей, а вот кошка бурманской породы обойдется в среднем в 25 000 рублей. Вот средние цены на популярные породы кошек:

Петербуржцы чаще продают беспородных кошек, москвичи предпочитают шотландских и мейн-кунов. В северных районах люди чаще продают беспородных кошек, южане предпочитают кошек шотландской породы. Выберите свой регион и посмотрите, каких кошек продают у вас:

Подписывайтесь на новости в Фейсбуке

Умер, убили, устал. По какой причине покидали свой пост правители России

В 2018 году в России пройдут президентские выборы и возможно уже через год наша страна получит нового руководителя. Мы решили посмотреть, сколько лет были у власти все правители России, данные взяли у Википедии.

По какой причине правитель покидал пост? В половине случаев править приходилось до самой смерти. Каждого пятого правителя ждала не естественная, а насильственная смерть. Часто определить, отчего умер царь: от старости или от отравления было невозможно — медицина того времени была несовершенна. В конце XX века Россия вступила на путь демократического развития, основная причина ухода теперь — истечение срока полномочий.

Подписывайтесь на новости в Фейсбуке
Подписывайтесь на новости в Фейсбуке

Что мы узнали, анализируя телепрограмму «Первого канала» с 1999 года

В чем причины кризиса телевещания на главном телеканале страны и почему на нем показывают все больше советского кино.

«Первый канал» начал вещание 1 апреля 1995 года. В 1998 году произошел обвал рекламного рынка, к лету 2000 года сложилась критическая ситуация, канал оказался под угрозой закрытия. Пожар в телецентре в августе даже заставил одно время вещать канал на других частотах — на экране зрители видели два логотипа: ОРТ и канала ОРТ.

Летом 2000 года на канале не вели архив программы, на визуализации видно «дыру» в вещании.

Некоторые телепередачи, которые были в эфире в 1999 году, до сих пор остаются в сетке вещания «Первого канала». «Доброго утро» и «Новости» и «КВН» выходят на канале еще с советских времен.

В сентябре 2000 года Борис Березовский продал свою долю акций «Первого канала» (49%). Пакет акций отошел структурам Романа Абрамовича и совет директоров стал состоять из представителей государства.

Осенью 2000 года «Первый канал» закрывает 12 телепередач и открывает новые. Со скандального НТВ переходит программа «Кто хочет стать миллионером».

С 2012 года канал предпринимает попытки изменения сетки вещания. В 2012-2014 годах запущены два удачных проекта: «Вечерний Ургант» и «Наедине со всеми». Однако телеканал побоялся потерять возрастную аудиторию, поэтому молодежные шоу чередовались с «Поле чудес».

Старые передачи, которые в эфирной сетке с 90-х, изначально копировали западные образцы и создавали так необходимую в начале нулевых аполитичную сетку вещания.

С начала десятых годов повестка становится более политической, это связано с волнениями на Болотной, присоединением Крыма и санкциями. В 2014 году программа «Другие новости» была заменена военными сводками с Украины.

В 2016 году руководство отказалось от трансляции кубка Первого канала из-за низких рейтингов и передало право «Матч ТВ». В том же году канал покинула ведущая программы «Воскресное время» Ирада Зейналова. В 2017 году еще несколько ведущих ушло с канала. Андрей Малахов перешел на телеканал «Россия 1». 9 августа ведущий программы «Точь-в-точь» и «Большая разница» Александра Олешко заявил об уходе. В августе 2017 года разгорается конфликт с авторами передачи «Пока все дома», этим делом заинтересовалась прокуратура. Взамен Тимура Кизякова утром в воскресенье зрителей будет развлекать Сергей Шнуров с программой «Главный котик страны»

В марте «Первый канал» вернулся к использованию сервиса оценки зрительского интереса «Медиаскопа». 12 лет напрямую не пользовался услугами крупнейшего телеизмерителя страны. По данным «Медиаскопа», с начала 2017 года «Первый канал» начинает уступать «России 1». Вот рейтинг передач за последнюю неделю августа 2017 года.

Мы заметили в сетке вещания фильмы, которые регулярно повторяются в эфире с 1999 года, их крутят по несколько раз за год. Вот они:

По данным «Ведомостей», россияне предпочитают советские фильмы новинкам кинопроката. На визуализации видно, как участились показы советских фильмов 50-х—70-х годов

Через несколько лет истекут авторские права на советские фильмы и они становятся общественным достоянием. Таким фильмом, например, уже стал «Небесный тихоход». В 2015 году, через 70 лет после выпуска картины, истек срок действия авторского права, ее «Первый канал» показал четыре раза за два года.

Вы можете сами посмотреть, когда шли ваши любимые (или не очень) передачи.

Подписывайтесь на новости в Фейсбуке
Ctrl + ↓ Ранее