Редакция 117418, Москва, ул. Профсоюзная, д. 33, корп. 4, НИУ ВШЭ, каб. 404. Тел.: (495) 772-95-90 доб. 11874. e-mail: redact@hse.ru
Издатель и распространитель 117418, Москва, ул. Профсоюзная, д. 33, корп. 4, Издательский дом Высшей школы экономики. Тел: (495) 772-95-90 доб. 15298; e-mail: id.hse@mail.ru
В данной работе применяется текстуальный анализ для оценки параметров гедонистической модели ценообразования на рынке вторичной недвижимости г. Москвы. Для проведения исследования был собран уникальный массив данных – активные в июле 2019 г. объявления о продаже жилой недвижимости на сайте ЦИАН. Для сбора информации была написана специальная программа-парсер на языке Python. Всего было собрано около 60 тыс. объявлений, которые представляют все районы Москвы. На основе этого массива данных и разработанного авторами алгоритма анализа текстов определены слова (униграммы) и словосочетания (биграммы), которые являются наиболее значимыми предикторами цены. Преимущество данного подхода в том, что подбор объясняющих переменных для эконометрической модели опирается на выявленные предпочтения участников рынка – алгоритм определяет характеристики жилья, которые указывают сами владельцы, заинтересованные в успешной продаже. Таким образом, мы выявляем важные субъективные факторы ценообразования на рынке московской недвижимости. Показано, что использование текстуального анализа позволяет заметно улучшить предсказательную силу эконометрической модели ценообразования. В частности, благодаря использованию униграмм мы можем сократить среднеквадратичную ошибку на 15%. Механизм этого улучшения заключается в учете факторов ценообразования, которые трудно измерить количественным образом. К примеру, биграммы «очистка воды», «охрана консьерж», «клубный дом», «система видеонаблюдение» и им подобные отвечают за факторы благоустройства самого жилья и его окрестностей, безопасность и другие общественные блага локального уровня, которые практически не поддаются количественному измерению по единой методике.