@ARTICLE{26543120_356432060_2020, author = {Г. И. Гончаров and Т. В. Натхов}, keywords = {, гедонистическая модель, ЛАССОнедвижимость}, title = {Текстуальный анализ ценообразования на рынке московской жилой недвижимости}, journal = {Экономический журнал ВШЭ}, year = {2020}, volume = {24}, number = {1}, pages = {101-116}, url = {https://ej.hse.ru/2020-24-1/356432060.html}, publisher = {}, abstract = {В данной работе применяется текстуальный анализ для оценки параметров гедонистической модели ценообразования на рынке вторичной недвижимости г. Москвы. Для проведения исследования был собран уникальный массив данных - активные в июле 2019 г. объявления о продаже жилой недвижимости на сайте ЦИАН. Для сбора информации была написана специальная программа-парсер на языке Python. Всего было собрано около 60 тыс. объявлений, которые представляют все районы Москвы. На основе этого массива данных и разработанного авторами алгоритма анализа текстов определены слова (униграммы) и словосочетания (биграммы), которые являются наиболее значимыми предикторами цены. Преимущество данного подхода в том, что подбор объясняющих переменных для эконометрической модели опирается на выявленные предпочтения участников рынка - алгоритм определяет характеристики жилья, которые указывают сами владельцы, заинтересованные в успешной продаже. Таким образом, мы выявляем важные субъективные факторы ценообразования на рынке московской недвижимости. Показано, что использование текстуального анализа позволяет заметно улучшить предсказательную силу эконометрической модели ценообразования. В частности, благодаря использованию униграмм мы можем сократить среднеквадратичную ошибку на 15%. Механизм этого улучшения заключается в учете факторов ценообразования, которые трудно измерить количественным образом. К примеру, биграммы «очистка воды», «охрана консьерж», «клубный дом», «система видеонаблюдение» и им подобные отвечают за факторы благоустройства самого жилья и его окрестностей, безопасность и другие общественные блага локального уровня, которые практически не поддаются количественному измерению по единой методике.}, annote = {В данной работе применяется текстуальный анализ для оценки параметров гедонистической модели ценообразования на рынке вторичной недвижимости г. Москвы. Для проведения исследования был собран уникальный массив данных - активные в июле 2019 г. объявления о продаже жилой недвижимости на сайте ЦИАН. Для сбора информации была написана специальная программа-парсер на языке Python. Всего было собрано около 60 тыс. объявлений, которые представляют все районы Москвы. На основе этого массива данных и разработанного авторами алгоритма анализа текстов определены слова (униграммы) и словосочетания (биграммы), которые являются наиболее значимыми предикторами цены. Преимущество данного подхода в том, что подбор объясняющих переменных для эконометрической модели опирается на выявленные предпочтения участников рынка - алгоритм определяет характеристики жилья, которые указывают сами владельцы, заинтересованные в успешной продаже. Таким образом, мы выявляем важные субъективные факторы ценообразования на рынке московской недвижимости. Показано, что использование текстуального анализа позволяет заметно улучшить предсказательную силу эконометрической модели ценообразования. В частности, благодаря использованию униграмм мы можем сократить среднеквадратичную ошибку на 15%. Механизм этого улучшения заключается в учете факторов ценообразования, которые трудно измерить количественным образом. К примеру, биграммы «очистка воды», «охрана консьерж», «клубный дом», «система видеонаблюдение» и им подобные отвечают за факторы благоустройства самого жилья и его окрестностей, безопасность и другие общественные блага локального уровня, которые практически не поддаются количественному измерению по единой методике.} }