Methods of data Mining in the study and forecasting of life expectancy in the regions of Russia 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Methods of data Mining in the study and forecasting of life expectancy in the regions of Russia



Abstract: this article presents the results of the complex factor analysis of indicators that can affect the value of life expectancy in the Russian Federation in 2019. The study used Data Mining method and other statistical methods.

Key words: life expectancy, Data Mining, regression analysis, Random forest, Russian Federation.

 

Одними из важнейших направлений развития Российской Федерации являются повышение уровня жизни жителей России и создание комфортных условий для их проживания. В Указе о национальных целях развития России до 2030 года определена такая цель, как сохранение населения, здоровье и благополучие людей [1]. Достижение этой цели оценивается по целевым показателям, одним из которых является повышение ожидаемой продолжительности жизни до 78 лет к 2030 году [1]. Для соответствия этому плану необходимо выработать систему показателей, влияя на которые можно достичь целевых индикаторов.

Целью данного исследования является выявление значимых факторных показателей, влияющих на ожидаемую продолжительность жизни (результативный показатель) в 2019 году. Для этого была выполнена предварительная подготовка данных, подготовлена дескриптивная статистика и выполнен комплексный факторный анализ с применением методов Data Mining и других статистических методов.

Предполагается, что на результативный показатель определенным образом влияют такие группы факторов, как демографические, финансовые, индикаторы условий проживания и уровня жизни. Были сформулированы следующие гипотезы:

· чем ниже финансовое благополучие, тем ниже продолжительность жизни;

· чем ниже качество условия проживания, тем ниже продолжительность жизни;

· чем ниже уровень благополучия региона, тем ниже продолжительность жизни;

· демографические показателями и результативный показатель взаимосвязаны.

Для исследования гипотез были применены методы Data Mining, позволяющие выявлять скрытые связи и закономерности между показателями, что поможет подтвердить или опровергнуть гипотезы [3]. Исследуемый результативный показатель определяет, сколько лет в среднем предстоит одному человеку из некоторого гипотетического поколения людей, если во время всей жизни этого поколения уровень смертности в каждом возрасте останется таким, как в год вычисления показателя.

Регионы были поделены на 4 группы по квартилям результативного показателя. Затем была введена категориальная переменная, характеризующая номер группы по ВРП на человека за 2018 год (деление произведено также по квартилям показателя). Это позволило показать неоднородность регионов РФ по уровню социально-экономического развития. Исходная классификация была скорректирована с применением метода «Случайный лес». Этот алгоритм использует ансамбль решающих деревьев, каждое из которых по отдельности классифицирует объекты с низкой точностью, но за счёт большого количества деревьев результат значительно улучшается [3]. Среди наиболее значимых предикторов классификации субъектов РФ по результативному показателю можно выделить смертность населения трудоспособного возраста, количество преступлений в отчетном периоде, общую площадь жилых помещений в среднем на одного жителя.

Рис 1. Сопоставление картограмм исходного распределения субъектов РФ по результативному показателю и классификации методом «Случайный лес»

Для каждой из полученных групп и всей совокупности регионов были построены регрессионные модели. Для этого сначала для каждой группы были отобраны показатели, имеющие сильную положительную или отрицательную корреляцию (больше 0,5) с результирующей величиной. Величина корреляции показывает степень связи между показателями. Затем были устранены случаи мультиколлинеарности, ухудшающей точность модели. В случае наличия двух сильно коррелирующих между собой факторных показателей, один из таких признаков был исключен. 

Исходя из полученных регрессионных моделей, были выделены следующие показатели, влияющие на ожидаемую продолжительность жизни по группам регионов:

Группа регионов Факторные показатели, способствующие снижению результативного показателя в 2019 г Факторные показатели, способствующие повышению результативного показателя в 2019 г Примеры регионов
Группа 1 Смертность трудоспособного населения, 2018 г; Численность населения с денежными доходами ниже величины прожиточного минимума, 2018 г.   Белгородская область, Москва, Санкт-Петербург, Республика Дагестан
Группа 2 Смертность трудоспособного населения, 2019 г;     Воронежская область, Курская область Тамбовская область
Группа 3 Смертность трудоспособного населения, 2019 г. Денежные доходы (в среднем на душу), рублей, 2018 г. Брянская область, Владимирская область, Республика Карелия
Группа 4 Смертность трудоспособного населения, 2019 г. Среднемесячный размер социальной поддержки, 2019 г. Республика Бурятия, Республика Саха, Забайкальский край, Камчатский край
Вся Россия Смертность трудоспособного населения, 2019 г; Количество преступлений, 2018 г. Уровень безработицы, 2019 г.  

В целом, приводят к росту результативного показателя увеличение таких индикаторов, как денежные доходы населения, среднемесячный размер социальной поддержки на одного человека. Негативно на него влияют количество преступлений, численность населения с денежными доходами ниже прожиточного минимума.

Несмотря на то, что в формировании показателя ожидаемой продолжительности жизни участвуют показатели смертности, во всех группах выявлена тесная взаимосвязь только со смертностью населения трудоспособного возраста. Следовательно, для выявления дальнейших индикаторов регулирования требуется провести группировку регионов по смертности населения трудоспособного возраста и определить факторные показатели, приводящие к увеличению этого вида смертности в каждой группе.

 

Список литературы:

1. О национальных целях развития Российской Федерации на период до 2030 года: Указ Президента Российской Федерации от 21.07.2020 № 474. - URL: http://kremlin.ru/events/president/news/63728 (дата обращения: 25.12.2020)

2. Об утверждении методик расчета показателей для оценки эффективности деятельности высших должностных лиц (руководителей высших исполнительных органов государственной власти) субъектов Российской Федерации и деятельности органов исполнительной власти субъектов Российской Федерации, а также о признании утратившими силу некоторых актов Правительства Российской Федерации: Постановление Правительства РФ от 17 июля 2019 г. N 915

2. Замятин А.В. Интеллектуальный анализ данных: учеб. пособие. – Томск: Издательский Дом Томского государственного университета, 2016. – 120 с.

 

Сомова Е. А.

Научный руководитель: Дем О. Д.

Витебский государственный технологический университет

 



Поделиться:


Последнее изменение этой страницы: 2021-07-18; просмотров: 49; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.135.183.89 (0.005 с.)