Выбор метода интеллектуального анализа документов высшего учебного заведения 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Выбор метода интеллектуального анализа документов высшего учебного заведения



ВЫБОР МЕТОДА ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДОКУМЕНТОВ ВЫСШЕГО УЧЕБНОГО ЗАВЕДЕНИЯ

 

А.Л. Ткаченко1, 2, Л.А. Денисова2

1 Сибирский государственный автомобильно-дорожный университет, tanaleo @ mail. ru

2 Омский государственный технический университет, denisova @ asoiu. com

 

Рассмотрена задача классификации текстовых  документов высшего учебного заведения. Предметом исследования являются методы классификации текстовых документов. Целью исследования является выбор метода интеллектуального анализа документов, обеспечивающего наиболее точную и качественную классификацию документов вуза. Проанализирован процесс классификации русскоязычных документов. Рассмотрены методы предварительной обработки документов. Выявлены достоинства и недостатки каждого рассмотренного метода. Проведены анализ и сравнение методов автоматической классификации документов по таким оценкам, как правильность алгоритма классификации, точность, полнота, время работы алгоритма. В результате проведенного исследования автором предложено для классификации текстовых документов вуза использовать метод опорных векторов.

Ключевые слова: классификация текстов, обработка текстов, машинное обучение, качество классификации.

 

CHOOSING THE METHOD OF INTELLECTUAL ANALYSIS OF HIGHER EDUCATIONAL INSTITUTION DOCUMENTS

A.L. Tkachenko1, 2, L.A. Denisova2

1 The Siberian State Automobile and Highway University, tanaleo@mail.ru

2Omsk State Technical University, denisova@asoiu.com

The problem of text documents classification of a higher educational institution is considered. The subject of the study is the methods of text documents classification. The purpose of the study is to choose a method of intellectual analysis of documents that provides the most accurate and high-quality classification of university documents. The process of Russian-language documents classification is analyzed. Methods of preliminary processing of documents are considered. The advantages and disadvantages of each considered method are revealed. The methods of automatic classification of documents are analyzed and compared according to such estimates as the correctness of the classification algorithm, accuracy, completeness, and operating time of the algorithm. As a result of the study, the author proposed to use the method of reference vectors for the classification of text documents of the university.

Keywords: text classification, text processing, machine learning, classification quality.

 

I. Введение

 

На современном этапе развития вуза требуется автоматизировать процессы делопроизводства. Значительный масштаб работ по обработке и исполнению документов предполагает использование современных систем электронного документооборота (СЭД), а также интеграцию СЭД со средствами интеллектуальной обработки внешней и внутренней документации [1, 2].

Ежедневно в вузе генерируются большие объемы разнородной внутренней информации: результаты промежуточных аттестаций, отчеты по практикам студентов, результаты анкетирования студентов и профессорско-преподавательского состава и др. Помимо генерируемой внутренней информации в вуз поступает огромный объем информации извне, большая часть которого содержится во внешних документах. На обработку как внутренней, так и внешней информации уходит большое количество времени, в связи с этим возникает необходимость в интеграции СЭД с технологиями искусственного интеллекта для обработки ежедневно генерируемых в вузах потоков информации.

Одной из основных задач в СЭД вузов является задача классификации текстовых документов, когда заранее известны конечные классы и требуется распределить по этим классам текстовые документы. Для решения этой задачи широко используются методы машинного обучения [3], которых сегодня известно большое количество.

В данной статье рассмотрены основные группы методов интеллектуальной классификации документов, приведены их особенности, также выделены их достоинства и недостатки.

 

Модель

Метод извлечения признаков

Оценка классификации

accuracy precision recall F -мера

Наивный байесовский классификатор

TF 0,3915 0,3307 0,3915 0,2540
TF + хэширование 0,3676 0,2570 0,3676 0,2153
TF-IDF 0,4329 0,4611 0,4329 0,3226
TF-IDF + n-grams 0,4260 0,4590 0,4260 0,3130

Метод ближайших соседей

TF 0,6120 0,6616 0,6120 0.5898
TF + хэширование 0,6224 0,6292 0,6224 0,6091
TF-IDF 0,6536 0,6540 0,6536 0,6360
TF-IDF + n-grams 0,7256 0,7453 0,7256 0,7142

Метод деревьев решений

TF 0,6776 0,6806 0,6776 0,6713
TF + хэширование 0,6845 0,6978 0,6845 0,6759
TF-IDF 0,6808 0,6854 0,6808 0,6714
TF-IDF + n-grams 0,6569 0,6814 0,6569 0,6423

Метод опорных векторов

TF 0,6741 0,6775 0,6741 0,6550
TF + хэширование 0,6878 0,6863 0,6878 0,6721
TF-IDF 0,6810 0,6945 0,6810 0,6611
TF-IDF + n-grams 0,7395 0,7546 0,7395 0,7254

 

По итогам вычислительных экспериментов лучший результат показал метод опорных векторов. Этот метод будет использован в дальнейшей работе над диссертацией.

 

Уникальных словоформ до предобработки: 10874

Уникальных словоформ после предобработки: 4684

 

V Заключение

 

Литература:

[1] Рубцова Ю.В. Методы и алгоритмы построения информационных систем для классификации текстов социальных сетей по тональности. Автореферат диссертации на соискание ученой степени канд. техн. наук. Екатеринбург, 2016. 141 с.

[2] Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze An Introduction to Information Retrieval Draft. Online edition. Cambridge University Press. - 2009. - 544 p.

[3] Борисов Е.С. Классификатор текстов на естественном языке. URL: http://mechanoid.kiev.ua/neural-net-classifier-text.html

[4] Батура Т.В. Методы автоматической классификации текстов // Программные продукты и системы. 2017. Т. 30, № 1. С. 85-99.

[5] Краснянский М.Н., Обухов А.Д., Соломатина Е.М., Воякина А.А. Сравнительный анализ методов машинного обучения для решения задачи классификации документов научно-образовательного учреждения // Вестник ВГУ. Системный анализ и информационные технологии. 2018. № 3. С. 173-182.

[6] Обработка естественного языка URL: http://neerc.ifmo.ru/wiki/index.php?title=Обработка_естественного_языка

[7] Xiang Zhang, Junbo Zhao, Yann LeCun. Character-level convolutional networks for text classification. Proc. Neural Inform. Processing Systems Conf. (NIPS 2015). Montreal, Canada, 2015. URL: https://arxiv.org/abs/1509.01626 (дата обращения: 19.11.2020).

[8] Оценка классификатора (точность, полнота, F-мера) URL: http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html

[9] Серобабов А.С. Формирование диапазонов переменных экспертной системы с использованием дерева принятия решений

[10] Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space // In Proceedings of Workshop at ICLR. — 2013a.

[11] Mikolov T., Yih W.-T., Zweig G. Linguistic Regularities in Continuous Space Word Representations // In Proceedings of NAACL HLT. — 2013b.

[12] Kohavi R. et al. A study of cross-validation and bootstrap for accuracy estimation and model selection //Ijcai. – 1995. – Т. 14. – №. 2. – С. 1137-1145.

[13] Хайкин Нейронные сети

 

 

ВЫБОР МЕТОДА ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДОКУМЕНТОВ ВЫСШЕГО УЧЕБНОГО ЗАВЕДЕНИЯ

 

А.Л. Ткаченко1, 2, Л.А. Денисова2

1 Сибирский государственный автомобильно-дорожный университет, tanaleo @ mail. ru

2 Омский государственный технический университет, denisova @ asoiu. com

 

Рассмотрена задача классификации текстовых  документов высшего учебного заведения. Предметом исследования являются методы классификации текстовых документов. Целью исследования является выбор метода интеллектуального анализа документов, обеспечивающего наиболее точную и качественную классификацию документов вуза. Проанализирован процесс классификации русскоязычных документов. Рассмотрены методы предварительной обработки документов. Выявлены достоинства и недостатки каждого рассмотренного метода. Проведены анализ и сравнение методов автоматической классификации документов по таким оценкам, как правильность алгоритма классификации, точность, полнота, время работы алгоритма. В результате проведенного исследования автором предложено для классификации текстовых документов вуза использовать метод опорных векторов.

Ключевые слова: классификация текстов, обработка текстов, машинное обучение, качество классификации.

 



Поделиться:


Читайте также:




Последнее изменение этой страницы: 2021-03-09; просмотров: 50; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.217.194.39 (0.012 с.)