Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь FAQ Написать работу КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Выбор метода интеллектуального анализа документов высшего учебного заведения↑ Стр 1 из 4Следующая ⇒ Содержание книги
Поиск на нашем сайте
ВЫБОР МЕТОДА ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДОКУМЕНТОВ ВЫСШЕГО УЧЕБНОГО ЗАВЕДЕНИЯ
А.Л. Ткаченко1, 2, Л.А. Денисова2 1 Сибирский государственный автомобильно-дорожный университет, tanaleo @ mail. ru 2 Омский государственный технический университет, denisova @ asoiu. com
Рассмотрена задача классификации текстовых документов высшего учебного заведения. Предметом исследования являются методы классификации текстовых документов. Целью исследования является выбор метода интеллектуального анализа документов, обеспечивающего наиболее точную и качественную классификацию документов вуза. Проанализирован процесс классификации русскоязычных документов. Рассмотрены методы предварительной обработки документов. Выявлены достоинства и недостатки каждого рассмотренного метода. Проведены анализ и сравнение методов автоматической классификации документов по таким оценкам, как правильность алгоритма классификации, точность, полнота, время работы алгоритма. В результате проведенного исследования автором предложено для классификации текстовых документов вуза использовать метод опорных векторов. Ключевые слова: классификация текстов, обработка текстов, машинное обучение, качество классификации.
CHOOSING THE METHOD OF INTELLECTUAL ANALYSIS OF HIGHER EDUCATIONAL INSTITUTION DOCUMENTS A.L. Tkachenko1, 2, L.A. Denisova2 1 The Siberian State Automobile and Highway University, tanaleo@mail.ru 2Omsk State Technical University, denisova@asoiu.com The problem of text documents classification of a higher educational institution is considered. The subject of the study is the methods of text documents classification. The purpose of the study is to choose a method of intellectual analysis of documents that provides the most accurate and high-quality classification of university documents. The process of Russian-language documents classification is analyzed. Methods of preliminary processing of documents are considered. The advantages and disadvantages of each considered method are revealed. The methods of automatic classification of documents are analyzed and compared according to such estimates as the correctness of the classification algorithm, accuracy, completeness, and operating time of the algorithm. As a result of the study, the author proposed to use the method of reference vectors for the classification of text documents of the university. Keywords: text classification, text processing, machine learning, classification quality.
I. Введение
На современном этапе развития вуза требуется автоматизировать процессы делопроизводства. Значительный масштаб работ по обработке и исполнению документов предполагает использование современных систем электронного документооборота (СЭД), а также интеграцию СЭД со средствами интеллектуальной обработки внешней и внутренней документации [1, 2]. Ежедневно в вузе генерируются большие объемы разнородной внутренней информации: результаты промежуточных аттестаций, отчеты по практикам студентов, результаты анкетирования студентов и профессорско-преподавательского состава и др. Помимо генерируемой внутренней информации в вуз поступает огромный объем информации извне, большая часть которого содержится во внешних документах. На обработку как внутренней, так и внешней информации уходит большое количество времени, в связи с этим возникает необходимость в интеграции СЭД с технологиями искусственного интеллекта для обработки ежедневно генерируемых в вузах потоков информации. Одной из основных задач в СЭД вузов является задача классификации текстовых документов, когда заранее известны конечные классы и требуется распределить по этим классам текстовые документы. Для решения этой задачи широко используются методы машинного обучения [3], которых сегодня известно большое количество. В данной статье рассмотрены основные группы методов интеллектуальной классификации документов, приведены их особенности, также выделены их достоинства и недостатки.
Модель |
Метод извлечения признаков |
Оценка классификации | |||||
accuracy | precision | recall | F -мера | |||||
Наивный байесовский классификатор | TF | 0,3915 | 0,3307 | 0,3915 | 0,2540 | |||
TF + хэширование | 0,3676 | 0,2570 | 0,3676 | 0,2153 | ||||
TF-IDF | 0,4329 | 0,4611 | 0,4329 | 0,3226 | ||||
TF-IDF + n-grams | 0,4260 | 0,4590 | 0,4260 | 0,3130 | ||||
Метод ближайших соседей | TF | 0,6120 | 0,6616 | 0,6120 | 0.5898 | |||
TF + хэширование | 0,6224 | 0,6292 | 0,6224 | 0,6091 | ||||
TF-IDF | 0,6536 | 0,6540 | 0,6536 | 0,6360 | ||||
TF-IDF + n-grams | 0,7256 | 0,7453 | 0,7256 | 0,7142 | ||||
Метод деревьев решений | TF | 0,6776 | 0,6806 | 0,6776 | 0,6713 | |||
TF + хэширование | 0,6845 | 0,6978 | 0,6845 | 0,6759 | ||||
TF-IDF | 0,6808 | 0,6854 | 0,6808 | 0,6714 | ||||
TF-IDF + n-grams | 0,6569 | 0,6814 | 0,6569 | 0,6423 | ||||
Метод опорных векторов | TF | 0,6741 | 0,6775 | 0,6741 | 0,6550 | |||
TF + хэширование | 0,6878 | 0,6863 | 0,6878 | 0,6721 | ||||
TF-IDF | 0,6810 | 0,6945 | 0,6810 | 0,6611 | ||||
TF-IDF + n-grams | 0,7395 | 0,7546 | 0,7395 | 0,7254 |
По итогам вычислительных экспериментов лучший результат показал метод опорных векторов. Этот метод будет использован в дальнейшей работе над диссертацией.
Уникальных словоформ до предобработки: 10874
Уникальных словоформ после предобработки: 4684
V Заключение
Литература:
[1] Рубцова Ю.В. Методы и алгоритмы построения информационных систем для классификации текстов социальных сетей по тональности. Автореферат диссертации на соискание ученой степени канд. техн. наук. Екатеринбург, 2016. 141 с.
[2] Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze An Introduction to Information Retrieval Draft. Online edition. Cambridge University Press. - 2009. - 544 p.
[3] Борисов Е.С. Классификатор текстов на естественном языке. URL: http://mechanoid.kiev.ua/neural-net-classifier-text.html
[4] Батура Т.В. Методы автоматической классификации текстов // Программные продукты и системы. 2017. Т. 30, № 1. С. 85-99.
[5] Краснянский М.Н., Обухов А.Д., Соломатина Е.М., Воякина А.А. Сравнительный анализ методов машинного обучения для решения задачи классификации документов научно-образовательного учреждения // Вестник ВГУ. Системный анализ и информационные технологии. 2018. № 3. С. 173-182.
[6] Обработка естественного языка URL: http://neerc.ifmo.ru/wiki/index.php?title=Обработка_естественного_языка
[7] Xiang Zhang, Junbo Zhao, Yann LeCun. Character-level convolutional networks for text classification. Proc. Neural Inform. Processing Systems Conf. (NIPS 2015). Montreal, Canada, 2015. URL: https://arxiv.org/abs/1509.01626 (дата обращения: 19.11.2020).
[8] Оценка классификатора (точность, полнота, F-мера) URL: http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html
[9] Серобабов А.С. Формирование диапазонов переменных экспертной системы с использованием дерева принятия решений
[10] Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space // In Proceedings of Workshop at ICLR. — 2013a.
[11] Mikolov T., Yih W.-T., Zweig G. Linguistic Regularities in Continuous Space Word Representations // In Proceedings of NAACL HLT. — 2013b.
[12] Kohavi R. et al. A study of cross-validation and bootstrap for accuracy estimation and model selection //Ijcai. – 1995. – Т. 14. – №. 2. – С. 1137-1145.
[13] Хайкин Нейронные сети
ВЫБОР МЕТОДА ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДОКУМЕНТОВ ВЫСШЕГО УЧЕБНОГО ЗАВЕДЕНИЯ
А.Л. Ткаченко1, 2, Л.А. Денисова2
1 Сибирский государственный автомобильно-дорожный университет, tanaleo @ mail. ru
2 Омский государственный технический университет, denisova @ asoiu. com
Рассмотрена задача классификации текстовых документов высшего учебного заведения. Предметом исследования являются методы классификации текстовых документов. Целью исследования является выбор метода интеллектуального анализа документов, обеспечивающего наиболее точную и качественную классификацию документов вуза. Проанализирован процесс классификации русскоязычных документов. Рассмотрены методы предварительной обработки документов. Выявлены достоинства и недостатки каждого рассмотренного метода. Проведены анализ и сравнение методов автоматической классификации документов по таким оценкам, как правильность алгоритма классификации, точность, полнота, время работы алгоритма. В результате проведенного исследования автором предложено для классификации текстовых документов вуза использовать метод опорных векторов.
Ключевые слова: классификация текстов, обработка текстов, машинное обучение, качество классификации.
| Поделиться: |
Познавательные статьи:
Последнее изменение этой страницы: 2021-03-09; просмотров: 70; Нарушение авторского права страницы; Мы поможем в написании вашей работы!
infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.145.61.199 (0.007 с.)