IV . Результаты сравнения методов классификации 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

IV . Результаты сравнения методов классификации



 

Для решения задачи классификации использовался размеченный набор документов СибАДИ, состоящий из 300 документов, принадлежавших к одному из четырех классов: приказ, распоряжение, письмо от предприятия, вакансия.

Перед построением числовой модели текстов была проведена предварительная обработка: все буквы в текстах были переведены в нижний регистр, все знаки пунктуации, даты, цифры, шумовые слова были удалены, тексты были разбиты на отдельные слова (токены), которые в свою очередь были приведены к нормальной форме. Из получившихся слов были выделены их основы. Из обработанных текстов был построен словарь, который использовался далее при построении числовой модели текстов.

Для построения числовой модели текстов использовалась модель «мешка слов». Для извлечения признаков из текста использовались следующие методы: метод нормализованного частотного анализа TF, TF и хэширование,  метод TF - IDF,  метод TF - IDF и n - grams.

Для обучения и тестирования классификаторов использовался метод k -кратной перекрестной проверки. Поскольку набор документов мал, то число разбиений было принято равным пяти. При каждом разбиении для тестовой выборки вычислялись оценки: правильность алгоритма классификации, точность, полнота, F-мера, время работы алгоритма. Затем для всех полученных результатов по каждой оценке вычислялось среднее значение. Значения оценок классификации для разных моделей и методов извлечения признаков из текста представлены в таблице 1.

 

Таблица 1 Значения оценок классификации для разных моделей и методов извлечения признаков из текста

Модель

Метод извлечения признаков

Оценка классификации

accuracy precision recall F -мера

Наивный байесовский классификатор

TF 0,3915 0,3307 0,3915 0,2540
TF + хэширование 0,3676 0,2570 0,3676 0,2153
TF-IDF 0,4329 0,4611 0,4329 0,3226
TF-IDF + n-grams 0,4260 0,4590 0,4260 0,3130

Метод ближайших соседей

TF 0,6120 0,6616 0,6120 0.5898
TF + хэширование 0,6224 0,6292 0,6224 0,6091
TF-IDF 0,6536 0,6540 0,6536 0,6360
TF-IDF + n-grams 0,7256 0,7453 0,7256 0,7142

Метод деревьев решений

TF 0,6776 0,6806 0,6776 0,6713
TF + хэширование 0,6845 0,6978 0,6845 0,6759
TF-IDF 0,6808 0,6854 0,6808 0,6714
TF-IDF + n-grams 0,6569 0,6814 0,6569 0,6423

Метод опорных векторов

TF 0,6741 0,6775 0,6741 0,6550
TF + хэширование 0,6878 0,6863 0,6878 0,6721
TF-IDF 0,6810 0,6945 0,6810 0,6611
TF-IDF + n-grams 0,7395 0,7546 0,7395 0,7254

 

По итогам вычислительных экспериментов лучший результат показал метод опорных векторов. Этот метод будет использован в дальнейшей работе над диссертацией.

 

Уникальных словоформ до предобработки: 10874

Уникальных словоформ после предобработки: 4684

 

V Заключение

 

Литература:

[1] Рубцова Ю.В. Методы и алгоритмы построения информационных систем для классификации текстов социальных сетей по тональности. Автореферат диссертации на соискание ученой степени канд. техн. наук. Екатеринбург, 2016. 141 с.

[2] Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze An Introduction to Information Retrieval Draft. Online edition. Cambridge University Press. - 2009. - 544 p.

[3] Борисов Е.С. Классификатор текстов на естественном языке. URL: http://mechanoid.kiev.ua/neural-net-classifier-text.html

[4] Батура Т.В. Методы автоматической классификации текстов // Программные продукты и системы. 2017. Т. 30, № 1. С. 85-99.

[5] Краснянский М.Н., Обухов А.Д., Соломатина Е.М., Воякина А.А. Сравнительный анализ методов машинного обучения для решения задачи классификации документов научно-образовательного учреждения // Вестник ВГУ. Системный анализ и информационные технологии. 2018. № 3. С. 173-182.

[6] Обработка естественного языка URL: http://neerc.ifmo.ru/wiki/index.php?title=Обработка_естественного_языка

[7] Xiang Zhang, Junbo Zhao, Yann LeCun. Character-level convolutional networks for text classification. Proc. Neural Inform. Processing Systems Conf. (NIPS 2015). Montreal, Canada, 2015. URL: https://arxiv.org/abs/1509.01626 (дата обращения: 19.11.2020).

[8] Оценка классификатора (точность, полнота, F-мера) URL: http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html

[9] Серобабов А.С. Формирование диапазонов переменных экспертной системы с использованием дерева принятия решений

[10] Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space // In Proceedings of Workshop at ICLR. — 2013a.

[11] Mikolov T., Yih W.-T., Zweig G. Linguistic Regularities in Continuous Space Word Representations // In Proceedings of NAACL HLT. — 2013b.

[12] Kohavi R. et al. A study of cross-validation and bootstrap for accuracy estimation and model selection //Ijcai. – 1995. – Т. 14. – №. 2. – С. 1137-1145.

[13] Хайкин Нейронные сети

 

 



Поделиться:


Читайте также:




Последнее изменение этой страницы: 2021-03-09; просмотров: 59; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.137.161.222 (0.007 с.)