Заглавная страница
Избранные статьи
Случайная статья
Познавательные статьи
Новые добавления
Обратная связь

ТОП 10 на сайте

Приготовление дезинфицирующих растворов различной концентрации

Техника нижней прямой подачи мяча.

Франко-прусская война (причины и последствия)

Организация работы процедурного кабинета

Смысловое и механическое запоминание, их место и роль в усвоении знаний

Коммуникативные барьеры и пути их преодоления

Обработка изделий медицинского назначения многократного применения

Образцы текста публицистического стиля

Четыре типа изменения баланса

Задачи с ответами для Всероссийской олимпиады по праву

Мы поможем в написании ваших работ!

ЗНАЕТЕ ЛИ ВЫ?

Влияние общества на человека

Приготовление дезинфицирующих растворов различной концентрации

Практические работы по географии для 6 класса

Организация работы процедурного кабинета

Изменения в неживой природе осенью

Уборка процедурного кабинета

Сольфеджио. Все правила по сольфеджио

Балочные системы. Определение реакций опор и моментов защемления

Главная Избранные Случайная статья Познавательные Новые добавления Обратная связь FAQ

IV . Результаты сравнения методов классификации

⇐ ПредыдущаяСтр 4 из 4

Для решения задачи классификации использовался размеченный набор документов СибАДИ, состоящий из 300 документов, принадлежавших к одному из четырех классов: приказ, распоряжение, письмо от предприятия, вакансия.

Перед построением числовой модели текстов была проведена предварительная обработка: все буквы в текстах были переведены в нижний регистр, все знаки пунктуации, даты, цифры, шумовые слова были удалены, тексты были разбиты на отдельные слова (токены), которые в свою очередь были приведены к нормальной форме. Из получившихся слов были выделены их основы. Из обработанных текстов был построен словарь, который использовался далее при построении числовой модели текстов.

Для построения числовой модели текстов использовалась модель «мешка слов». Для извлечения признаков из текста использовались следующие методы: метод нормализованного частотного анализа TF, TF и хэширование, метод TF - IDF, метод TF - IDF и n - grams.

Для обучения и тестирования классификаторов использовался метод k -кратной перекрестной проверки. Поскольку набор документов мал, то число разбиений было принято равным пяти. При каждом разбиении для тестовой выборки вычислялись оценки: правильность алгоритма классификации, точность, полнота, F-мера, время работы алгоритма. Затем для всех полученных результатов по каждой оценке вычислялось среднее значение. Значения оценок классификации для разных моделей и методов извлечения признаков из текста представлены в таблице 1.

Таблица 1 Значения оценок классификации для разных моделей и методов извлечения признаков из текста

Модель

Метод извлечения признаков

Оценка классификации

accuracy

precision

recall

F -мера

Наивный байесовский классификатор

0,3915

0,3307

0,3915

0,2540

TF + хэширование

0,3676

0,2570

0,3676

0,2153

TF-IDF

0,4329

0,4611

0,4329

0,3226

TF-IDF + n-grams

0,4260

0,4590

0,4260

0,3130

Метод ближайших соседей

0,6120

0,6616

0,6120

0.5898

TF + хэширование

0,6224

0,6292

0,6224

0,6091

TF-IDF

0,6536

0,6540

0,6536

0,6360

TF-IDF + n-grams

0,7256

0,7453

0,7256

0,7142

Метод деревьев решений

0,6776

0,6806

0,6776

0,6713

TF + хэширование

0,6845

0,6978

0,6845

0,6759

TF-IDF

0,6808

0,6854

0,6808

0,6714

TF-IDF + n-grams

0,6569

0,6814

0,6569

0,6423

Метод опорных векторов

0,6741

0,6775

0,6741

0,6550

TF + хэширование

0,6878

0,6863

0,6878

0,6721

TF-IDF

0,6810

0,6945

0,6810

0,6611

TF-IDF + n-grams

0,7395

0,7546

0,7395

0,7254

По итогам вычислительных экспериментов лучший результат показал метод опорных векторов. Этот метод будет использован в дальнейшей работе над диссертацией.

Уникальных словоформ до предобработки: 10874

Уникальных словоформ после предобработки: 4684

V Заключение

Литература:

[1] Рубцова Ю.В. Методы и алгоритмы построения информационных систем для классификации текстов социальных сетей по тональности. Автореферат диссертации на соискание ученой степени канд. техн. наук. Екатеринбург, 2016. 141 с.

[2] Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze An Introduction to Information Retrieval Draft. Online edition. Cambridge University Press. - 2009. - 544 p.

[3] Борисов Е.С. Классификатор текстов на естественном языке. URL: http://mechanoid.kiev.ua/neural-net-classifier-text.html

[4] Батура Т.В. Методы автоматической классификации текстов // Программные продукты и системы. 2017. Т. 30, № 1. С. 85-99.

[5] Краснянский М.Н., Обухов А.Д., Соломатина Е.М., Воякина А.А. Сравнительный анализ методов машинного обучения для решения задачи классификации документов научно-образовательного учреждения // Вестник ВГУ. Системный анализ и информационные технологии. 2018. № 3. С. 173-182.

[6] Обработка естественного языка URL: http://neerc.ifmo.ru/wiki/index.php?title=Обработка_естественного_языка

[7] Xiang Zhang, Junbo Zhao, Yann LeCun. Character-level convolutional networks for text classification. Proc. Neural Inform. Processing Systems Conf. (NIPS 2015). Montreal, Canada, 2015. URL: https://arxiv.org/abs/1509.01626 (дата обращения: 19.11.2020).

[8] Оценка классификатора (точность, полнота, F-мера) URL: http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html

[9] Серобабов А.С. Формирование диапазонов переменных экспертной системы с использованием дерева принятия решений

[10] Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space // In Proceedings of Workshop at ICLR. — 2013a.

[11] Mikolov T., Yih W.-T., Zweig G. Linguistic Regularities in Continuous Space Word Representations // In Proceedings of NAACL HLT. — 2013b.

[12] Kohavi R. et al. A study of cross-validation and bootstrap for accuracy estimation and model selection //Ijcai. – 1995. – Т. 14. – №. 2. – С. 1137-1145.

[13] Хайкин Нейронные сети