Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
IV . Результаты сравнения методов классификации ⇐ ПредыдущаяСтр 4 из 4
Для решения задачи классификации использовался размеченный набор документов СибАДИ, состоящий из 300 документов, принадлежавших к одному из четырех классов: приказ, распоряжение, письмо от предприятия, вакансия. Перед построением числовой модели текстов была проведена предварительная обработка: все буквы в текстах были переведены в нижний регистр, все знаки пунктуации, даты, цифры, шумовые слова были удалены, тексты были разбиты на отдельные слова (токены), которые в свою очередь были приведены к нормальной форме. Из получившихся слов были выделены их основы. Из обработанных текстов был построен словарь, который использовался далее при построении числовой модели текстов. Для построения числовой модели текстов использовалась модель «мешка слов». Для извлечения признаков из текста использовались следующие методы: метод нормализованного частотного анализа TF, TF и хэширование, метод TF - IDF, метод TF - IDF и n - grams. Для обучения и тестирования классификаторов использовался метод k -кратной перекрестной проверки. Поскольку набор документов мал, то число разбиений было принято равным пяти. При каждом разбиении для тестовой выборки вычислялись оценки: правильность алгоритма классификации, точность, полнота, F-мера, время работы алгоритма. Затем для всех полученных результатов по каждой оценке вычислялось среднее значение. Значения оценок классификации для разных моделей и методов извлечения признаков из текста представлены в таблице 1.
Таблица 1 Значения оценок классификации для разных моделей и методов извлечения признаков из текста Модель |
Метод извлечения признаков |
Оценка классификации | ||||||
accuracy | precision | recall | F -мера | ||||||
Наивный байесовский классификатор | TF | 0,3915 | 0,3307 | 0,3915 | 0,2540 | ||||
TF + хэширование | 0,3676 | 0,2570 | 0,3676 | 0,2153 | |||||
TF-IDF | 0,4329 | 0,4611 | 0,4329 | 0,3226 | |||||
TF-IDF + n-grams | 0,4260 | 0,4590 | 0,4260 | 0,3130 | |||||
Метод ближайших соседей | TF | 0,6120 | 0,6616 | 0,6120 | 0.5898 | ||||
TF + хэширование | 0,6224 | 0,6292 | 0,6224 | 0,6091 | |||||
TF-IDF | 0,6536 | 0,6540 | 0,6536 | 0,6360 | |||||
TF-IDF + n-grams | 0,7256 | 0,7453 | 0,7256 | 0,7142 | |||||
Метод деревьев решений | TF | 0,6776 | 0,6806 | 0,6776 | 0,6713 | ||||
TF + хэширование | 0,6845 | 0,6978 | 0,6845 | 0,6759 | |||||
TF-IDF | 0,6808 | 0,6854 | 0,6808 | 0,6714 | |||||
TF-IDF + n-grams | 0,6569 | 0,6814 | 0,6569 | 0,6423 | |||||
Метод опорных векторов | TF | 0,6741 | 0,6775 | 0,6741 | 0,6550 | ||||
TF + хэширование | 0,6878 | 0,6863 | 0,6878 | 0,6721 | |||||
TF-IDF | 0,6810 | 0,6945 | 0,6810 | 0,6611 | |||||
TF-IDF + n-grams | 0,7395 | 0,7546 | 0,7395 | 0,7254 |
|
По итогам вычислительных экспериментов лучший результат показал метод опорных векторов. Этот метод будет использован в дальнейшей работе над диссертацией.
Уникальных словоформ до предобработки: 10874
Уникальных словоформ после предобработки: 4684
V Заключение
Литература:
[1] Рубцова Ю.В. Методы и алгоритмы построения информационных систем для классификации текстов социальных сетей по тональности. Автореферат диссертации на соискание ученой степени канд. техн. наук. Екатеринбург, 2016. 141 с.
[2] Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze An Introduction to Information Retrieval Draft. Online edition. Cambridge University Press. - 2009. - 544 p.
[3] Борисов Е.С. Классификатор текстов на естественном языке. URL: http://mechanoid.kiev.ua/neural-net-classifier-text.html
[4] Батура Т.В. Методы автоматической классификации текстов // Программные продукты и системы. 2017. Т. 30, № 1. С. 85-99.
[5] Краснянский М.Н., Обухов А.Д., Соломатина Е.М., Воякина А.А. Сравнительный анализ методов машинного обучения для решения задачи классификации документов научно-образовательного учреждения // Вестник ВГУ. Системный анализ и информационные технологии. 2018. № 3. С. 173-182.
[6] Обработка естественного языка URL: http://neerc.ifmo.ru/wiki/index.php?title=Обработка_естественного_языка
[7] Xiang Zhang, Junbo Zhao, Yann LeCun. Character-level convolutional networks for text classification. Proc. Neural Inform. Processing Systems Conf. (NIPS 2015). Montreal, Canada, 2015. URL: https://arxiv.org/abs/1509.01626 (дата обращения: 19.11.2020).
[8] Оценка классификатора (точность, полнота, F-мера) URL: http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html
[9] Серобабов А.С. Формирование диапазонов переменных экспертной системы с использованием дерева принятия решений
[10] Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space // In Proceedings of Workshop at ICLR. — 2013a.
[11] Mikolov T., Yih W.-T., Zweig G. Linguistic Regularities in Continuous Space Word Representations // In Proceedings of NAACL HLT. — 2013b.
[12] Kohavi R. et al. A study of cross-validation and bootstrap for accuracy estimation and model selection //Ijcai. – 1995. – Т. 14. – №. 2. – С. 1137-1145.
[13] Хайкин Нейронные сети
| Поделиться: |
Читайте также:
Последнее изменение этой страницы: 2021-03-09; просмотров: 60; Нарушение авторского права страницы; Мы поможем в написании вашей работы!
infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.145.151.141 (0.004 с.)