Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Применение байесовского классификатора при классификации документов вуза

Поиск

 

Как отмечают многие отечественные [5, 6] и зарубежные [7, 8, 9] авторы, байесовский классификатор является одним из самых простых и эффективных вероятностных методов классификации документов.

Пусть имеется множество классов  документов. Согласно теореме Байеса вероятность того, что документ принадлежит классу , имеет вид [4]:

 

                                                   ,                                              (1)

 

где  – вероятность того, что документ отнесен к классу c;  – вероятность встретить документ среди документов класса c; P (d) – вероятность того, что документ можно представить в виде вектора ,  – терм из документа, l – количество термов в документе.

Следует отметить, что в формуле (1) знаменатель P (d) можно опустить, так как его значение не зависит от класса c, а значит, не влияет на нахождение наибольшей вероятности .

Применение байесовского классификатора к задаче классификации текстовых документов предполагает использование машинных методов обучения с учителем. Следовательно, для нахождения значения  можно использовать обучающее множество документов. Тогда вероятность того, что документ отнесен к классу c, можно рассчитать по формуле:

 

                                                           ,                                                      (2)

 

где  – количество документов в обучающем множестве из класса c; N – общее количество документов в обучающем множестве.

Чтобы оценить вероятность , необходимо сделать «наивное» предположение о том, что любые две координаты, рассматриваемые как случайные величины, статистически не зависят друг от друга. Другими словами, мы опускаем тот факт, что, во-первых, появление одного слова в тексте тесно связано с появлением других слов, и во-вторых, что вероятность встретить одно и то же слово зависит от его позиций в тексте. Тогда, используя правило умножения вероятностей независимых событий [10], вероятность  можно вычислить следующим образом:

 

                    ,               (3)

 

где вероятность  рассчитывается по формуле:

 

                                                               ,                                                           (4)

 

где  – общее количество термов в документах класса c;  – количество вхождений терма t во всех документах класса c.

Так как целью классификации является нахождение для документа самого вероятного для него класса, то задача байесовского классификатора состоит в нахождении самого вероятного класса c, который рассчитывается по формуле:

 

                            .                       (5)

 

Многие авторы [1, 3, 5, 6] среди преимуществ байесовского классификатора отмечают простую программную реализацию и быстроту работы, однако они же отмечают и недостатки метода, к которым относится низкое качество классификации и неспособность учитывать зависимость результата классификации от сочетания признаков. Отмечается [22], что байесовский классификатор может быть рекомендован для небольших размеров выборки из-за присущей ему регуляризации, что делает его менее склонным к чрезмерному приспособлению. Таким образом, байесовский классификатор можно использовать для распознавания документов с «сильными» ключевыми словами и прямыми отношениями между текстовыми признаками и соответствующими классами, например, для простых форм обнаружения рекламного контента. Однако в документах вуза порой сложно выделить ключевые слова, например, в предложениях о сотрудничестве: такие документы слабо структурированы, содержат много информации, слабо поддающейся анализу. Поэтому для документов вуза с неочевидными ключевыми словами и связями между текстовыми признаками и соответствующими классами при использовании байесовского классификатора ожидается ухудшение качества классификации документов.

 



Поделиться:


Последнее изменение этой страницы: 2021-03-09; просмотров: 57; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.145.59.89 (0.008 с.)