![]() Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь FAQ Написать работу КАТЕГОРИИ: ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву ![]() Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Наївна байєсова класифікація текстів.Содержание книги Поиск на нашем сайте
Розглянемо метод навчання з учителем — мультиноміальний наївний метод Байєса (Naive Bayes — NB). У цьому методі імовірність того, що документ d належить класу c, обчислюється в такий спосіб:
Тут Мета класифікації текстів — знайти найкращий клас для документа. У методі NB найкращим вважається клас сmap, що має максимальну апостеріорну імовірність (maximum a posteriori - MAP).
Ми пишемо У рівності (1.2) перемножуються кілька умовних імовірностей, по одній для кожного значення Рівність (1.3) допускає просту інтерпретацію. Кожен логарифм умовної імовірності Як оцінити імовірності
Тут Оцінимо умовну імовірність
Тут З оцінкою максимальної правдоподібності позв'язана наступна проблема: якщо пара термін-клас не зустрічаються в навчальних даних, то відповідно і оцінка даного терміну для класу дорівнює нулю. Наприклад, якщо термін WTO у навчальних даних зустрічається тільки в документах класу China, то оцінка цього терміну для інших класів, наприклад, класу UK, дорівнюють нулю.
Тепер умовна імовірність класу UK щодо документа Britain is a member of the WTO, що складається з одного речення, дорівнює нулю, оскільки в рівності (4.1) ми перемножуємо умовні імовірності для всіх термінів. Очевидно, что модель повинна привласнювати класу UK високу імовірність, оскільки в пропозиції зустрічається термін Britain. Втім, не можна просто відкинути нульову імовірність для терміна WTO, незалежно від того наскільки багато є свідчень на користь класу UK, забезпечених іншими ознаками. Ця оцінка дорівнює нулю через рідкість терміна. Навчальні дані ніколи не бувають великими настільки, щоб частота рідких термінів оцінювалася адекватно, як, наприклад, частота терміна WTO у документах класу UK. Для того щоб позбутися від нуля, ми використовуємо згладжування Лапласа (Laplace smoothing), просто додаючи одиницю до кожної частоти.
Тут
|
||||||
Последнее изменение этой страницы: 2016-04-26; просмотров: 443; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.140.192.173 (0.009 с.) |