Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь FAQ Написать работу КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Математичний алгоритм методу найближчих сусідівСодержание книги
Поиск на нашем сайте
Алгоритм методу найближчих сусідів в чомусь схожий з алгоритмом, використовуваним в методі кластеризації. Метод визначає відстань між невідомою точкою і всіма відомими точками даних. Визначення відстані - цілком тривіальна процедура, що легко виконується в рамках електронних таблиць, так що досить потужний комп'ютер впорається з цим завданням практично миттєво. Найпростіший і найбільш поширений спосіб визначення відстані - це нормалізована евклідова відстань.
Евклідова відстань (Евклідова метрика) — формула традиційної відстані між двома точками та для Евклідового простору:
Позначається
Опис звучить складніше, ніж власне обчислення. Звернемося до конкретного прикладу і спробуємо визначити, який товар схильний придбати покупець № 5.
Щоб відповісти на питання, який товар з найбільшою ймовірністю придбає покупець № 5, ми скористалися алгоритмом методу найближчих сусідів, наведеним вище, і отримали в результаті в якості найбільш вірогідної покупки книгу. Справа в тому, що відстань між покупцем № 5 і покупцем № 1 менше (значно менше), ніж відстань між покупцем № 5 і будь-яким іншим покупцем. Ґрунтуючись на цій моделі, можна стверджувати, що поведінка покупця № 5 з великою часткою ймовірності співпаде з поведінкою найближчого до нього покупця. Однак корисність методу найближчих сусідів цим не вичерпується. Цей алгоритм може бути розширений таким чином, що замість одного найближчого сусіда можна було б визначати будь-яку кількість досить близьких відповідників. Таке розширення алгоритму називається N найближчих сусідів (наприклад, три найближчих сусіда). Наприклад, якщо в розглянутому вище прикладі потрібно визначити два найбільш вірогідних придбання покупця № 5, то відповідь буде книга іDVD. Якщо потрібно визначити 12 найбільш вірогідних покупок, то слід скористатися алгоритмом 12 найближчих сусідів. Крім того, алгоритм не обмежується визначенням найбільш вірогідної покупки, він може бути використаний для отримання бінарної відповіді так/ні. Якщо в розглянутому вище прикладі ми замінимо значення в останньому стовпці на «Так, Ні, Так, Ні» (для покупців з першого по четвертий), то метод одного найближчого сусіда визначить «Так» у якості найбільш прогнозованої відповіді покупця № 5, метод двох найближчих сусідів теж видасть «Так» (покупці № 1 і № 3 відповіли «Так»), і метод трьох найближчих сусідів теж спрогнозує позитивну відповідь (покупці № 1 і № 3 відповіли «Так», покупець № 2 відповів «Ні», так що середнє значення дорівнює «Так»). Останнє питання, на яке потрібно відповісти, перш ніж приступити до використання методу найближчих сусідів у практичних завданнях, це вирішити, скільки сусідів потрібно для нашої моделі. Ну що ж, не на всі питання можна легко знайти відповідь. Вам буде потрібно декілька експериментальних спроб для того, щоб визначити, яка кількість сусідів є оптимальною. Крім того, якщо ви використовуєте модель для отримання бінарного результату (0 або 1), то очевидно, що вам буде потрібна парна кількість сусідів.
Набір даних для WEKA Набір даних, який ми будемо аналізувати методом найближчих сусідів, вам вже знайомий - це той же самий набір даних, який ми використовували для вивчення методу класифікації в попередній роботі, а саме, дані рекламної компанії вигаданого дилера BMW з продажу розширеної дворічної гарантії своїм постійним покупцям. Наведемо тут ще раз короткий опис цього набору даних. Дилерський центр має дані про 4500 продажів розширеної гарантії. Цей набір має такі атрибути: · розподіл за доходами [0 = $ 0 - $ 30k, 1 = $ 31k-$ 40k, 2 = $ 41k-$ 60k, 3 = $ 61k-$ 75k, 4 = $ 76k-$ 100k, 5 = $ 101k-$ 150k, 6 = $ 151k-$ 500k, 7 = $ 501k+], · рік/місяць покупки першого автомобіля BMW, · рік/місяць покупки останнього автомобіля BMW, · чи скористався клієнт розширеною гарантією.
|
||||||
Последнее изменение этой страницы: 2016-04-19; просмотров: 443; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.12.154.172 (0.007 с.) |