Створення набору даних для завантаження в WEKA 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Створення набору даних для завантаження в WEKA



Для того щоб завантажити дані в WEKA, їх слід перетворити у формат, зрозумілий для цього програмного пакету. Найбільш підходящим форматом для завантаження даних в WEKA є формат Attribute-Relation File Format (ARFF), який спочатку визначає тип завантажуваних даних, а потім вказує власне дані. У файлі формату ARFF ви вказуєте назву і тип даних для кожного стовпця таблиці, а потім дані по рядках. У моделях регресійного аналізу використовуються всього два типи даних: NUMERIC і DATE. Після того, як ви описали всі стовпці таблиці, ви додаєте дані по рядках, використовуючи як роздільник кому. Нижче наведено файл ARFF з даними про ціни на будинки, які ми будемо використовувати для побудови нашої тестової моделі. Зверніть увагу, що в списку відсутній рядок з даними будинку, ціну для якого необхідно встановити. Зараз ми створюємо регресійну модель на базі відомих параметрів і, отже, не можемо включити в неї параметри нашого будинку, оскільки ціна його невідома.

Файл даних для завантаження в WEKA

@RELATION house   @ATTRIBUTE houseSize NUMERIC @ATTRIBUTE lotSize NUMERIC @ATTRIBUTE bedrooms NUMERIC @ATTRIBUTE granite NUMERIC @ATTRIBUTE bathroom NUMERIC @ATTRIBUTE sellingPrice NUMERIC   @DATA 3529,9191,6,0,0,205000 3247,10061,5,1,1,224900 4032,10150,5,0,1,197900 2397,14156,4,1,0,189900 2200,9600,4,0,1,195000 3536,19994,6,1,1,325000 2983,9365,5,0,1,230000

Завантаження даних в WEKA

Тепер, коли файл з даними готовий, його потрібно завантажити в WEKA. Запустіть WEKA і виберіть опцію Explorer. В результаті відкриється закладка Preprocess вікна Explorer. Клацніть на кнопці Open File і виберіть створений вами ARFF-файл. Вікно WEKA Explorer із завантаженими даними про будинках показано на рис. 3.

 

 

Рис. 3. Вікно WEKA Explorer із завантаженими даними про будинки

 

У цьому вікні ви можете перевірити дані, на підставі яких ви збираєтеся будувати модель. У лівій частині вікна Explorer показані параметри об'єктів (Attributes), які відповідають заголовкам стовпців нашої вихідної таблиці, а також вказано кількість об'єктів (Instances), тобто рядків таблиці. Якщо ви клацнете мишкою на одному із заголовків стовпців, то в правій панелі буде виведена повна інформація про набір даних в даному стовпці. Наприклад, якщо ми виберемо стовпець houseSize в лівій панелі (він обраний за замовчуванням), то в правій панелі відобразиться додаткова статистична інформація з цього стовпця. Буде показано максимальне значення в стовпці (4032 кв.футів) і мінімальне значення (2200 кв.футів). Крім того, буде підраховано середнє значення (3131 кв.фут) і стандартне відхилення (655 кв.футів) (стандартне відхилення - статистичний показник розсіювання значень випадкової величини). Нарешті, тут же вам пропонується можливість візуального аналізу даних (кнопка Visualize All). Оскільки в нашій таблиці даних не так багато, то їх візуальне відображення не дає такої наочної аналітичної картини, як у випадку використання сотень або тисяч показників.

Давайте перейдемо від розгляду даних до створення моделі і визначимо, нарешті, вартість мого будинку.

Створення регресійної моделі в WEKA

Для того щоб створити модель, відкрийте закладку Classify. В якості першого кроку, нам треба вибрати тип моделі для аналізу, щоб вказати WEKA, яким чином ми хочемо аналізувати наші дані, і яку модель побудувати:

1. Клацніть на копанні Choose і розгорніть меню functions.

2. Виберіть опцію LinearRegression.

Таким чином, ми вказали WEKA, що ми хочемо створити модель регресійного аналізу. Як ви помітили, меню включає безліч моделей. Це ще раз підкреслює факт нашого дуже поверхневого знайомства з областю інтелектуального аналізу даних. Зверніть увагу: у меню включена опція SimpleLinearRegression, проте ми не використовуємо її, оскільки цей тип моделі визначає значення залежної змінної за значеннями одного незалежного параметра, а у нас їх цілих шість. Якщо ви вибрали правильну модель, то вікно WEKA Explorer має виглядати так, як показано на рис. 4.

Рис. 4. Модель лінійного регресійного аналізу WEKA

 

Після того, як ми вибрали тип моделі, потрібно вказати WEKA, які дані повинні використовуватися для її створення. Незважаючи на те, що відповідь на це питання для нас цілком очевидна - потрібно взяти дані зі створеного нами ARFF-файлу - існує кілька інших, більш складних, можливостей надання даних для аналізу. Опція Supplied test set дозволяє вказати додатковий набір тестових даних для моделі, опція Cross-validation використовує кілька наборів даних, усереднює їх і будує модель на основі середніх значень, а опція Percentage split використовує в якості бази для моделі процентилі набору даних. Ці способи застосовуються для створення аналітичних моделей. У разі регресійного аналізу нам потрібна опція Use training set. У цьому випадку WEKA створить модель на базі даних із завантаженого ARFF-файлу.

Завершальний етап створення моделі - вибір залежної змінної (колонка, в якій знаходиться невідоме нам значення, яке потрібно розрахувати). У нашому прикладі - це ціна будинку, оскільки, саме це значення ми і хочемо дізнатися. Відразу після секції Test options знаходиться список, що розкривається, в якому вам потрібно вибрати залежний параметр. Типово повинен бути вибраний атрибут sellingPrice. Якщо це не так, виберіть самі цей параметр.

Ми визначили всі параметри і можемо приступити до створення моделі. Натисніть кнопку Start. У результаті вікно WEKA має виглядати так, як показано на рис. 5.


Рис. 5. Регресійна модель WEKA для розрахунку вартості будинку



Поделиться:


Последнее изменение этой страницы: 2016-04-19; просмотров: 428; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.144.86.138 (0.006 с.)