Главная
страница 1
скачать файл
Министерство образования и науки Российской Федерации
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ

ЭЛЕКТРОНИКИ И МАТЕМАТИКИ (ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ)


ОТЧЕТ О ЛАБОРАТОРНОЙ РАБОТЕ №4


Data Mining

Выполнил:

Студент руппы С-75

Цветков И.Г.


Проверил:

И.Игнатьев

А.Грунау

Москва 2008


Введение


В работе используется интерфейс Weka Experimenter, который предназначен для сравнение применимости методов анализа данных (конкретно - построения классификаторов) к конкретным данным вне зависимости от их тематической направлености на основе статистических механизмов оценки качества построенных классификаторов (к примеру, кросс-проверке).

В ходе выполнения работы будет произведен анализ применимости 5 методов классификации: Naive Bayes, ID3, J48, 1R, SVM.


Задание 1


Над своими данными провести сравнение всех алгоритмов классификации, использованных в первой лабораторной работе, методом десятипроходной кросс-проверки с количеством итераций не менее 12. Сравнение алгоритмов (Comparison field) произвести по полю в соответствии с вариантом. Попробуйте менять статистическую значимость. Что изменяется?

Подготовка к выполнению


В начале настраиваем анализатор применимости. Для этого нам потребуется вкладка Setup. На риунка 1 показаны опции, заданные на вкладке Setup.

Рисунок 1




Оценка применимости


Запуск процесса оценки применимости осуществляется на вкладке Run при помощи кнопки Start. Процесс оценки показан на рисунке 2 и занимает различное время в зависимости от алгоритма, дольше всего оценивается алгоритм SVM (SMO в системе Weka). В строке статус в реальном времени показывается какой классификатор оценивается, набор данных, на котором производится оценка, а также номер итерации.

Рисунок 2




Анализ оценки применимости


Сравнение методов будет производиться по полю “Time Traning”. Т.е. по времени обучения тестового множества. Начальные установки показаны на рис. 3.

При выборе методов классификации было решено исключить алгоритм id3, так как он требовал предварительной фильтрации данных, а в интерфейсе Experimenter отсутствует возможность сравнения методов с различными входными наборами данных.

Рисунок3


Запускаем тест. Результаты вывода:

Analysing: Time_training

Datasets: 1

Resultsets: 5

Confidence: 0.05 (two tailed)

Date: 25.05.09 1:50

Dataset (1) bayes.Na | (2) funct (3) trees (4) trees (5) rules

--------------------------------------------------------

'laba number one-weka.fil(100) 0.00 | 0.17 v 0.00 0.00 0.00

--------------------------------------------------------

(v/ /*) | (1/0/0) (0/1/0) (0/1/0) (0/1/0)

Skipped:


Key:
(1) bayes.NaiveBayes '' 5995231201785697655

(2) functions.SMO '-C 1.0 -E 1.0 -G 0.01 -A 250007 -L 0.0010 -P 1.0E-12 -N 0 -V -1 -W 1' -6585883636378691736

(3) trees.Id3 '' -2693678647096322561

(4) trees.J48 '-C 0.25 -M 2' -217733168393644444

(5) rules.OneR '-B 6' 3010129309850089072

Анализ результата:

В нашем случае обучения выглядит следующим образом:


  • NaiveBayes – 0,00

  • SMO – 0,17

  • J48 – 0,00

  • OneR – 0,00

  • ID3 – 0.00

Выводится таблица в строках которой указываются методы классификации, а в рядах входные наборы данных. В нашем случае имеется только один входной набор данных. В последней строке указывается то, что алгоритм статистически лучше/нейтрален/хуже других в данном исследовании.

В данном случае методы NaiveBayes, J48, One R, ID3 – нейтральны, а метод SMO оказался худшим (чем больше значение, тем менее применим метод) применимо к входному набору данных.

При изменении статистической значимости разности (Significance) (чем ниже, тем более достоверно определяется, что один из алгоритмов статистически отличается от другого) получаем следующие результаты (изначальное значение – 0.05):

Analysing: Time_training

Datasets: 1

Resultsets: 5

Confidence: 1.0 (two tailed)

Date: 25.05.09 1:51

Dataset (3) trees.Id | (1) bayes (2) funct (4) trees (5) rules

--------------------------------------------------------

'laba number one-weka.fil(100) 0.00 | 0.00 * 0.17 v 0.00 * 0.00 *

--------------------------------------------------------

(v/ /*) | (0/0/1) (1/0/0) (0/0/1) (0/0/1)

Skipped:
Key:
(1) bayes.NaiveBayes '' 5995231201785697655

(2) functions.SMO '-C 1.0 -E 1.0 -G 0.01 -A 250007 -L 0.0010 -P 1.0E-12 -N 0 -V -1 -W 1' -6585883636378691736

(3) trees.Id3 '' -2693678647096322561

(4) trees.J48 '-C 0.25 -M 2' -217733168393644444

(5) rules.OneR '-B 6' 3010129309850089072

Алгоритм SMO признан лучшим ( на самом деле – худшим), остальные – нейтральны.


При увеличении Significance до1,5 все алгоритмы оказываются лучшими -эквивалентны OneR

Analysing: Time_training

Datasets: 1

Resultsets: 5

Confidence: 1.5 (two tailed)

Date: 25.05.09 1:51

Dataset (3) trees.Id | (1) bayes (2) funct (4) trees (5) rules

--------------------------------------------------------

'laba number one-weka.fil(100) 0.00 | 0.00 * 0.17 v 0.00 * 0.00 *

--------------------------------------------------------

(v/ /*) | (0/0/1) (1/0/0) (0/0/1) (0/0/1)

Skipped:


Key:
(1) bayes.NaiveBayes '' 5995231201785697655

(2) functions.SMO '-C 1.0 -E 1.0 -G 0.01 -A 250007 -L 0.0010 -P 1.0E-12 -N 0 -V -1 -W 1' -6585883636378691736

(3) trees.Id3 '' -2693678647096322561

(4) trees.J48 '-C 0.25 -M 2' -217733168393644444

(5) rules.OneR '-B 6' 3010129309850089072
Для сравнения каждого алгоритма с каждым выберем Select Base=>Summary.

Analysing: Time_training

Datasets: 1

Resultsets: 5

Confidence: 0.0050 (two tailed)

Date: 25.05.09 1:53

a b c d e (No. of datasets where [col] >> [row])

- 1 (1) 1 (0) 1 (0) 1 (0) | a = bayes.NaiveBayes '' 5995231201785697655

0 (0) - 0 (0) 0 (0) 0 (0) | b = functions.SMO '-C 1.0 -E 1.0 -G 0.01 -A 250007 -L 0.0010 -P 1.0E-12 -N 0 -V -1 -W 1' -6585883636378691736

0 (0) 1 (1) - 0 (0) 0 (0) | c = trees.Id3 '' -2693678647096322561

0 (0) 1 (1) 1 (0) - 0 (0) | d = trees.J48 '-C 0.25 -M 2' -217733168393644444

0 (0) 1 (1) 1 (0) 1 (0) - | e = rules.OneR '-B 6' 3010129309850089072


Анализируя результат получим, что:

  • OneR лучше NaiveBayes, SMO, ID3 и J48

  • SMO хуже NaiveBayes, J48, OneR, ID3

  • J48 лучше OneR и SMO, ID3, и хуже NaiveBayes

  • NaiveBayes хуже OneR и лучше SMO, NaiveBayes, J48, ID3

Данные в скобках показывают, что алгоритм в столбце, хуже (1 – означает, что у данного метода самое высокое время обучения) всех, представленных в строке. Например, OneR и J48 хуже чем SMO и NaiveBayes.

Рассмотрим результаты при Select Base=>Ranking. Эта таблица выводит количество наборов данных, в котором победил (колонка >) или проиграл (колонка <) определенный алгоритм в сравнении с остальными. Колонка > - < показывает разницу победы – поражения для данного алгоритма. Необходимо отметить, что в данном случае победа алгоритма означает, что у него самый высокий процент неверно классифицированных экземпляров, что равносильно поражению, т.е. худшему результату применимости.

Результат вывода:

Analysing: Time_training

Datasets: 1

Resultsets: 5

Confidence: 0.5 (two tailed)

Date: 25.05.09 1:53

>-< > < Resultset

4 4 0 functions.SMO '-C 1.0 -E 1.0 -G 0.01 -A 250007 -L 0.0010 -P 1.0E-12 -N 0 -V -1 -W 1' -6585883636378691736

2 3 1 trees.Id3 '' -2693678647096322561

0 2 2 trees.J48 '-C 0.25 -M 2' -217733168393644444

-3 0 3 rules.OneR '-B 6' 3010129309850089072

-3 0 3 bayes.NaiveBayes '' 5995231201785697655



Из таблицы видно, что хуже всех (по параметру время обучения) показал алгоритм SMO и ID3. А лучше всех – алгоритм j48

ЗАКЛЮЧЕНИЕ


В результате работы было произведено сравнение алгоритмов по значению неверно классифицированных экземпляров. Результаты этого сравнения и были представлены в работе. Также сравнивая результаты 1 и 4 лабораторных работ можно отметить, что методы классификации в порядке убывания времени выполнения (обучения) в одном и том же порядке. Так наибольшее время имеет алгоритм SMO, далее по уменьшению id3, NaiveBayes, J48 и 1R.
скачать файл



Смотрите также:
Отчет о лабораторной работе №4 Data Mining
46.06kb.
Отчет по лабораторной работе №16 по дисциплине "Схемотехника"
41.86kb.
Задача Дирихле Отчёт по лабораторной работе №6 по дисциплине «Математические методы проектирования»
106.86kb.
Отчет по лабораторной работе №1 по курсу " Электротехническое материаловедение"
248.8kb.
СПб ниу итмо отчет по Лабораторной работе «Изучение особенностей оцифровки сигнала»
14.19kb.
Ознакомление с методикой и расчет на прочность емкостного нефтегазового оборудования: газосепараторов, трубопроводов и резервуаров
46.67kb.
Metso Mining and Construction мировой лидер по поставке оборудования для горнодобывающей и строительной отраслей промышленности
29.81kb.
Тесты к лабораторной работе №4
32.6kb.
5. Методические указания к лабораторной работе
101.07kb.
Удар шаров: метод указ к лабораторной работе №106/ сост. В. Е. Аввакумов, В. К. Михайлов; Волгоград гос техн ун-т. Волгоград, 2006. 12 с
116.83kb.
Отчет о работе альпинистского мероприятия
48.83kb.
Методическое пособие к лабораторной работе
210.05kb.