Обобщенный алгоритм формирования признаковых пространств, обеспечивающих качество и надежность распознавания

Бекмуратов Дилшод Касимович,

ассистент Самаркандского филиала Ташкентского университета информационных технологий, Узбекистан.

В [4] получен теоретический результат, смысл которого состоит в том, что если из N решающих правил выбирается одно, которое безошибочно разделяет обучающую выборку длины , то с вероятностью можно утверждать, что вероятность ошибочной классификации с помощью этого правила составит величину, меньшую , где

(1)

В работах [1, 2] показаны принципы получения признаков первого, второго и третьего типа относительно конкретного образа и приведены отношения эквивалентности .

В данной статье, в отличие от [1-3], сначала выбираются признаки первого, второго и третьего типов из обучающей выборки, далее из сочетаний выбранных однотипных признаков формируются определенные числа пространств, каждый из которых имеет одинаковую размерность. При этом заранее определяются числа признаковых пространств и их размерность. Это приводит к резкому уменьшению объема вычислений на ЭВМ, так как каждое пространство формируется не из первоначального свойства объектов обучающей выборки, а из сочетаний однотипных признаков, выбранных из обучающей выборки по заранее найденным значениям размерности пространства.

Пусть задана обучающая выборка , где каждый объект является - мерным вектором числовых признаков, т.е. . Обозначим через любой образ , т.е. , а через все остальные образы кроме , т.е. .

Требуется, найти из обучающей выборки признаки трех типов относительно каждого образа, и построить решающее правило для каждого типа признаков, указывающее на принадлежность любого объекта и , одному из заданных образов или с вероятностью ошибки, не превышающей достигаемой с надежностью .

Согласно [2] первый тип признаков определяется свойством , которым обязательно должны обладать все объекты образа и не должны обладать все объекты образа , т.е.

. (2)

Второй тип признаков определяется свойством , которым обязательно должны обладать все объекты образа , но этими же свойствами могут обладать и некоторые объекты образа , т.е.

. (3)

Третий тип признаков определяется свойством , которым могут обладать некоторые объекты образа , а все объекты образа этим свойством обладать не будут, т.е.

, (4)

где соответственно признаки первого, второго и третьего типа.

Обозначим через соответственно признаки первого, второго и третьего типа относительно образа , а через - соответственно образа .

В работе [2] получены предельные значения размерности признакового пространства

, (6)

которые при заданных гарантируют требуемую вероятность ошибки , где - предельные значения размерности признакового пространства -го типа, - количество признаков -го типа (если , то первого, ,то второго и , то третьего типа).

Если зафиксировать , , , , то из соотношения (6) можно найти предельные значения размерности пространства признаков -го типа, удовлетворяющие заданную вероятность ошибки при классификации новых объектов (таблица 1).

Таблица 1.

, , .
	0,01	0,02	0,03	0,04	0,05
	1	2	3	4	5

Анализ приведенных в таблице 1 данных показывает, что увеличение вероятности ошибки при классификации новых объектов , приводит к увеличению размерности пространства признаков - го типа.

Если зафиксировать , , , , то из соотношения (6) можно найти требуемое количество объектов , удовлетворяющих заданную вероятность ошибки при классификации новых объектов (Таблица 2).

Таблица 2.

, , .
	1	2	3	4	5
	0,02	0,03	0,04	0,05	0,06
	294	297	298	298	299

Анализ приведенных в таблице 2 данных показывает, что с увеличением вероятности ошибки при классификации новых объектов и размерности пространства признаков - го типа, приводит к увеличению требуемых количеств объектов .

Рассмотрим обобщенный алгоритм выбора признаков - го типа и формирование пространств одинаковой размерности из сочетаний выбранных признаков, с помощью которых гарантируется требуемое качество и надежность при распознавании новых объектов.

Сокращение размерности пространства признаков представляется полезным в двух аспектах: во-первых, уменьшается объем вычислений, а во-вторых, с удалением из обучающей выборки несущественных признаков повышается надежность распознавания. Одновременно, за счет снижения размерности признакового пространства уменьшается объем обучающей выборки, что приводит зачастую к снижению надежности распознавания в целом. Поэтому в этом алгоритме, рассматривается их функциональная зависимость (6), чтобы качество и надежность распознавания, а также объем обучающей выборки находился в разумных пределах.

В отличие от предыдущих алгоритмов [1-3], в данном алгоритме:

- из заданных свойств объектов обучающей выборки выбирается набор признаков - го типа относительно образа ;

- определяется предельное значение размерности признаков - го типа ;

- вычисляется число сочетаний из выбранных признаков по , т.е. ;

- формируются пространства одинаковой размерности из сочетаний выбранных признаков - го типа ;

- резко уменьшается объем вычислений на ЭВМ, так как .

Отсюда видно, что в этом алгоритме сильно сокращаются первоначальные наборы свойств, т.е. из первоначального набора свойств , относительно конкретного образа выбираются лишь несколько признаков , которые входят в найденное пространство .

Алгоритм включает в себя следующие основные этапы:

1. В оперативную память заносятся объекты , их свойства и классы в виде обучающей выборки .

2. В оперативную память заносятся объекты , их свойства в виде контрольной выборки .

3. Из оперативной памяти отбирается свойство объектов , рассматриваемое как претендент на признак -го типа.

4. Проверяется для свойства соотношение (2-4). Если для свойства выполняется (2-4), то является признаком -го (1-го либо 2-го либо 3-го) типа относительно образа и этот признак вводится в массив , как признак -го типа и алгоритм переходит к шагу 5, в противном случае свойство исключается из дальнейшего рассмотрения.

5. Если , то алгоритм переходит к шагу 3, в противном случае к шагу 6.

6. Формируются массив , и соответственно для признаков первого, второго и третьего типов.

7. Вычисляются предельные значения размерности пространства для признаков - го типа соотношением (5).

8. Вычисляется число сочетаний из набранных признаков - го типа по , т.е. .

9. Если , то алгоритм переходит к шагу 7, в противном случае к шагу 11.

11. Формируется пространства одинаковой размерности () из сочетания признаков -го типа .

12. Для распознавания новых объектов вычисляются коэффициенты сходства между и объектами класса и по выбранному набору признаков - го типа входящих в .

13. В качестве решающего правила используется

Создан комплекс программ работающих по разработанному алгоритму. Функциональная структура комплекса программ состоит из 3 основных и 13 дополнительных модулей (Рис.-1).

Рис. 1.

Общий вид интерфейсного окна программы имеет следующий вид (рис. 2).

Рис. 2. Общий вид интерфейсного окна.

Модуль выбора, вычисления, группирования и распознавания объектов по признакам второго типа представлен на рис. 3.

Рис. 3. Результаты вычислительного эксперимента.

С помощью программы можно получать аналогичные результаты для признаков первого и третьего типов.

Проведено испытание по оценке работоспособности и эффективности предложенного алгоритма и программного комплекса применительно к распознаванию образов. Полученные результаты подтверждают то, что разработанный алгоритм и программный комплекс применим для решения практических задач распознавания объектов, касающиеся медицинской, технической, археологической, гидрогеологической, сейсмологической, биологической и геологической сферы.

Литература

1. Бекмуродов К.А., Васильев В.И., Бекмуратов Д.К. Нахождение предельно-допустимых значений размерности признаковых пространств из обучающей выборки // Академия Наук Республики Узбекистан. Институт математики и информационных технологий. Современное состояние и перспективы развития информационных технологий. Том 2. Ташкент, 2011. 309-312 с.

2. Бекмуродов Қ.А., Бекмуратов Д.Қ. Последовательный выбор признаков, обладающих требуемой разделяющей силой. XI - Международная научно-практическая конференция. «Научные перспективы XXI века. Достижения и перспективы нового столетия». Ежемесячный научный журнал №4(11) / 2015, часть 4. Россия, г. Новосибирск, 22-23.05, 2015 г. 9-13 с. ISSN 34567-1769.

3. Васильев В.И. Проблема обучения распознаванию образов. Принципы, алгоритмы, реализация. Киев: Выща школа, 1989. - 64с.

4. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов (статистические проблемы обучения). М.:Наука, 1974. - 412 с.

Поступила в редакцию 22.07.2015 г.