Алгоритм определения параметров бимодальных нормальных распределений

Алгоритм определения параметров бимодальных нормальных распределений

Коваленко Юрий Алексеевич,

доктор физико-математических наук, профессор,

Королев Дмитрий Сергеевич,

аспирант, инженер.

Федеральное Государственное унитарное предприятие «Всероссийский электротехнический институт им. В.И. Ленина», Государственный научный центр Российской Федерации.

Предложен аналитический метод определения параметров бимодальных нормальных распределений. Даны оценки влияния точности вычисления и объема выборки на результат определения параметров распределения.

В различных областях экспериментальных исследований в химии, в физике, в экономике часто приходится сталкиваться с многомодальными статистическими распределениями. Такие распределения встречаются при проведении исследований методами [1]:

· термического анализа (дифференциальная сканирующая калориметрия и термогравиметрический анализ);

· УФ спектроскопии;

· ИР спектроскопии;

· ЯМР спектроскопии;

· зондовой диагностики плазмы.

Особое место в экспериментальных исследованиях занимают бимодальные распределения, для которых известны алгоритмы определения их параметров [2-4]. Традиционно для решения таких задач используется либо метод статистического моделирования, либо метод наименьших квадратов. Однако, метод наименьших квадратов является некорректным [5-6] и не гарантирует сходимость решения к точному при погрешности исходной информации и погрешности вычислений, стремящихся к нулю. С учетом этого спустя 20 лет после появления первых результатов авторы [3, 4] в работе [7] предложили устойчивый метод аппроксимации функции распределения и привели оценку точности некоторых статистических характеристик этого метода [8].

В данной работе в развитие [9] рассматривается вариант решения связанный с аналитическим преобразованием системы симметричных полиноминальных уравнений составленных из начальных моментов распределения. Пусть функция - совокупность двух статистических функций нормальных распределений

Условие нормировки

Для определения 6 параметров распределения , составим систему уравнений из шести первых начальных моментов [9]:

С учетом ограничений

Особенность системы - симметричность каждого уравнения по отношению группам переменных (круговая замена одной группы переменных на другую не меняет систему) После определения одного из параметров, другой соответствующий параметр может быть найден в результате круговой замены переменных. При этом симметричность системы не меняется при исключении из системы любой соответствующей пары параметров ( ), ( ), ( ).

Из первых двух уравнений найдем аналитические выражения для определения долей распределений

Исключая доли ( ) из 3-6 уравнений системы (1) определим из 3-4 уравнений системы дисперсии распределений ( ).

Аналитические выражения для долей ( ) и дисперсий ( ) распределений симметричны относительно переменных . Поэтому, после подстановки этих выражений в 5 и 6 уравнения системы (1), получим систему двух симметричных уравнений относительно переменных .

Введем новые переменные .

При таких обозначениях система примет вид

Обозначим коэффициенты при переменной t

Это позволяет представить систему в виде совокупности рациональных уравнений третьей степени

Система (3) является совокупностью полиноминальных уравнений переменных s,t.

Очевидно, так как оба уравнения системы (3) имеют общий корень, то результант в форме Сильвестора [10] равен нулю.

Дискриминант определителя – рациональное уравнение девятой степени переменной s, все корни которого можно определить, например, с помощью программы fsolve ( ,s) пакета Maple 13.

Переменную t найдем с помощью субрезультантов

Значения математических ожиданий мод, найдем на основе обратной теоремы Безу

После определения математических ожиданий, доли компонент и их дисперсию найдем с помощью уравнений

Так как корни уравнения (4) - это решения рационального уравнения 9 степени, и число корней поэтому, в общем случае, может достигать 9, то возникает проблема их отбора. Проблема снимается с помощью условий (2). В таблице 1 приведены наборы решений, полученные для решения рационального уравнения соответствующего модельному примеру.

Таблица 1.

s
5.0000000	2.0000	3.0000	0.1000	0.2000	0.3000	0.7000	0.000000
5.2810601	2.5947	2.6863	-0.134	0.3143	-0.149	1.1495	Решение нет
6.2572619	2.6938	3.5633	0.3845	-1.013	0.9929	0.0070	Решения нет
6.5719704	Решения - комплексные числа						Решения нет
7.8488524	2.6935	5.1533	0.3756	-3.214	0.9982	0.0018	Решения нет
15.348227	2.7003	12.648	0.3829	-12.03	1.0000	0.0000	Решения нет

Вычисления, выполненные с помощью пакета Maple 13, показали неустойчивость решения уравнения, связанную в первую очередь с погрешностью вычислений. В таблице 2 приведены результаты решения модельной задачи определения параметров распределений для ряда значений точности вычислений.

Таблица 2.

Разряд-ность	Корень
Разряд-ность	s	t
40	5.000	6.000	2.0	3.0	0.1	0.2	0.3	0.7	0.0
32	5.000	6.000	2.0	3.0	0.1	0.2	0.3	0.7	2.0
30	5.0004	5.9999	1.9999	3.0000	0.0999	0.1999	0.3001	0.6999	9.0
28	4.9999	6.0000	2.0000	2.9999	0.1000	0.2000	0.2999	0.7001	4.2
26	4.9995	6.0007	2.0156	2.9838	0.1190	0.2007	0.2931	0.7068	0.01238
24	5.0027	5.8504	1.8639	3.1396	-0.0812	0.006	0.3444	0.6556	Решения нет
22	4.4271	4.6583	1.7220	2.7052	1.4298	0.3695	0.0052	0.9948	0.5529
20	15.368	34.208	2.7000	12.668	0.3829	-12.050	1.0000	0.0000	Решения нет
18	8.3618	15.270	2.6942	5.6600	0.3700	-3.8300	0.9980	0.002	Решения нет
16	31.309	71.247	2.7000	28.609	0.3080	-30.380	1.0000	0.000	Решения нет

Анализ результатов в таблице показывает - адекватное определение параметров распределения может быть получено только в рамках специализированных математических пакетов, позволяющих выполнять вычисления с разрядностью более 30 десятичных цифр.

Литература

1. www.therm-soft.com.

2. Печеровый А.В. К вопросу определения площадей неразделенных пиков в автоматизированных системах обработки хроматограмм. Электронный журнал «ИССЛЕДОВАНО В РОССИИ» http://zhurnal.ape.relarn.ru/articles/2005/033.pdf.

3. Borovkov M., Savelova T. The computational approaches to calculate normal distributions on the rotation group. Journal of Applied Crystallography. 2007. т.40, с. 449.

4. Савелова Т.И., Иванова Т.М. Обзор методов восстановления функции распределения ориентаций по полюсным фигурам. Заводская лаборатория. 2008, т.78,. № 7, с. 25.

5. Леонов А.С Решение некорректно поставленных обратных задач: Очерк теории, практические алгоритмы и демонстрации в MATLAB..- М.: Книжный дом “ЛИБРОКОМ”, 2010.-336 с.

6. Методы решения некорректных задач. Тихонов А.Н., Арсенин В.Я. –М.: Наука, Главная редакция физико-математической литературы, 1979, 285 с.

7. Иванова Т.М., Савелова Т.И. Устойчивый метод аппроксимации функции распределения ориентации каноническими нормальными распределениями. Физика металлов и металловедение. 2006. Т. 101. № 2. С. 129-133.

8. Савёлова Т.И., Коренькова Е.Ф.Оценка точности некоторых статистических характеристик в текстурном анализе. Заводская лаборатория. 2006. Т. 72. № 12. С. 29.

9. Венецкий И.Г., Венецкая В.И. Основные математическо-статистические понятия и формулы в экономическом анализе. Справочник. - М:. Статистика, 1979, 447 c.

10. Калинина Е.А., Утешев А.Ю. Теория исключения: Учеб. пособие. — СПб.: Изд-во НИИ химии СПБГУ, 2002. — 72 с.

Поступила в редакцию 13.12.2010 г.