Методические указания
1 1 1 1 1 1 1 1 1 1 Рейтинг 0.00 (0 Голосов)

Методические указания к лабораторным работам - Построение эмпирических зависимостей по экспериментальным данным. Для магистрантов инженерных специальностей.

Введение

Цель настоящих методических указаний – освоение методов первичной статистической обработки экспериментальных данных.

Указания содержат теоретические сведения с указанием необходимых при выполнении статистической обработки формул (без выводов), а также 4 лабораторные работы:

Лабораторная работа 1. Двухвыборочный t-тест с различными дисперсиями.

Лабораторная работа 2. Однофакторный дисперсионный анализ.

Лабораторная работа 3. Двухфакторный дисперсионный анализ.

Лабораторная работа 4. Линейный корреляционный и регрессионный анализ.

Теоретические сведения

Исследование объекта или процесса начинается с построения его модели. Чаще всего используют абстрактные модели с привлечением средств математики, то есть математические модели. Построение таких моделей опирается на фундаментальные законы, обобщенные эмпирические зависимости и экспериментальные данные, полученные при исследовании данного объекта-процесса. Экспериментальные данные представлены, как правило, в виде таблиц, устанавливающих соответствие между исследуемым признаком Yи фактором-аргументом X.

В общем виде модель приобретает вид системы уравнений и неравенств, представляющих аналитические зависимости результативных признаков (Y) объекта-процесса от факторов-аргументов (X1, X2Xn), обусловливающих величину результативного признака:

Y = f(X1, X2Xn).

В зависимости от задачи определяют значения факторов-аргументов, соответствующие либо заданным значениям Y (задача решения уравнения или системы уравнений), либо соответствующие экстремальным значениям Y (задача оптимизации).

Для перехода от экспериментальных данных об объекте, то есть таблиц соответствия между Yи X, к аналитическим зависимостям (эмпирическим формулам) используют методы математической статистики: дисперсионный, корреляционный и регрессионный анализ.

Таким образом, при построении и исследовании математической модели объекта-процесса используют:

- методы математической статистики;

- методы решения уравнений и систем;

- методы решения задач оптимизации.

Рассмотрим методы математической статистики, позволяющие получить эмпирические формулы. Данные методы реализованы в большом количестве программ, предназначенных для выполнения статистического анализа данных, например Statistica, а также универсальных программ для выполнения математических расчетов, например табличный процессор MS Excel и программа Mathcad. При выполнении лабораторно-практических работ, представленных в данных указаниях, будем опираться на табличный процессор MS Excel.

Табличный процессор MS Excel позволяет выполнять статистическую обработку экспериментальных данных с помощью:

- функций, используемых в ячейках Листа;

- надстройки Анализ данных;

- Мастера-построителя диаграмм.

Основные понятия прикладного статистического анализа

Прикладной статистический анализ исследует совокупности, множества индивидуально различимых, но однородных единиц (случайных величин), объединяемых в отношении некоторых условий для совместного (группового) изучения. Основой математической статистики является теория вероятности.

Основные понятия, необходимые для использования статистических методов:

Случайная величина – величина, которая принимает в результате испытания (измерения) то или иное (только одно) возможное значение, заранее неизвестное, меняющееся из-за случайных обстоятельств (тех, которые невозможно предусмотреть, учесть).

Варианта (varians – различный, variantis – изменяющийся) – единица совокупности, член совокупности.

Совокупность – массовое явление, для которого характерно наличие индивидуальности его вариант.

Распределение случайной величины – закон изменения частоты появления случайной величины.

Явления в природе (где величины непрерывны), если количество измерений ®¥, описываются различными законами, чаще всего нормальным законом распределения, или законом Гаусса-Лапласа.

Функция плотности вероятности для нормального закона имеет вид:

image001_50_ea6443b39382bd377e2077b0c4b485f9 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным.

Интеграл для image002_50_c7e1590aef565481c62cfcb0e8d9618e Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным (см. рис.1) равен 1: image003_43_86be36681dbc726481471583592b74b1 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным.

image004_45_8fa88d2106ed528468b3ab2ce236bdb4 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным

Рис.1.

Величины, используемые при статистической обработке экспериментальных данных:

среднее выборочное image005_36_63c0c80f33f9e85b93168faba97bb9cf Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным;

дисперсия: image006_37_6873f8142defd76cefea184f8c76e174 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным;

среднее квадратическое отклонение image007_33_c640530e618175331b07ed1850c1c787 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным;

ошибка выборочной средней image008_29_767b2f2ea6e648c403dea0d45e864cea Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным или image009_31_854ce144aac7301fba7e3111a1eabde2 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным для малых выборок;

нормированное отклонение image010_31_b98f58cd10b36438d8ca8e02380cf013 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным;

доверительная вероятность Рдоверит – значение интеграла функции плотности вероятности для заданной величины нормированного отклонения t.

Соотношение между доверительной вероятностью и нормированным отклонением для нормального закона приведены в таблице:

Рдоверит

image010_31_b98f58cd10b36438d8ca8e02380cf013 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным

0,9

1,65

0,95

1,96

0,99

2,58

0,999

3,29

Чаще всего в техническом и биологическом экспериментах используют Рдоверит=0,95 (не претендуя на «высокие» требования к этой величине). При этом исследователи считают, что изучаемые ими величины подчиняются нормальному закону распределения, что не всегда верно и требует экспериментального подтверждения. В свою очередь экспериментальное подтверждение нормальности закона распределения требует привлечения значительного количества экспериментальных данных, что исследователь далеко не всегда способен получить и вынужден работать с малыми по величине выборками экспериментальных данных. Значение Рдоверит=0,9 характерно тем, что для большинства известных в природе законов распределения случайных величин величина нормированного отклонения t одинакова и равна 1,65. По этой причине специалисты-статистики рекомендуют к использованию значение доверительной вероятности Рдоверит=0,9.

Этапы статистической обработки данных. Проверка гипотез.

1-й этап статистической обработки экспериментальных данных – проверка 0-гипотезы.

Нулевая гипотеза (0-гипотеза)– предположение, что генеральные параметры всех измерений (вариант) отличаются друг от друга из-за случайных воздействий, а не из-за организованного фактора.

Задача проверки гипотез – подтвердить или опровергнуть нулевую гипотезу, для чего выполняют t-тест.

Проверка 0-гипотезы с использованием t-теста.

Для проведения t-теста задаются значением доверительной вероятности (чем ближе значение Рдоверит к 1, тем жестче требования к исследуемым данным). Исследуют отклонение вариант (групп вариант – выборок из генеральной совокупности), определяя для них значение нормированного отклонения t. Если расчетное значение нормированного отклонения превысило граничное (стандартное нормированное отклонение) для принятого Рдоверит, то 0-гипотеза отвергается.

Для двух групп вариант из одной генеральной совокупности, размер которых одинаков или различен и с. к.о. различны, используют формулы для определения нормированного отклонения:

image011_31_2318668276f0b3677061f1478f8bee8f Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным

Граничное (стандартное) значение нормированного отклонения для выборок (групп вариант) большой размерности (количество значений существенно превышает 100) можно определить, используя нормальный закон распределения (см. таблицу выше).

Для малых выборок (£ 20-30 наблюдений) используют распределение Стьюдента (Вильяма Госсета, 1908):

image012_31_f074934a317d5a1dc8b42230bbf69cbd Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным.

Сn-1 – константа, зависящая от k=n-1. При n®¥ распределение Стьюдента преобразуется в распределение Гаусса-Лапласа.

В общем виде распределение Стьюдента имеет следующую функцию плотности:

f(t) = G[(k+1)/2] / G(k/2) (k×p)-1/2 × [1 + (t2/k)-(k+1)/2],

где k - число степеней свободы;

image013_32_b5eb17a1e91b0b8752ea389b2cdc4803 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным - гамма-функция;

p - число Пи (3.1415...).

На рисунке 2 показаны функция плотности распределения Стьюдента и интегральная функция распределения. на которых отмечено значение нормированного отклонения tst, соответствующее доверительной вероятности p=0,95, при 15 степенях свободы.

image014_6_2dea375da8f322bf3819bd4b2a28b918 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным

Рис.2

По распределению Стьюдента определяют стандартное значение нормированного отклонения tst. Исходными данными для определения tst служат Рдоверит и степень свободы k. Значения tst определяют, как правило, по таблицам. В табличном процессоре Microsoft Excel для определения tst используют функцию СТЬЮДРАСПОБР(Рдоверит ; k).

Степень свободы определяется для выборки как k=n-1 (n – количество вариант в выборке). То есть количество степеней свободы выборки на 1 меньше, чем количество вариант (одна варианта фиксирована, несвободна, а остальные изменяются относительно ее, то есть свободны). Для случая двух выборок k=n1+n2-2, где n1 – количество вариант 1-й выборки, n2 – количество вариант 2-й выборки.

Таким образом, при выполнении t-теста проверяют неравенство:

t£tst (Рдоверит, k= n1+n2-2).

Если неравенство нарушено, то 0-гипотеза отвергается. Принимается решение, что исследуемые выборки не принадлежат одной генеральной совокупности, и существует организованный фактор, приведший к изменению наблюдаемых вариант.

Проверка 0-гипотезы с использованием F-распределения Фишера.

Для проверки 0-гипотезы можно использовать F-распределение Фишера:

f(t) = G[(k+m)/2] /[G(k/2)×G(m/2)] (k/m)k/2×tk/2-1×[1 + (k/m)t]-(k+m)/2

где k=1,2,… и m=1,2,… - числа степеней свободы; 0£t<¥;

image013_32_b5eb17a1e91b0b8752ea389b2cdc4803 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным - гамма-функция,

На рисунке 3 показаны функция плотности распределения Фишера и интегральная функция распределения. на которых отмечено значение, соответствующее доверительной вероятности p=0,95, при степенях свободы k=10 и m=10.

По распределению Фишера определяют стандартное значение Fst. Исходными данными для определения Fst служат Рдоверит и степени свободы k и m. Значения Fst определяют, как правило, по таблицам. В табличном процессоре Microsoft Excel для определения Fst используют функцию FРАСПОБР(Рдоверит ; k ; m).

Степени свободы вычисляют следующим образом: если сравнивают, например, 2 группы данных, каждая из которых содержит по 15 измерений, то степень свободы k=2-1=1 (количество групп – 1), а степень свободы m=15+15-2 (общее количество измерений – количество групп).

image015_7_faf41b4d5177dc8feb46e1746db22481 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным

Рис.3

Проверка заключается в сравнении отношения дисперсий исследуемых выборок F и стандартного значения отношения Fst:

image016_30_dc24ac72db84c85b247eb8aa2fc65511 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным

image017_27_65612fe2a1a1d85cfd20efd5472777d0 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным

где P – доверительная вероятность; k1, k2 – степени свободы выборок.

При выполнении неравенства 0-гипотеза отвергается.

Дисперсионный анализ.

2-й этап статистической обработки экспериментальных данных – дисперсионный анализ.

Дисперсионный анализ позволяет выявить действие организованного фактора на признак (объект). То есть, если 0-гипотеза отвергается, то возможно выявление организованного фактора, приводящего к изменению признака.

Простейшим видом дисперсионного анализа является однофакторный дисперсионный анализ.

Однофакторный дисперсионный анализ.

Для выявления действия фактора на признак (например, температуры на вязкость моторного масла) варианты (численные значения вязкости, полученные в эксперименте) группируют по градациям фактора (диапазонам изменения температуры):

Группы

n1

n2

n3

Всего групп М

Варианты

X1…Xn1

Xn1…Xn1+n2

Xn1+n2…Xn2+n3

Всего вариант N

Фактор

А=1

А=2

А=3

 

Затем выполняют расчет отклонений:

1. Общее отклонение: image018_24_9775a28555d68e41b5a7153f228072f4 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным.

2. Межгрупповое отклонение: image019_24_3c32b74915f993d56cdcd9909668c0dc Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным.

3. Внутригрупповое отклонение: image020_24_cfdb8bccce03f04b9f755c8429736342 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным.

Следует учесть, что Dy=Dz+Dx.

Далее определяют критерий Фишера:

image021_23_e7fa0807990d00c9c1246e4cf5093989 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным.

Полученное значение F сравнивают со стандартным (критическим). Если F>Fst, то принимают решение, что изменение признака статистически связано с изменением организованного фактора.

Критические значения Fst получены из анализа зависимостей для нормально-распределенных случайных величин для различных доверительных вероятностей существования нулевой гипотезы и степеней свободы. Наиболее часто используют таблицы для доверительной вероятности Р=0,95 (или уровня значимости 0,05).

Двухфакторный дисперсионный анализ.

Для определения значимости воздействия на изменение признака двух организованных факторов используют двухфакторный дисперсионный анализ. Таблица исходных данных представляется в виде (для случая, когда каждый из факторов имеет 2 градации):

Группы

n1

n2

n3

n4

Всего групп М

Варианты

(значения признака)

X1…

Xn1

Xn1…

Xn1+n2

Xn1+n2…

Xn2+n3

Xn2+n3

Xn3+n4

Всего вариант N

Фактор А

А=1

А=2

А=1

А=2

Всего градаций a

Фактор В

В=1

В=2

Всего градаций b

Затем выполняют расчет отклонений:

1. Общее отклонение: image018_24_9775a28555d68e41b5a7153f228072f4 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным.

2. Межгрупповое отклонение: image019_24_3c32b74915f993d56cdcd9909668c0dc Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным.

3. Внутригрупповое отклонение: image020_24_cfdb8bccce03f04b9f755c8429736342 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным.

Следует учесть, что Dy=Dz+Dx.

Далее определяют эффекты взаимодействия с помощью таблицы:

 

А=1

А=2

сумма

среднее

В=1

s11=

s12=

SB1=s11+s12

 

В=2

s21=

s22=

SB2=s21+s22

 

сумма

SA1=s11+s21

SA2=s12+s22

 

=( + )/2

среднее

       

4. Межгрупповое отклонение по фактору А: image032_11_1b2b03f5af24021d63423c740df6a93a Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным и дисперсию по признаку А: Da=Ca/(a-1).

5. Межгрупповое отклонение по фактору B: image033_11_dbe811e069512ba8707f83d8214171e3 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным и дисперсию по признаку B: Db=Cb/(b-1).

6. Отклонение, вызванное взаимодействием факторов А и В:

Cab=Dx-(Ca+Cb).

7. Результаты расчетов сводят в таблицу:

Наименование

Отклонение

Степени свободы

Дисперсия

Критерий Фишера F

Общее

Dy

N

   

Фактор А

Ca

k=b-1

s2А=Сa/k

s2А/s2

Фактор В

Cb

m=a-1

s2В=Cb/m

s2В/s2

Взаимодействие А и В

Cab

k×m

s2АВ=Cab/(k×m)

s2АВ/s2

Остаток (внутригрупповая)

Dz

M=N-k-m - k×m

s2=Dz/M

 

Полученные значения F сравнивают со стандартным (критическим) значением Fst. Если F>Fst, то принимают решение, что изменение признака статистически связано с изменением организованного фактора.

При увеличении градаций каждого из факторов в таблицу исходных данных добавляют соответствующее количество столбцов.

Ковариационный и корреляционный анализ.

3-й этап статистической обработки экспериментальных данных – ковариационный и корреляционный анализ. Корреляционный анализ позволяет определить тесноту статистической связи, выявленной при выполнении дисперсионного анализа. В пределе статистическая связь может перейти в функциональную.

Ковариация является мерой связи между двумя диапазонами данных. Используется для вычисления среднего произведения отклонений точек данных от относительных средних по следующей формуле:

image034_0_62f88307a25eb044c6745b9d40b3cce8 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным.

Примечание. Вычисления ковариации для отдельной пары данных в MS Excel производятся с помощью статистической функции КОВАР.

Корреляционный анализ применяется для количественной оценки взаимосвязи двух наборов данных, представленных в безразмерном виде. Коэффициент корреляции выборки представляет отношение ковариации двух наборов данных к произведению их стандартных отклонений и рассчитывается по следующим формулам.

image035_2_c8b821cc2c436dd3da4f59b0246d6bae Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным

Ковариационный анализ и корреляционный анализ дают возможность установить, ассоциированы ли наборы данных по величине, то есть, большие значения из одного набора данных связаны с большими значениями другого набора (положительная корреляция), или, наоборот, малые значения одного набора связаны с большими значениями другого (отрицательная корреляция), или данные двух диапазонов никак не связаны (нулевая корреляция).

Коэффициент корреляции rХ, У позволяет судить о тесноте линейной связи между двумя величинами х и у:

rХ, У = 1 – линейная функциональная положительная зависимость типа y=a+bx; (a>0; b>0);

rХ, У = 0 – зависимости нет вообще;

rХ, У = -1 – линейная функциональная отрицательная зависимость типа y=a-bx; (a>0; b>0);

rХ, У ³ 0,8 – тесная статистическая связь.

Примечание. Для вычисления коэффициента корреляции между двумя наборами данных на Листе в MS Excel используется статистическая функция КОРРЕЛ.

Регрессия.

4-й этап статистической обработки экспериментальных данных – регрессионный анализ.

Линейный и нелинейный регрессионный анализ позволяет установить функциональную зависимость между изменением признака и организованного фактора (эмпирическую формулу) и количественные характеристики качества эмпирической формулы. Регрессионный анализ применяют для данных, имеющих тесную статистическую связь.

Регрессия основана на аппроксимации экспериментальных данных аналитическими зависимостями с помощью метода наименьших квадратов и используется для анализа воздействия на отдельную зависимую переменную (признак) значений одной или более независимых переменных (факторов).

Наиболее распространены следующие виды зависимостей:

- линейная для парной зависимости Y=f(X,a,b)=a+bX,

- линейная для множественной зависимости

Y= f(X,a,b)=a+b1X1+ b2X2+ b3X3+…+ bnXn;

- степенная для парной зависимости Y= f(X,a,b)=aXb,

- степенная для множественной зависимости Y= f(X,a,b)=aX1b1X2b2X3b3Xnbn;

- гиперболическая Y= f(X,a,b)=a+b/(X)1/n;

- полиномиальная Y= f(X,a,b)=a+b1X+b2X2+b3X3+…+bnXn.

В формулах Y – показатель; Xi (i=1,2…n) – факторы; a, b1, b2, b3,… bn – параметры уравнений.

Суть метода наименьших квадратов заключается в нахождении коэффициентов выбранной аппроксимирующей зависимости, обеспечивающих минимальную сумму квадратов отклонений R расчетных значений результативного показателя (по аппроксимирующей зависимости f(xi,a,b)) от его фактических значений yi, полученных в эксперименте, для всех пар значений xi и yi (i=1…n):

image036_10_7e60d3a95b95a9b325c97f22ffd98611 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным.

Полученное значение R может использоваться как критерий для выбора той или иной регрессионной модели, используемой для описания экспериментальных данных. Из двух альтернативных регрессионных моделей предпочтительнее та, у которой величина R меньше.

Для отыскания параметров уравнений регрессии решают систему линейных алгебраических уравнений:

- для парной линейной регрессии (Y=a+bX):

image037_9_e3d98c76b23cf172c71fb0954cebfed3 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным

- для парной квадратичной параболы (Y=a+bX+cX2):

image038_9_5e1ba8219b44363fb03f504a14cf0397 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным

- для парной гиперболической зависимости (Y=a+b/X):

image039_8_a9839c054b024cc61cec68325b0893f1 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным

- для множественной линейной зависимости (Y=a+bX1+cX2):

image040_8_040e8a0fc4ea0ac010aee759cf5284cd Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным

- для множественной линейной зависимости (Y=a+bX1+cX2+dX3):

image041_9_bce0bcd0e0abc3b970307c111c386856 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным

После определения параметров регрессии производится оценка правильности отражения ею исследуемого процесса (зависимости) и тесноты функциональной связи между результативным признаком и фактором-аргументом.

Для этого используются коэффициенты:

- коэффициент линейной корреляции rx, y;

- коэффициент множественной корреляции (для линейной зависимости от двух факторов): image042_9_12d51299e3d639fce0cbd2c06107543b Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным

- корреляционное отношение (для нелинейных зависимостей):

image043_8_0d72e9bc550a90347aa89666a2137963 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным, где Y – фактическое (из эксперимента) значение показателя, с чертой – среднее арифметическое фактических значений, с «углом» – полученное по уравнению регрессии для данного значения фактора-аргумента.

Для оценки достоверности коэффициента корреляции и корреляционного отношения используется t-критерий: image044_6_cd4ead2a8f89c7f2609d7ef662519e86 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным, который сравнивают с критическими значениями по таблице Стьюдента, принимая число степеней свободы n=n-2 (n – число пар измерений). Если величина расчетного t-критерия больше критического значения для выбранного уровня доверительной вероятности, то величина коэффициента корреляции является статистически значимой, в противном случае – коэффициент корреляции недостоверен.

Для оценки значимости уравнения регрессии в целом используют F-критерий Фишера – отношение общей дисперсии S2y (разброс значений относительно среднего значения) к остаточной S2yост (разброс значений относительно линии регрессии). То есть критерий Фишера показывает, во сколько раз уравнение регрессии предсказывает результат опыта лучше, чем среднее значение Y:

image045_7_4ba45ecd5b0e1ca4937eb7373f689bd1 Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным,

image046_7_2a6f4b631d18226cab5e89a47dd02b9c Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным,

 

F = S2y / S2yост > FT.

Методические указания к лабораторным работам «Построение эмпирических зависимостей по экспериментальным данным» составил Завалий Алексей Алексеевич, к. т.н., доцент, - Симферополь, ЮФ «КАТУ» НАУ, 2008. - с.