20 | 11 | 2017
Учебные материалы
Для преподавателей
Работы студентов
Справочная и техническая литература
Статьи по темам

Методические указания к лабораторным работам Построение эмпирических зависимостей по экспериментальным данным

1 1 1 1 1 1 1 1 1 1 Рейтинг 0.00 (0 Голосов)

Методические указания к лабораторным работам - Построение эмпирических зависимостей по экспериментальным данным. Для магистрантов инженерных специальностей.

Введение

Цель настоящих методических указаний – освоение методов первичной статистической обработки экспериментальных данных.

Указания содержат теоретические сведения с указанием необходимых при выполнении статистической обработки формул (без выводов), а также 4 лабораторные работы:

Лабораторная работа 1. Двухвыборочный t-тест с различными дисперсиями.

Лабораторная работа 2. Однофакторный дисперсионный анализ.

Лабораторная работа 3. Двухфакторный дисперсионный анализ.

Лабораторная работа 4. Линейный корреляционный и регрессионный анализ.

Теоретические сведения

Исследование объекта или процесса начинается с построения его модели. Чаще всего используют абстрактные модели с привлечением средств математики, то есть математические модели. Построение таких моделей опирается на фундаментальные законы, обобщенные эмпирические зависимости и экспериментальные данные, полученные при исследовании данного объекта-процесса. Экспериментальные данные представлены, как правило, в виде таблиц, устанавливающих соответствие между исследуемым признаком Yи фактором-аргументом X.

В общем виде модель приобретает вид системы уравнений и неравенств, представляющих аналитические зависимости результативных признаков (Y) объекта-процесса от факторов-аргументов (X1, X2Xn), обусловливающих величину результативного признака:

Y = f(X1, X2Xn).

В зависимости от задачи определяют значения факторов-аргументов, соответствующие либо заданным значениям Y (задача решения уравнения или системы уравнений), либо соответствующие экстремальным значениям Y (задача оптимизации).

Для перехода от экспериментальных данных об объекте, то есть таблиц соответствия между Yи X, к аналитическим зависимостям (эмпирическим формулам) используют методы математической статистики: дисперсионный, корреляционный и регрессионный анализ.

Таким образом, при построении и исследовании математической модели объекта-процесса используют:

- методы математической статистики;

- методы решения уравнений и систем;

- методы решения задач оптимизации.

Рассмотрим методы математической статистики, позволяющие получить эмпирические формулы. Данные методы реализованы в большом количестве программ, предназначенных для выполнения статистического анализа данных, например Statistica, а также универсальных программ для выполнения математических расчетов, например табличный процессор MS Excel и программа Mathcad. При выполнении лабораторно-практических работ, представленных в данных указаниях, будем опираться на табличный процессор MS Excel.

Табличный процессор MS Excel позволяет выполнять статистическую обработку экспериментальных данных с помощью:

- функций, используемых в ячейках Листа;

- надстройки Анализ данных;

- Мастера-построителя диаграмм.

Основные понятия прикладного статистического анализа

Прикладной статистический анализ исследует совокупности, множества индивидуально различимых, но однородных единиц (случайных величин), объединяемых в отношении некоторых условий для совместного (группового) изучения. Основой математической статистики является теория вероятности.

Основные понятия, необходимые для использования статистических методов:

Случайная величина – величина, которая принимает в результате испытания (измерения) то или иное (только одно) возможное значение, заранее неизвестное, меняющееся из-за случайных обстоятельств (тех, которые невозможно предусмотреть, учесть).

Варианта (varians – различный, variantis – изменяющийся) – единица совокупности, член совокупности.

Совокупность – массовое явление, для которого характерно наличие индивидуальности его вариант.

Распределение случайной величины – закон изменения частоты появления случайной величины.

Явления в природе (где величины непрерывны), если количество измерений ®¥, описываются различными законами, чаще всего нормальным законом распределения, или законом Гаусса-Лапласа.

Функция плотности вероятности для нормального закона имеет вид:

.

Интеграл для (см. рис.1) равен 1: .

Рис.1.

Величины, используемые при статистической обработке экспериментальных данных:

среднее выборочное ;

дисперсия: ;

среднее квадратическое отклонение ;

ошибка выборочной средней или для малых выборок;

нормированное отклонение ;

доверительная вероятность Рдоверит – значение интеграла функции плотности вероятности для заданной величины нормированного отклонения t.

Соотношение между доверительной вероятностью и нормированным отклонением для нормального закона приведены в таблице:

Рдоверит

0,9

1,65

0,95

1,96

0,99

2,58

0,999

3,29

Чаще всего в техническом и биологическом экспериментах используют Рдоверит=0,95 (не претендуя на «высокие» требования к этой величине). При этом исследователи считают, что изучаемые ими величины подчиняются нормальному закону распределения, что не всегда верно и требует экспериментального подтверждения. В свою очередь экспериментальное подтверждение нормальности закона распределения требует привлечения значительного количества экспериментальных данных, что исследователь далеко не всегда способен получить и вынужден работать с малыми по величине выборками экспериментальных данных. Значение Рдоверит=0,9 характерно тем, что для большинства известных в природе законов распределения случайных величин величина нормированного отклонения t одинакова и равна 1,65. По этой причине специалисты-статистики рекомендуют к использованию значение доверительной вероятности Рдоверит=0,9.

Этапы статистической обработки данных. Проверка гипотез.

1-й этап статистической обработки экспериментальных данных – проверка 0-гипотезы.

Нулевая гипотеза (0-гипотеза)– предположение, что генеральные параметры всех измерений (вариант) отличаются друг от друга из-за случайных воздействий, а не из-за организованного фактора.

Задача проверки гипотез – подтвердить или опровергнуть нулевую гипотезу, для чего выполняют t-тест.

Проверка 0-гипотезы с использованием t-теста.

Для проведения t-теста задаются значением доверительной вероятности (чем ближе значение Рдоверит к 1, тем жестче требования к исследуемым данным). Исследуют отклонение вариант (групп вариант – выборок из генеральной совокупности), определяя для них значение нормированного отклонения t. Если расчетное значение нормированного отклонения превысило граничное (стандартное нормированное отклонение) для принятого Рдоверит, то 0-гипотеза отвергается.

Для двух групп вариант из одной генеральной совокупности, размер которых одинаков или различен и с. к.о. различны, используют формулы для определения нормированного отклонения:

Граничное (стандартное) значение нормированного отклонения для выборок (групп вариант) большой размерности (количество значений существенно превышает 100) можно определить, используя нормальный закон распределения (см. таблицу выше).

Для малых выборок (£ 20-30 наблюдений) используют распределение Стьюдента (Вильяма Госсета, 1908):

.

Сn-1 – константа, зависящая от k=n-1. При n®¥ распределение Стьюдента преобразуется в распределение Гаусса-Лапласа.

В общем виде распределение Стьюдента имеет следующую функцию плотности:

f(t) = G[(k+1)/2] / G(k/2) (k×p)-1/2 × [1 + (t2/k)-(k+1)/2],

где k - число степеней свободы;

- гамма-функция;

p - число Пи (3.1415...).

На рисунке 2 показаны функция плотности распределения Стьюдента и интегральная функция распределения. на которых отмечено значение нормированного отклонения tst, соответствующее доверительной вероятности p=0,95, при 15 степенях свободы.

Рис.2

По распределению Стьюдента определяют стандартное значение нормированного отклонения tst. Исходными данными для определения tst служат Рдоверит и степень свободы k. Значения tst определяют, как правило, по таблицам. В табличном процессоре Microsoft Excel для определения tst используют функцию СТЬЮДРАСПОБР(Рдоверит ; k).

Степень свободы определяется для выборки как k=n-1 (n – количество вариант в выборке). То есть количество степеней свободы выборки на 1 меньше, чем количество вариант (одна варианта фиксирована, несвободна, а остальные изменяются относительно ее, то есть свободны). Для случая двух выборок k=n1+n2-2, где n1 – количество вариант 1-й выборки, n2 – количество вариант 2-й выборки.

Таким образом, при выполнении t-теста проверяют неравенство:

t£tst (Рдоверит, k= n1+n2-2).

Если неравенство нарушено, то 0-гипотеза отвергается. Принимается решение, что исследуемые выборки не принадлежат одной генеральной совокупности, и существует организованный фактор, приведший к изменению наблюдаемых вариант.

Проверка 0-гипотезы с использованием F-распределения Фишера.

Для проверки 0-гипотезы можно использовать F-распределение Фишера:

f(t) = G[(k+m)/2] /[G(k/2)×G(m/2)] (k/m)k/2×tk/2-1×[1 + (k/m)t]-(k+m)/2

где k=1,2,… и m=1,2,… - числа степеней свободы; 0£t<¥;

- гамма-функция,

На рисунке 3 показаны функция плотности распределения Фишера и интегральная функция распределения. на которых отмечено значение, соответствующее доверительной вероятности p=0,95, при степенях свободы k=10 и m=10.

По распределению Фишера определяют стандартное значение Fst. Исходными данными для определения Fst служат Рдоверит и степени свободы k и m. Значения Fst определяют, как правило, по таблицам. В табличном процессоре Microsoft Excel для определения Fst используют функцию FРАСПОБР(Рдоверит ; k ; m).

Степени свободы вычисляют следующим образом: если сравнивают, например, 2 группы данных, каждая из которых содержит по 15 измерений, то степень свободы k=2-1=1 (количество групп – 1), а степень свободы m=15+15-2 (общее количество измерений – количество групп).

Рис.3

Проверка заключается в сравнении отношения дисперсий исследуемых выборок F и стандартного значения отношения Fst:

где P – доверительная вероятность; k1, k2 – степени свободы выборок.

При выполнении неравенства 0-гипотеза отвергается.

Дисперсионный анализ.

2-й этап статистической обработки экспериментальных данных – дисперсионный анализ.

Дисперсионный анализ позволяет выявить действие организованного фактора на признак (объект). То есть, если 0-гипотеза отвергается, то возможно выявление организованного фактора, приводящего к изменению признака.

Простейшим видом дисперсионного анализа является однофакторный дисперсионный анализ.

Однофакторный дисперсионный анализ.

Для выявления действия фактора на признак (например, температуры на вязкость моторного масла) варианты (численные значения вязкости, полученные в эксперименте) группируют по градациям фактора (диапазонам изменения температуры):

Группы

n1

n2

n3

Всего групп М

Варианты

X1…Xn1

Xn1…Xn1+n2

Xn1+n2…Xn2+n3

Всего вариант N

Фактор

А=1

А=2

А=3

 

Затем выполняют расчет отклонений:

1. Общее отклонение: .

2. Межгрупповое отклонение: .

3. Внутригрупповое отклонение: .

Следует учесть, что Dy=Dz+Dx.

Далее определяют критерий Фишера:

.

Полученное значение F сравнивают со стандартным (критическим). Если F>Fst, то принимают решение, что изменение признака статистически связано с изменением организованного фактора.

Критические значения Fst получены из анализа зависимостей для нормально-распределенных случайных величин для различных доверительных вероятностей существования нулевой гипотезы и степеней свободы. Наиболее часто используют таблицы для доверительной вероятности Р=0,95 (или уровня значимости 0,05).

Двухфакторный дисперсионный анализ.

Для определения значимости воздействия на изменение признака двух организованных факторов используют двухфакторный дисперсионный анализ. Таблица исходных данных представляется в виде (для случая, когда каждый из факторов имеет 2 градации):

Группы

n1

n2

n3

n4

Всего групп М

Варианты

(значения признака)

X1…

Xn1

Xn1…

Xn1+n2

Xn1+n2…

Xn2+n3

Xn2+n3

Xn3+n4

Всего вариант N

Фактор А

А=1

А=2

А=1

А=2

Всего градаций a

Фактор В

В=1

В=2

Всего градаций b

Затем выполняют расчет отклонений:

1. Общее отклонение: .

2. Межгрупповое отклонение: .

3. Внутригрупповое отклонение: .

Следует учесть, что Dy=Dz+Dx.

Далее определяют эффекты взаимодействия с помощью таблицы:

 

А=1

А=2

сумма

среднее

В=1

s11=

s12=

SB1=s11+s12

 

В=2

s21=

s22=

SB2=s21+s22

 

сумма

SA1=s11+s21

SA2=s12+s22

 

=( + )/2

среднее

       

4. Межгрупповое отклонение по фактору А: и дисперсию по признаку А: Da=Ca/(a-1).

5. Межгрупповое отклонение по фактору B: и дисперсию по признаку B: Db=Cb/(b-1).

6. Отклонение, вызванное взаимодействием факторов А и В:

Cab=Dx-(Ca+Cb).

7. Результаты расчетов сводят в таблицу:

Наименование

Отклонение

Степени свободы

Дисперсия

Критерий Фишера F

Общее

Dy

N

   

Фактор А

Ca

k=b-1

s2А=Сa/k

s2А/s2

Фактор В

Cb

m=a-1

s2В=Cb/m

s2В/s2

Взаимодействие А и В

Cab

k×m

s2АВ=Cab/(k×m)

s2АВ/s2

Остаток (внутригрупповая)

Dz

M=N-k-m - k×m

s2=Dz/M

 

Полученные значения F сравнивают со стандартным (критическим) значением Fst. Если F>Fst, то принимают решение, что изменение признака статистически связано с изменением организованного фактора.

При увеличении градаций каждого из факторов в таблицу исходных данных добавляют соответствующее количество столбцов.

Ковариационный и корреляционный анализ.

3-й этап статистической обработки экспериментальных данных – ковариационный и корреляционный анализ. Корреляционный анализ позволяет определить тесноту статистической связи, выявленной при выполнении дисперсионного анализа. В пределе статистическая связь может перейти в функциональную.

Ковариация является мерой связи между двумя диапазонами данных. Используется для вычисления среднего произведения отклонений точек данных от относительных средних по следующей формуле:

.

Примечание. Вычисления ковариации для отдельной пары данных в MS Excel производятся с помощью статистической функции КОВАР.

Корреляционный анализ применяется для количественной оценки взаимосвязи двух наборов данных, представленных в безразмерном виде. Коэффициент корреляции выборки представляет отношение ковариации двух наборов данных к произведению их стандартных отклонений и рассчитывается по следующим формулам.

Ковариационный анализ и корреляционный анализ дают возможность установить, ассоциированы ли наборы данных по величине, то есть, большие значения из одного набора данных связаны с большими значениями другого набора (положительная корреляция), или, наоборот, малые значения одного набора связаны с большими значениями другого (отрицательная корреляция), или данные двух диапазонов никак не связаны (нулевая корреляция).

Коэффициент корреляции rХ, У позволяет судить о тесноте линейной связи между двумя величинами х и у:

rХ, У = 1 – линейная функциональная положительная зависимость типа y=a+bx; (a>0; b>0);

rХ, У = 0 – зависимости нет вообще;

rХ, У = -1 – линейная функциональная отрицательная зависимость типа y=a-bx; (a>0; b>0);

rХ, У ³ 0,8 – тесная статистическая связь.

Примечание. Для вычисления коэффициента корреляции между двумя наборами данных на Листе в MS Excel используется статистическая функция КОРРЕЛ.

Регрессия.

4-й этап статистической обработки экспериментальных данных – регрессионный анализ.

Линейный и нелинейный регрессионный анализ позволяет установить функциональную зависимость между изменением признака и организованного фактора (эмпирическую формулу) и количественные характеристики качества эмпирической формулы. Регрессионный анализ применяют для данных, имеющих тесную статистическую связь.

Регрессия основана на аппроксимации экспериментальных данных аналитическими зависимостями с помощью метода наименьших квадратов и используется для анализа воздействия на отдельную зависимую переменную (признак) значений одной или более независимых переменных (факторов).

Наиболее распространены следующие виды зависимостей:

- линейная для парной зависимости Y=f(X,a,b)=a+bX,

- линейная для множественной зависимости

Y= f(X,a,b)=a+b1X1+ b2X2+ b3X3+…+ bnXn;

- степенная для парной зависимости Y= f(X,a,b)=aXb,

- степенная для множественной зависимости Y= f(X,a,b)=aX1b1X2b2X3b3Xnbn;

- гиперболическая Y= f(X,a,b)=a+b/(X)1/n;

- полиномиальная Y= f(X,a,b)=a+b1X+b2X2+b3X3+…+bnXn.

В формулах Y – показатель; Xi (i=1,2…n) – факторы; a, b1, b2, b3,… bn – параметры уравнений.

Суть метода наименьших квадратов заключается в нахождении коэффициентов выбранной аппроксимирующей зависимости, обеспечивающих минимальную сумму квадратов отклонений R расчетных значений результативного показателя (по аппроксимирующей зависимости f(xi,a,b)) от его фактических значений yi, полученных в эксперименте, для всех пар значений xi и yi (i=1…n):

.

Полученное значение R может использоваться как критерий для выбора той или иной регрессионной модели, используемой для описания экспериментальных данных. Из двух альтернативных регрессионных моделей предпочтительнее та, у которой величина R меньше.

Для отыскания параметров уравнений регрессии решают систему линейных алгебраических уравнений:

- для парной линейной регрессии (Y=a+bX):

- для парной квадратичной параболы (Y=a+bX+cX2):

- для парной гиперболической зависимости (Y=a+b/X):

- для множественной линейной зависимости (Y=a+bX1+cX2):

- для множественной линейной зависимости (Y=a+bX1+cX2+dX3):

После определения параметров регрессии производится оценка правильности отражения ею исследуемого процесса (зависимости) и тесноты функциональной связи между результативным признаком и фактором-аргументом.

Для этого используются коэффициенты:

- коэффициент линейной корреляции rx, y;

- коэффициент множественной корреляции (для линейной зависимости от двух факторов):

- корреляционное отношение (для нелинейных зависимостей):

, где Y – фактическое (из эксперимента) значение показателя, с чертой – среднее арифметическое фактических значений, с «углом» – полученное по уравнению регрессии для данного значения фактора-аргумента.

Для оценки достоверности коэффициента корреляции и корреляционного отношения используется t-критерий: , который сравнивают с критическими значениями по таблице Стьюдента, принимая число степеней свободы n=n-2 (n – число пар измерений). Если величина расчетного t-критерия больше критического значения для выбранного уровня доверительной вероятности, то величина коэффициента корреляции является статистически значимой, в противном случае – коэффициент корреляции недостоверен.

Для оценки значимости уравнения регрессии в целом используют F-критерий Фишера – отношение общей дисперсии S2y (разброс значений относительно среднего значения) к остаточной S2yост (разброс значений относительно линии регрессии). То есть критерий Фишера показывает, во сколько раз уравнение регрессии предсказывает результат опыта лучше, чем среднее значение Y:

,

,

 

F = S2y / S2yост > FT.

Методические указания к лабораторным работам «Построение эмпирических зависимостей по экспериментальным данным» составил Завалий Алексей Алексеевич, к. т.н., доцент, - Симферополь, ЮФ «КАТУ» НАУ, 2008. - с.


Добавить комментарий


Защитный код
Обновить