Вероятностный (статистический) метод оценки рисков. Вероятностно-статистические методы исследований Вероятностные и статистические методы применимы

Часть 1. Фундамент прикладной статистики

1.2.3. Суть вероятностно-статистических методов принятия решений

Как подходы, идеи и результаты теории вероятностей и математической статистики используются при принятии решений?

Базой является вероятностная модель реального явления или процесса, т.е. математическая модель, в которой объективные соотношения выражены в терминах теории вероятностей. Вероятности используются прежде всего для описания неопределенностей, которые необходимо учитывать при принятии решений. Имеются в виду как нежелательные возможности (риски), так и привлекательные («счастливый случай»). Иногда случайность вносится в ситуацию сознательно, например, при жеребьевке, случайном отборе единиц для контроля, проведении лотерей или опросов потребителей.

Теория вероятностей позволяет по одним вероятностям рассчитать другие, интересующие исследователя. Например, по вероятности выпадения герба можно рассчитать вероятность того, что при 10 бросаниях монет выпадет не менее 3 гербов. Подобный расчет опирается на вероятностную модель, согласно которой бросания монет описываются схемой независимых испытаний, кроме того, выпадения герба и решетки равновозможны, а потому вероятность каждого из этих событий равна ½. Более сложной является модель, в которой вместо бросания монеты рассматривается проверка качества единицы продукции. Соответствующая вероятностная модель опирается на предположение о том, что контроль качества различных единиц продукции описывается схемой независимых испытаний. В отличие от модели с бросанием монет необходимо ввести новый параметр – вероятность р того, что единица продукции является дефектной. Модель будет полностью описана, если принять, что все единицы продукции имеют одинаковую вероятность оказаться дефектными. Если последнее предположение неверно, то число параметров модели возрастает. Например, можно принять, что каждая единица продукции имеет свою вероятность оказаться дефектной.

Обсудим модель контроля качества с общей для всех единиц продукции вероятностью дефектности р . Чтобы при анализе модели «дойти до числа», необходимо заменить р на некоторое конкретное значение. Для этого необходимо выйти из рамок вероятностной модели и обратиться к данным, полученным при контроле качества. Математическая статистика решает обратную задачу по отношению к теории вероятностей. Ее цель – на основе результатов наблюдений (измерений, анализов, испытаний, опытов) получить выводы о вероятностях, лежащих в основе вероятностной модели. Например, на основе частоты появления дефектных изделий при контроле можно сделать выводы о вероятности дефектности (см. теорему Бернулли выше). На основе неравенства Чебышева делались выводы о соответствии частоты появления дефектных изделий гипотезе о том, что вероятность дефектности принимает определенное значение.

Таким образом, применение математической статистики опирается на вероятностную модель явления или процесса. Используются два параллельных ряда понятий – относящиеся к теории (вероятностной модели) и относящиеся к практике (выборке результатов наблюдений). Например, теоретической вероятности соответствует частота, найденная по выборке. Математическому ожиданию (теоретический ряд) соответствует выборочное среднее арифметическое (практический ряд). Как правило, выборочные характеристики являются оценками теоретических. При этом величины, относящиеся к теоретическому ряду, «находятся в головах исследователей», относятся к миру идей (по древнегреческому философу Платону), недоступны для непосредственного измерения. Исследователи располагают лишь выборочными данными, с помощью которых они стараются установить интересующие их свойства теоретической вероятностной модели.

Зачем же нужна вероятностная модель? Дело в том, что только с ее помощью можно перенести свойства, установленные по результатам анализа конкретной выборки, на другие выборки, а также на всю так называемую генеральную совокупность. Термин «генеральная совокупность» используется, когда речь идет о большой, но конечной совокупности изучаемых единиц. Например, о совокупности всех жителей России или совокупности всех потребителей растворимого кофе в Москве. Цель маркетинговых или социологических опросов состоит в том, чтобы утверждения, полученные по выборке из сотен или тысяч человек, перенести на генеральные совокупности в несколько миллионов человек. При контроле качества в роли генеральной совокупности выступает партия продукции.

Чтобы перенести выводы с выборки на более обширную совокупность, необходимы те или иные предположения о связи выборочных характеристик с характеристиками этой более обширной совокупности. Эти предположения основаны на соответствующей вероятностной модели.

Конечно, можно обрабатывать выборочные данные, не используя ту или иную вероятностную модель. Например, можно рассчитывать выборочное среднее арифметическое, подсчитывать частоту выполнения тех или иных условий и т.п. Однако результаты расчетов будут относиться только к конкретной выборке, перенос полученных с их помощью выводов на какую-либо иную совокупность некорректен. Иногда подобную деятельность называют «анализ данных». По сравнению с вероятностно-статистическими методами анализ данных имеет ограниченную познавательную ценность.

Итак, использование вероятностных моделей на основе оценивания и проверки гипотез с помощью выборочных характеристик – вот суть вероятностно-статистических методов принятия решений.

Подчеркнем, что логика использования выборочных характеристик для принятия решений на основе теоретических моделей предполагает одновременное использование двух параллельных рядов понятий, один из которых соответствует вероятностным моделям, а второй – выборочным данным. К сожалению, в ряде литературных источников, обычно устаревших либо написанных в рецептурном духе, не делается различия между выборочными и теоретическими характеристиками, что приводит читателей к недоумениям и ошибкам при практическом использовании статистических методов.

Предыдущая

Что такое «математическая статистика»

Под математической статистикой понимают «раздел математики, посвященный математическим методам сбора, систематизации, обработки и интерпретации статистических данных, а также использование их для научных или практических выводов. Правила и процедуры математической статистики опираются на теорию вероятностей, позволяющую оценить точность и надежность выводов, получаемых в каждой задаче на основании имеющегося статистического материала». При этом статистическими данными называются сведения о числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками.

По типу решаемых задач математическая статистика обычно делится на три раздела: описание данных, оценивание и проверка гипотез.

По виду обрабатываемых статистических данных математическая статистика делится на четыре направления:

  • - одномерная статистика (статистика случайных величин), в которой результат наблюдения описывается действительным числом;
  • - многомерный статистический анализ, где результат наблюдения над объектом описывается несколькими числами (вектором);
  • - статистика случайных процессов и временных рядов, где результат наблюдения - функция;
  • - статистика объектов нечисловой природы, в которой результат наблюдения имеет нечисловую природу, например, является множеством (геометрической фигурой), упорядочением или получен в результате измерения по качественному признаку.

Исторически первой появились некоторые области статистики объектов нечисловой природы (в частности, задачи оценивания доли брака и проверки гипотез о ней) и одномерная статистика. Математический аппарат для них проще, поэтому на их примере обычно демонстрируют основные идеи математической статистики.

Лишь те методы обработки данных, т.е. математической статистики, являются доказательными, которые опираются на вероятностные модели соответствующих реальных явлений и процессов. Речь идет о моделях поведения потребителей, возникновения рисков, функционирования технологического оборудования, получения результатов эксперимента, течения заболевания и т.п. Вероятностную модель реального явления следует считать построенной, если рассматриваемые величины и связи между ними выражены в терминах теории вероятностей. Соответствие вероятностной модели реальности, т.е. ее адекватность, обосновывают, в частности, с помощью статистических методов проверки гипотез.

Невероятностные методы обработки данных являются поисковыми, их можно использовать лишь при предварительном анализе данных, так как они не дают возможности оценить точность и надежность выводов, полученных на основании ограниченного статистического материала.

Вероятностные и статистические методы применимы всюду, где удается построить и обосновать вероятностную модель явления или процесса. Их применение обязательно, когда сделанные на основе выборочных данных выводы переносятся на всю совокупность (например, с выборки на всю партию продукции).

В конкретных областях применений используются как вероятностно-статистические методы широкого применения, так и специфические. Например, в разделе производственного менеджмента, посвященного статистическим методам управления качеством продукции, используют прикладную математическую статистику (включая планирование экспериментов). С помощью ее методов проводится статистический анализ точности и стабильности технологических процессов и статистическая оценка качества. К специфическим методам относятся методы статистического приемочного контроля качества продукции, статистического регулирования технологических процессов, оценки и контроля надежности и др.

Широко применяются такие прикладные вероятностно-статистические дисциплины, как теория надежности и теория массового обслуживания. Содержание первой из них ясно из названия, вторая занимается изучением систем типа телефонной станции, на которую в случайные моменты времени поступают вызовы - требования абонентов, набирающих номера на своих телефонных аппаратах. Длительность обслуживания этих требований, т.е. длительность разговоров, также моделируется случайными величинами. Большой вклад в развитие этих дисциплин внесли член-корреспондент АН СССР А.Я. Хинчин (1894-1959), академик АН УССР Б.В.Гнеденко (1912-1995) и другие отечественные ученые.

Вероятностно-статистические методы моделирования экономических систем


Введение


Под задачей идентификации закона распределения наблюдаемой случайной величины (структурно-параметрической идентификации), как правило, понимают задачу выбора такой параметрической модели закона распределения вероятностей, которая наилучшим образом соответствует результатам экспериментальных наблюдений. Случайные ошибки средств измерений не так уж часто подчиняются нормальному закону, точнее, не так часто хорошо описываются моделью нормального закона. В основе измерительных приборов и систем лежат различные физические принципы, различные методы измерений и различные преобразования измерительных сигналов. Погрешности измерений как величины являются следствием влияния множества факторов, случайного и неслучайного характера, действующих постоянно или эпизодически. Поэтому понятно, что только при выполнении определенных предпосылок (теоретических и технических) погрешности измерений достаточно хорошо описываются моделью нормального закона.

Вообще говоря, следует понимать, что истинный закон распределения (если он, конечно, существует), описывающий погрешности конкретной измерительной системы, остается (останется) неизвестным, не смотря на все наши попытки его идентифицировать. На основании данных измерений и теоретических соображений мы можем только подобрать вероятностную модель, которая в некотором смысле наилучшим образом приближает этот истинный закон. Если построенная модель адекватна, то есть применяемые критерии не дают оснований для ее отклонения, то на основе данной модели можно вычислить все интересующие нас вероятностные характеристики случайной составляющей погрешности измерительного средства, которые будут отличаться от истинных значений только за счет не исключенной систематической (ненаблюдаемой или нерегистрируемой) составляющей погрешности измерений. Ее малость и характеризует правильность измерений. Множество возможных законов распределения вероятностей, которые можно использовать для описания наблюдаемых случайных величин, не ограничено. Бессмысленно ставить целью задачи идентификации нахождение истинного закона распределения наблюдаемой величины. Мы можем лишь решать задачу выбора наилучшей модели из некоторого множества. Например, из того множества параметрических законов и семейств распределений, которые используются в приложениях, и упоминание о которых можно найти в литературных источниках.

Классический подход к структурно-параметрической идентификации закона распределения. Под классическим подходом будем понимать алгоритм выбора закона распределения, целиком базирующийся на аппарате математической статистики.


1. Элементарные понятия о случайных событиях, величинах и функциях


Мы уже видели, что для многих экспериментов нет никаких различий в подсчёте вероятностей событий, тогда как элементарные исходы в этих экспериментах очень различаются. Но нас и должны интересовать именно вероятности событий, а не структура пространства элементарных исходов. Поэтому пора во всех таких «похожих» экспериментах вместо самых разных элементарных исходов использовать, например, числа. Иначе говоря, каждому элементарному исходу поставить в соответствие некоторое вещественное число, и работать только с числами.

Пусть задано вероятностное пространство .

Определение 26. Функция называется случайной величиной , если для любого борелевского множества множество является событием, т.е. принадлежит - алгебре .

Множество , состоящее из тех элементарных исходов , для которых принадлежит , называется полным прообразом множества .

Замечание 9. Вообще, пусть функция действует из множества в множество , и заданы -алгебры и подмножеств и соответственно. Функция называется измеримой , если для любого множества его полный прообраз принадлежит .

Замечание 10.Читатель, не желающий забивать себе голову абстракциями, связанными с -алгебрами событий и с измеримостью, может смело считать, что любое множество элементарных исходов есть событие, и, следовательно, случайная величина есть произвольная функция из в . Неприятностей на практике это не влечёт, так что всё дальнейшее в этом параграфе можно пропустить.

Теперь, избавившись от нелюбопытных читателей, попробуем понять, зачем случайной величине нужна измеримость.

Если задана случайная величина , нам может потребоваться вычислить вероятности вида , , , (и вообще самые разные вероятности попадания в борелевские множества на прямой). Это возможно лишь если множества, стоящие под знаком вероятности, являются событиями - ведь вероятность есть функция, определённая только на -алгебре событий. Требование измеримости равносильно тому, что для любого борелевского множества определена вероятность .

Можно потребовать в определении 26 чего-нибудь другого. Например, чтобы событием было попадание в любой интервал: , или в любой полуинтервал: .

Убедимся, например, что эквивалентны определения 26 и 27:

Определение 27.Функция называется случайной величиной, если для любых вещественных множество принадлежит -алгебре .

Доказательствоэквивалентности определений 26, 27.

Если - случайная величина в смысле определения 26, то она будет случайной величиной и в смысле определения 27, поскольку любой интервал является борелевским множеством.

Докажем, что верно и обратное. Пусть для любого интервала выполнено . Мы должны доказать, что то же самое верно и для любых борелевских множеств.

Соберём в множестве все подмножества вещественной прямой, прообразы которых являются событиями. Множество уже содержит все интервалы . Покажем теперь, что множество является -алгеброй. По определению, тогда и только тогда, когда множество принадлежит .

1. Убедимся, что . Но и, следовательно, .

2. Убедимся, что для любого . Пусть . Тогда , так как - -алгебра.

3. Убедимся, что для любых . Пусть для всех . Но - -алгебра, поэтому

Мы доказали, что - -алгебра и содержит все интервалы на прямой. Но - наименьшая из -алгебр, содержащих все интервалы на прямой. Следовательно, содержит : .

Приведём примеры измеримых и неизмеримых функций.

Пример 25.Подбрасываем кубик. Пусть , и две функции из в заданы так: , . Пока не задана -алгебра , нельзя говорить об измеримости. Функция, измеримая относительно какой-то -алгебры , может не быть таковой для другой .

Если есть множество всех подмножеств , то и являются случайными величинами, поскольку любое множество элементарных исходов принадлежит , в том числе и или . Можно записать соответствие между значениями случайных величин и и вероятностями принимать эти значения в виде «таблицы распределения вероятностей» или, коротко, «таблицы распределения»:

Здесь .


2. Пусть -алгебра событий состоит из четырёх множеств:



т.е. событием является, кроме достоверного и невозможного событий, выпадение чётного или нечётного числа очков. Убедимся, что при такой сравнительно бедной -алгебре ни , ни не являются случайными величинами, поскольку они неизмеримы. Возьмём, скажем, . Видим, что и


2. Числовые характеристики случайных величин


Математическое ожидание. Математическим ожиданием дискретной случайной величины Х, принимающей конечное число значений хi с вероятностями рi, называется сумма:


(6а)


Математическим ожиданием непрерывной случайной величины Х называется интеграл от произведения ее значений х на плотность распределения вероятностей f(x):


(6б)


Несобственный интеграл (6б) предполагается абсолютно сходящимся (в противном случае говорят, что математическое ожидание М (Х) не существует). Математическое ожидание характеризует среднее значение случайной величины Х. Его размерность совпадает с размерностью случайной величины. Свойства математического ожидания:



Дисперсия. Дисперсией случайной величины Х называется число:



Дисперсия является характеристикой рассеяния значений случайной величины Х относительно ее среднего значения М (Х). Размерность дисперсии равна размерности случайной величины в квадрате. Исходя из определений дисперсии (8) и математического ожидания (5) для дискретной случайной величины и (6) для непрерывной случайной величины получим аналогичные выражения для дисперсии:



Здесь m = М (Х).

Свойства дисперсии:


(10)


Среднее квадратичное отклонение:


(11)


Так как размерность среднего квадратичного отклонения та же, что и у случайной величины, оно чаще, чем дисперсия, используется как мера рассеяния.

Моменты распределения. Понятия математического ожидания и дисперсии являются частными случаями более общего понятия для числовых характеристик случайных величин - моментов распределения. Моменты распределения случайной величины вводятся как математические ожидания некоторых простейших функций от случайной величины. Так, моментом порядка k относительно точки х0называется математическое ожидание М (Х - х0) k. Моменты относительно начала координат х = 0 называются начальными моментами и обозначаются:


(12)


Начальный момент первого порядка есть центр распределения рассматриваемой случайной величины:


(13)


Моменты относительно центра распределения х = m называются центральными моментами и обозначаются:


(14)


Из (7) следует, что центральный момент первого порядка всегда равен нулю:


(15)


Центральные моменты не зависят от начала отсчета значений случайной величины, так как при сдвиге на постоянное значение С ее центр распределения сдвигается на то же значение С, а отклонение от центра не меняется:


Х - m = (Х - С) - (m - С).


Теперь очевидно, что дисперсия - это центральный момент второго порядка:


(16)


Асимметрия. Центральный момент третьего порядка:


(17)


служит для оценки асимметрии распределения. Если распределение симметрично относительно точки х = m, то центральный момент третьего порядка будет равен нулю (как и все центральные моменты нечетных порядков). Поэтому, если центральный момент третьего порядка отличен от нуля, то распределение не может быть симметричным. Величину асимметрии оценивают с помощью безразмерного коэффициента асимметрии:


(18)


Знак коэффициента асимметрии (18) указывает на правостороннюю или левостороннюю асимметрию (рис. 2).


Рис. 1. Виды асимметрии распределений


Эксцесс. Центральный момент четвертого порядка:


(19)


служит для оценки так называемого эксцесса, определяющего степень крутости (островершинности) кривой распределения вблизи центра распределения по отношению к кривой нормального распределения. Так как для нормального распределения, то в качестве эксцесса принимается величина:


(20)


На рис. 3 приведены примеры кривых распределения с различными значениями эксцесса. Для нормального распределения Е = 0. Кривые, более островершинные, чем нормальная, имеют положительный эксцесс, более плосковершинные - отрицательный.


Рис. 2. Кривые распределения с различной степенью крутости (эксцессом)


Моменты более высоких порядков в инженерных приложениях математической статистики обычно не применяются.

Мода дискретной случайной величины - это ее наиболее вероятное значение. Модой непрерывной случайной величины называется ее значение, при котором плотность вероятности максимальна (рис. 2). Если кривая распределения имеет один максимум, то распределение называется унимодальным. Если кривая распределения имеет более одного максимума, то распределение называется полимодальным. Иногда встречаются распределения, кривые которых имеют не максимум, а минимум. Такие распределения называются антимодальными. В общем случае мода и математическое ожидание случайной величины не совпадают. В частном случае, для модального, т.е. имеющего моду, симметричного распределения и при условии, что существует математическое ожидание, последнее совпадает с модой и центром симметрии распределения.

Медиана случайной величины Х - это ее значение Ме, для которого имеет место равенство: т.е. равновероятно, что случайная величина Х окажется меньше или больше Ме. Геометрически медиана - это абсцисса точки, в которой площадь под кривой распределения делится пополам. В случае симметричного модального распределения медиана, мода и математическое ожидание совпадают.


. Статистическая оценка законов распределения случайных величин


Генеральной совокупностью - называется совокупность всех подлежащих изучению объектов или возможных результатов всех наблюдений, производимых в одинаковых условиях над одним объектом.

Выборочной совокупностью или выборкой называется совокупность объектов или результатов наблюдения над объектом, отобранных случайным образом из генеральной совокупности.

Объемом выборки называется число объектов или наблюдений в выборке.

Конкретные значения выборки называются наблюдаемыми значениями случайной величины Х. Наблюдаемые значения заносятся в протокол. Протокол представляет собой таблицу. Составленный протокол является первичной формой записи обработки полученного материала. Для получения достоверных, надежных выводов выборка должна быть достаточно представительной по объему. Большая выборка - это неупорядоченное множество чисел. Для исследования выборку приводят к наглядному упорядоченному виду. Для этого в протоколе находят наибольшее и наименьшее значения случайной величины. Выборка, отсортированная по возрастанию, приведена в таблице 1.

Таблица 1. Протокол

8,66-5,49-4,11-3,48-2,9-2,32-1,82-1,09-0,440,64-8,31-4,71-3,92-3,41-2,85-2,31-1,82-1,01-0,430,71-8,23-4,68-3,85-3,33-2,83-2,29-1,8-0,99-0,430,73-7,67-4,6-3,85-3,25-2,77-2,27-1,77-0,95-0,310,99-6,64-4,43-3,81-3,08-2,72-2,25-1,73-0,89-0,31,03-6,6-4,38-3,8-3,07-2,67-2,19-1,38-0,70,041,05-6,22-4,38-3,77-3,01-2,6-2,15-1,32-0,560,081,13-5,87-4,25-3,73-3,01-2,49-2,09-1,3-0,510,151,76-5,74-4,18-3,59-2,99-2,37-2,01-1,28-0,490,262,95-5,68-4,14-3,49-2,98-2,33-1,91-1,24-0,480,534,42

Размахом выборки называется разность между наибольшим и наименьшим значением случайной величины Х:

Размах выборки разбивают на k интервалов - разрядов. Число разрядов устанавливают в зависимости от величины размаха выборки от 8 до 25, в этой курсовой работе примем k = 10.

Тогда длина интервала будет равна:

В протоколе подсчитаем число наблюдаемых значений, попавших в каждый интервал, обозначим их m1, m2,…, m10. .

Назовем mi частотой попадания случайной величины в i интервал. Если какое-либо наблюдаемое значение случайной величины совпадает с концом интервала, то это значение случайной величины по договоренности относят в один из интервалов.

После того как определили частоты mi, определим частости случайной величины, т.е. найдем отношение частот mi к общему числу наблюдаемых значений n.

Частость, условие полноты -

Найдем середину каждого интервала: .

Составим таблицу 2

Таблица значений границ интервалов и соответствующих частостей , где i = 1, 2, 3, …, k, называется статистическим рядом. Графическим изображением статистического ряда называется гистограмма. Она строится следующим образом: по оси абсцисс откладывают интервалы и на каждом таком интервале, как на основании, строится прямоугольник, площадь которого равна соответствующей частости.

, - высота прямоугольника, .


Таблица 2

Номер интервалаЛевая граница интервалаПравая граница интервалаИнтервалСередина интервалаЧастота интервалаЧастость интервалаВысота прямо-угольника1-8,66-7,352(-8,66; -7,352)-8,00640,040,03062-7,352-6,044(-7,352; -6,044)-6,69830,030,02293-6,044-4,736(-6,044; -4,736)-5,3940,040,03064-4,736-3,428(-4,736; -3,428)-4,082200,20,15295-3,428-2,12(-3,428; -2,12)-2,774260,260,19886-2,12-0,812(-2,12; -0,812)-1,466180,180,13767-0,8120,496(-0,812; 0,496)-0,158140,140,107080,4961,804(0,496; 1,804)1,1590,090,068891,8043,112(1,804; 3,112)2,45810,010,0076103,1124,42(3,112; 4,42)3,76610,010,0076Сумма1001

Рисунок 3


Статистической функцией распределения называется частость случайной величины, не превосходящая заданного значения Х:

Для дискретной случайной величины Х статистическая функция распределения находится по формуле:

Запишем статистическую функцию распределения в развернутом виде:

где - это середина интервала i, а - это соответствующие частости, где i=1, 2,…, k.

График статистической функции распределения есть ступенчатая линия, точками разрыва которой являются середины интервалов, а конечные скачки равны соответствующим частотам.


Рисунок 3


Вычисление числовых характеристик статистического ряда

Статистическое математическое ожидание,

Статистическая дисперсия,

Статистическое среднеквадратическое отклонение.

Статистическим математическим ожиданием или статистическим средним называется среднеарифметическое наблюдаемых значений случайной величины Х.

Статистической дисперсией называется среднеарифметическое значение величиныили

При большом объеме выборки вычисления по формулам и приводят к громоздким выкладкам. Для упрощения расчетов используют статистический ряд с границами и частостями , где i = 1, 2, 3, …, k, находят середины интервалов , а затем все элементы выборки, которые попали в интервал, заменяют единственным значением, тогда таких значений будетв каждом интервале .

где - среднее значение соответствующего интервала; - частость интервала

Таблица 4. Числовые характеристики

Частость PiXiPi(Xi-m)^2(Xi-m)^2*Pi1-8,0060,04-0,320231,486911,25952-6,6980,03-0,200918,518560,55563-5,390,04-0,21568,971940,35894-4,0820,20-0,81642,847050,56945-2,7740,26-0,72120,143880,03746-1,4660,18-0,26390,862450,15527-0,1580,14-0,02215,002740,700481,150,090,103512,564761,130892,4580,010,024623,548500,2355103,7660,010,037737,953980,3795Статистическое математическое ожидание-2,3947Статистическая дисперсия5,3822Статистическое среднее квадратическое отклонение2,3200

Определяет положение центра группировки наблюдаемых значений случайной величины.

, характеризуют рассеяние наблюдаемых значений случайной величины вокруг

Во всяком статистическом распределении неизбежно присутствуют элементы случайности. Однако при очень большом числе наблюдений эти случайности сглаживаются, и случайные явления обнаруживают присущую ему закономерность.

При обработке статистического материала приходится решать вопрос о том, как подобрать для данного статистического ряда теоретическую кривую. Эта теоретическая кривая распределения должна выражать существенные черты статистического распределения - эта задача называется задачей сглаживания или выравнивания статистического ряда.

Иногда общий вид распределения случайной величины Х вытекает из самой природы этой случайной величины.

Пусть случайная величина Х - это результат измерения некоторой физической величины прибора.

Х = точное значение физической величины + ошибка прибора.

Случайная ошибка прибора при измерении имеет суммарную природу и распределена по нормальному закону. Следовательно такое же распределение имеет случайная величина Х, т.е. нормальное распределение с плотностью вероятности:


Где , , .


Параметры и определяются так, чтобы числовые характеристики теоретического распределения были равны соответствующим числовым характеристикам статистического распределения. При нормальном распределении полагают, что ,,, тогда функция нормального распределения примет вид:

Таблица 5. Выравнивающая кривая

Номер интервалаСередина интервала XiТабулированная функцияНормальная кривая 1-8,0060-2,41870,02140,00922-6,6980-1,85490,07140,03083-5,3900-1,29110,17340,07474-4,0820-0,72730,30620,13205-2,7740-0,16350,39360,1697M-2,394700,39890,17206-1,46600,40030,36820,15877-0,15800,96410,25070,108081,15001,52790,12420,053592,45802,09170,04480,0193103,76602,65550,01170,0051

Теоретическую нормальную кривую строим по точкам на одном графике с гистограммой статистического ряда (Ошибка! Источник ссылки не найден).


Рисунок 6


Выравнивание статистической функции распределения

Статистическую функцию распределения выравниваем функцией распределения нормального закона:



где,, - функция Лапласа.


Таблица 7. Функция распределения

Номер интервалаСередина интервала XiФункция Лапласа Функция распределения1-8,0060-2,4187-0,49220,00782-6,6980-1,8549-0,46820,03183-5,3900-1,2911-0,40170,09834-4,0820-0,7273-0,26650,23355-2,7740-0,1635-0,06490,4351m-2,3947000,50006-1,46600,40030,15550,65557-0,15800,96410,33250,832581,15001,52790,43670,936792,45802,09170,48180,9818103,76602,65550,49600,9960

Строим график теоретической функции распределения по точкам / вместе с графиком статистической функции распределения.


Рисунок 6


Пусть изучается случайная величина Х с математическим ожиданием и дисперсией, оба параметра неизвестны.

Пусть х1, х2, х3, …, хn - выборка, полученная в результате проведения n независимых наблюдений случайной величины Х. Чтобы подчеркнуть случайный характер величин х1, х2, х3, …, хn перепишем их в виде:

Х1, Х2, Х3, …, Хn, где Хi - значение случайной величины Х в i-ом опыте.

Требуется на основании этих опытных данных оценить математическое ожидание и дисперсию случайной величины. Такие оценки называются точечными, в качестве оценки m и D можно принять статистическое математическое ожидание и статистическую дисперсию , где



До проведения опыта выборка Х1, Х2, Х3, …, Хn есть совокупность независимых случайных величин, которые имеют математическое ожидание и дисперсию, а значит распределение вероятности такие же как и сама случайная величина Х. Таким образом:


Где i = 1, 2, 3, …, n.


Исходя из этого, найдем математическое ожидание и дисперсию случайной величины (пользуясь свойствами математического ожидания).

Таким образом математическое ожидание статистического среднего равно точному значению математического ожидания m измеряемой величины, а дисперсия статистического среднего в n раз меньше дисперсии отдельных результатов измерений.


при


Это значит, что при большом объеме выборки N статистическое средние является величиной почти неслучайной, оно лишь незначительно отклоняется от точного значения случайной величины m. Этот закон называется законом больших чисел Чебышева.

Точечные оценки неизвестных значений математического ожидания и дисперсии имеют большое значение на первоначальном этапе обработки статических данных. Их недостаток в том, что неизвестно с кокой точностью они дают оцениваемый параметр.

Пусть по данной выборке Х1, Х2, Х3, …, Хn получены точные статистические оценки и, тогда числовые характеристики случайной величины Х будут приближенно равны . Для выборки небольшого объема вопрос поточности оценки существенен, т.к. между m и, D и будут недостаточно большие отклонения. Кроме того при решении практических задач требуется не только найти приближенные значения m и D, но и оценить их точность и надежность. Пусть , т.е. является точечной оценкой для m. Очевидно, чтотем точнее определяет m, чем меньше модуль разности . Пусть , где ?>0, тогда, чем меньше ?, тем точнее оценка m. Таким образом, ?>0 характеризует точность оценки параметра. Однако статистические методы не позволяют категорически утверждать, что оценка истинного значения m удовлетворяет, можно лишь говорить о вероятности ?, с которой это неравенство выполняется:

Таким образом, ? - это доверительная вероятность или надежность оценки , значение ? выбираются заранее в зависимости от решаемой задачи. Надежность ? принято выбирать 0.9; 0.95; 0.99; 0.999. События с такой вероятностью являются практически достоверными. По заданной доверительной вероятности можно найти число ?>0 из .

Тогда получим интервал, который накрывает с вероятностью ? истинное значение математического ожидания m, длина этого интервала равна 2?. Этот интервал называется доверительным интервалом . А такой способ оценки неизвестного параметра m - интервальным .



Пусть дана выборка Х1, Х2, Х3, …, Хn, и пусть по этой выборке найдено ,,.

Требуется найти доверительный интервал для математического ожидания m с доверительной вероятностью ?. Величина есть величина случайная с математическим ожиданием,.

Случайная величина имеет суммарную природу, при большом объеме выборки она распределена по закону близкому к нормальному. Тогда вероятность попадания случайной величины в интервал будет равна:


Где


Где - функция Лапласа.

Из формулы (3) и таблиц функции Лапласа находим число ?>0 и записываем доверительный интервал для точного значения случайной величины Х с надежностью ?.

В этой курсовой работе значение ? заменим, и тогда формула (3) примет вид:

Найдем доверительный интервал , в котором находится математическое ожидание. При ? = 0.99, n = 100, ,.

по таблицам Лапласа находим:

Отсюда ? = 0,5986.

Доверительный интервал, в котором с вероятностью 99% находится точное значение математического ожидания.


Заключение

случайный величина распределение экономический

Решение задач структурно-параметрической идентификации при ограниченных объемах выборок, которыми, как правило, обладают метрологи, обостряет проблему. В этом случае еще более важными оказываются корректность применения статистических методов анализа, использование оценок, обладающих наилучшими статистическими свойствами, и критериев, обладающих наибольшей мощностью.

При решении задач идентификации предпочтительнее опираться на классический подход. При идентификации рекомендуется рассматривать более широкое множество законов распределения, в том числе модели в виде смесей законов. В этом случае для любого эмпирического распределения мы всегда сможем построить адекватную, статистически существенно более обоснованную математическую модель.

Следует ориентироваться на использование и разработку программных систем, обеспечивающих решение задач структурно-параметрической идентификации законов распределений при любой форме регистрируемых наблюдений (измерений), включающих современные методы статистического анализа, ориентироваться на широкое, но корректное использование в исследованиях методов компьютерного моделирования. Мы уже видели, что для многих экспериментов нет никаких различий в подсчёте вероятностей событий, тогда как элементарные исходы в этих экспериментах очень различаются. Но нас и должны интересовать именно вероятности событий, а не структура пространства элементарных исходов. Поэтому пора во всех таких «похожих» экспериментах вместо самых разных элементарных исходов использовать, например, числа. Иначе говоря, каждому элементарному исходу поставить в соответствие некоторое вещественное число, и работать только с числами.

В настоящей лекции представлена систематизация отечественных и зарубежных методов и моделей анализа риска. Различают следующие методы анализа риска (рис. 3): детерминированные; вероятностно-статистические (статистические, теоретико-вероятностные и вероятностно-эвристические); в условиях неопределенности нестатистической природы (нечеткие и нейросетевые); комбинированные, включающие различные комбинации перечисленных выше методов (детерминированных и вероятностных; вероятностных и нечетких; детерминированных и статистических).

Детерминированные методы предусматривают анализ этапов развития аварий, начиная от исходного события через последовательность предполагаемых отказов до установившегося конечного состояния. Ход аварийного процесса изучается и предсказывается с помощью математических имитационных моделей. Недостатками метода являются: потенциальная возможность упустить редко реализующиеся, но важные цепочки развития аварий; сложность построения достаточно адекватных математических моделей; необходимость проведения сложных и дорогостоящих экспериментальных исследований.

Вероятностно-статистические методы анализа риска предполагают как оценку вероятности возникновения аварии, так и расчет относительных вероятностей того или иного пути развития процессов. При этом анализируются разветвленные цепочки событий и отказов, выбирается подходящий математический аппарат и оценивается полная вероятность аварии. Расчетные математические модели при этом можно существенно упростить по сравнению с детерминированными методами. Основные ограничения метода связаны с недостаточной статистикой по отказам оборудования. Кроме того, применение упрощенных расчетных схем снижает достоверность получаемых оценок риска для тяжелых аварий. Тем не менее, вероятностный метод в настоящее время считается одним из наиболее перспективных. На его основе построены различные методики оценки рисков , которые в зависимости от имеющейся исходной информации делятся на:

Статистические, когда вероятности определяются по имеющимся статистическим данным (при их наличии);

Теоретико-вероятностные, используемые для оценки рисков от редких событий, когда статистика практически отсутствует;

Вероятностно-эвристические, основанные на использовании субъективных вероятностей, получаемых с помощью экспертного оценивания. Используются при оценке комплексных рисков от совокупности опасностей, когда отсутствуют не только статистические данные, но и математические модели (или их точность слишком низка).



Методы анализа риска в условиях неопределенностей нестатистической природы предназначены для описания неопределенностей источника риска – ХОО, связанных с отсутствием или неполнотой информации о процессах возникновения и развития аварии; человеческими ошибками; допущениями применяемых моделей для описания развития аварийного процесса.

Все перечисленные выше методы анализа риска классифицируют по характеру исходной и результирующей информации на качественные и количественные .


Рис. 3. Классификация методов анализа риска

Методы количественного анализа риска характеризуются расчетом показателей риска. Проведение количественного анализа требует высокой квалификации исполнителей, большого объема информации по аварийности, надежности оборудования, учета особенностей окружающей местности, метеоусловий, времени пребывания людей на территории и вблизи объекта, плотности населения и других факторов.

Сложные и дорогостоящие расчеты зачастую дают значение риска, точность которого невелика. Для опасных производственных объектов точность расчетов индивидуального риска, даже в случае наличия всей необходимой информации, не выше одного порядка. При этом проведение количественной оценки риска более полезно для сравнения различных вариантов (например, размещения оборудования), чем для заключения о степени безопасности объекта. Зарубежный опыт показывает, что наибольший объем рекомендаций по обеспечению безопасности вырабатывается с применением качественных методов анализа риска, использующих меньший объем информации и затрат труда. Однако количественные методы оценки риска всегда очень полезны, а в некоторых ситуациях – единственно допустимы для сравнения опасностей различной природы и при экспертизе опасных производственных объектов.



К детерминированным методам относят следующие:

- качественные (проверочного листа (Check-list); “Что будет если?” (What - If); Предварительный анализ опасности (Process Hazard and Analysis) (PHA); “Анализ вида и последствий отказов” (АВПО) (Failure Mode and Effects Analysis) (FMEA); Анализ ошибочных действий (Action Errors Analysis) (AEA); Концептуальный анализ риска (Concept Hazard Analysis) (CHA); Концептуальный обзор безопасности (Concept Safety Review) (CSR); Анализ человеческих ошибок (Human Hazard and Operability) (HumanHAZOP); Анализ влияния человеческого фактора (Human Reliability Analysis) (HRA) и ошибки персонала (Human Errors or Interactions) (HEI); Логического анализа;

- количественные (Методы, основанные на распознавании образов (кластерный анализ); Ранжирование (экспертные оценки); Методика определения и ранжирования риска (Hazard Identification and Ranking Analysis) (HIRA); Анализ вида, последствий и критичности отказа (АВПКО) (Failure Mode, Effects and Critical Analysis) (FMECA); Методика анализа эффекта домино (Methodology of domino effects analysis); Методика определения и оценки потенциального риска (Methods of potential risk determination and evaluation)); Количественное определение влияния на надежность человеческого фактора (Human Reliability Quantification) (HRQ).

К вероятностно-статистическим методам относятся:

Статистические: качественные методы (карты потоков) и количественные методы (контрольные карты).

К теоретико-вероятностным методам относятся:

- качественные (Причины последовательности несчастных случаев (Accident Sequences Precursor) (ASP));

- количественные (Анализ деревьев событий) (АДС) (Event Tree Analysis) (ETA); Анализ деревьев отказов (АДО) (Fault Tree Analysis) (FTA); Оценка риска минимальных путей от инициирующего до основного события (Short Cut Risk Assessment) (SCRA); Дерево решений; Вероятностная оценка риска ХОО.

К вероятностно-эвристическим методам относятся:

- качественные – экспертного оценивания, метод аналогий;

- количественные – балльных оценок, субъективных вероятностей оценки опасных состояний, согласования групповых оценок и т.п.

Вероятностно-эвристические методы используются при недостатке статистических данных и в случае редких событий, когда возможности применения точных математических методов ограничены из-за отсутствия достаточной статистической информации о показателях надежности и технических характеристиках систем, а также из-за отсутствия надежных математических моделей, описывающих реальное состояние системы. Вероятностно-эвристические методы основываются на использовании субъективных вероятностей, получаемых с помощью экспертного оценивания.

Выделяют два уровня использования экспертных оценок: качественный и количественный. На качественном уровне определяются возможные сценарии развития опасной ситуации из-за отказа системы, выбор окончательного варианта решения и др. Точность количественных (балльных) оценок зависит от научной квалификации экспертов, их способностей оценивать те или иные состояния, явления, пути развития ситуации. Поэтому при проведении экспертных опросов для решения задач анализа и оценки риска необходимо использовать методы согласования групповых решений на основе коэффициентов конкордации; построения обобщенных ранжировок по индивидуальным ранжировкам экспертов с использованием метода парных сравнений и другие. Для анализа различных источников опасности химических производств методы на основе экспертных оценок могут использоваться для построения сценариев развития аварий, связанных с отказами технических средств, оборудования и установок; для ранжирования источников опасности.

К методам анализа риска в условиях неопределенности нестатистической природы относятся:

- нечеткие качественные (Метод анализа опасности и работоспособности (АОР) (Hazard and Operability Study) (HAZOP)и Методы, основанные на распознавании образов (нечеткая логика));

- нейросетевые методы прогнозирования отказов технических средств и систем, технологических нарушений и отклонений состояний технологических параметров процессов; поиска управляющих воздействий, направленных на предотвращение возникновения аварийных ситуаций, и идентификации предаварийных ситуаций на химически опасных объектах.

Заметим, что анализ неопределенностей в процессе оценки риска – это перевод неопределенности исходных параметров и предположений, использованных при оценке риска в неопределенности результатов.

Для достижения желаемого результата освоения дисциплины, будут подробно рассмотрены на практических занятиях следующие СМММ СТО:

1. Основы вероятностных методов анализа и моделирования СС;

2. Статистические математические метолы и модели сложных систем;

3. Основы теории информации;

4. Методы оптимизации;

Заключительная часть. (В заключительной части подводится краткий итог лекции и даются рекомендации по самостоятельной работе для углубления, расширения и практического применения знаний по данной теме).

Таким образом, были рассмотрены основные понятия и определения техносферы, системный анализ сложных систем и различные способы решения задач проектирования сложных техносферных систем и объектов.

Практическое занятие по данной теме будет посвящено примерам проектов сложных систем с использованием системного и вероятностного подходов.

В конце занятия преподаватель отвечает на вопросы по материалу лекции и объявляет задание на самоподготовку:

2) доработать конспект лекции примерами систем большого масштаба: транспорт, связь, промышленность, коммерция, системами видеонаблюдения и системы глобального контроля за лесными пожарами.

Разработал:

доцент кафедры О.М. Медведева


Лист регистрации изменений

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Введение

1. Распределение "хи-квадрат"

Заключение

Приложение

Введение

Как подходы, идеи и результаты теории вероятностей используются в нашей жизни? математический квадрат теория

Базой является вероятностная модель реального явления или процесса, т.е. математическая модель, в которой объективные соотношения выражены в терминах теории вероятностей. Вероятности используются, прежде всего, для описания неопределенностей, которые необходимо учитывать при принятии решений. Имеются в виду, как нежелательные возможности (риски), так и привлекательные ("счастливый случай"). Иногда случайность вносится в ситуацию сознательно, например, при жеребьевке, случайном отборе единиц для контроля, проведении лотерей или опросов потребителей.

Теория вероятностей позволяет по одним вероятностям рассчитать другие, интересующие исследователя.

Вероятностная модель явления или процесса является фундаментом математической статистики. Используются два параллельных ряда понятий - относящиеся к теории (вероятностной модели) и относящиеся к практике (выборке результатов наблюдений). Например, теоретической вероятности соответствует частота, найденная по выборке. Математическому ожиданию (теоретический ряд) соответствует выборочное среднее арифметическое (практический ряд). Как правило, выборочные характеристики являются оценками теоретических. При этом величины, относящиеся к теоретическому ряду, "находятся в головах исследователей", относятся к миру идей (по древнегреческому философу Платону), недоступны для непосредственного измерения. Исследователи располагают лишь выборочными данными, с помощью которых они стараются установить интересующие их свойства теоретической вероятностной модели.

Зачем же нужна вероятностная модель? Дело в том, что только с ее помощью можно перенести свойства, установленные по результатам анализа конкретной выборки, на другие выборки, а также на всю так называемую генеральную совокупность. Термин "генеральная совокупность" используется, когда речь идет о большой, но конечной совокупности изучаемых единиц. Например, о совокупности всех жителей России или совокупности всех потребителей растворимого кофе в Москве. Цель маркетинговых или социологических опросов состоит в том, чтобы утверждения, полученные по выборке из сотен или тысяч человек, перенести на генеральные совокупности в несколько миллионов человек. При контроле качества в роли генеральной совокупности выступает партия продукции.

Чтобы перенести выводы с выборки на более обширную совокупность, необходимы те или иные предположения о связи выборочных характеристик с характеристиками этой более обширной совокупности. Эти предположения основаны на соответствующей вероятностной модели.

Конечно, можно обрабатывать выборочные данные, не используя ту или иную вероятностную модель. Например, можно рассчитывать выборочное среднее арифметическое, подсчитывать частоту выполнения тех или иных условий и т.п. Однако результаты расчетов будут относиться только к конкретной выборке, перенос полученных с их помощью выводов на какую-либо иную совокупность некорректен. Иногда подобную деятельность называют "анализ данных". По сравнению с вероятностно-статистическими методами анализ данных имеет ограниченную познавательную ценность.

Итак, использование вероятностных моделей на основе оценивания и проверки гипотез с помощью выборочных характеристик - вот суть вероятностно-статистических методов принятия решений.

1. Распределение "хи-квадрат"

С помощью нормального распределения определяются три распределения, которые в настоящее время часто используются при статистической обработке данных. Это распределения Пирсона ("хи - квадрат"), Стьюдента и Фишера.

Мы остановимся на распределении ("хи - квадрат"). Впервые это распределение было исследовано астрономом Ф.Хельмертом в 1876 году. В связи с гауссовской теорией ошибок он исследовал суммы квадратов n независимых стандартно нормально распределенных случайных величин. Позднее Карл Пирсон (Karl Pearson) дал имя данной функции распределения "хи - квадрат". И сейчас распределение носит его имя.

Благодаря тесной связи с нормальным распределением, ч2-распределение играет важную роль в теории вероятностей и математической статистике. ч2-распределение, и многие другие распределения, которые определяются посредством ч2-распределения (например - распределение Стьюдента), описывают выборочные распределения различных функций от нормально распределенных результатов наблюдений и используются для построения доверительных интервалов и статистических критериев.

Распределение Пирсона (хи - квадрат) - распределение случайной величиныгде X1, X2,…, Xn - нормальные независимые случайные величины, причем математическое ожидание каждой из них равно нулю, а среднее квадратическое отклонение - единице.

Сумма квадратов

распределена по закону ("хи - квадрат").

При этом число слагаемых, т.е. n, называется "числом степеней свободы" распределения хи - квадрат. C увеличением числа степеней свободы распределение медленно приближается к нормальному.

Плотность этого распределения

Итак, распределение ч2 зависит от одного параметра n - числа степеней свободы.

Функция распределения ч2 имеет вид:

если ч2?0. (2.7.)

На Рисунке 1 изображен график плотности вероятности и функции ч2 - распределения для разных степеней свободы.

Рисунок 1 Зависимость плотности вероятности ц (x) в распределении ч2 (хи - квадрат) при разном числе степеней свободы

Моменты распределения "хи-квадрат":

Распределение "хи-квадрат" используют при оценивании дисперсии (с помощью доверительного интервала), при проверке гипотез согласия, однородности, независимости, прежде всего для качественных (категоризованных) переменных, принимающих конечное число значений, и во многих других задачах статистического анализа данных.

2. "Хи-квадрат" в задачах статистического анализа данных

Статистические методы анализа данных применяются практически во всех областях деятельности человека. Их используют всегда, когда необходимо получить и обосновать какие-либо суждения о группе (объектов или субъектов) с некоторой внутренней неоднородностью.

Современный этап развития статистических методов можно отсчитывать с 1900 г., когда англичанин К. Пирсон основал журнал "Biometrika". Первая треть ХХ в. прошла под знаком параметрической статистики. Изучались методы, основанные на анализе данных из параметрических семейств распределений, описываемых кривыми семейства Пирсона. Наиболее популярным было нормальное распределение. Для проверки гипотез использовались критерии Пирсона, Стьюдента, Фишера. Были предложены метод максимального правдоподобия, дисперсионный анализ, сформулированы основные идеи планирования эксперимента.

Распределение "хи-квадрат" является одним из наиболее широко используемых в статистике для проверки статистических гипотез. На основе распределения "хи-квадрат" построен один из наиболее мощных критериев согласия - критерий "хи-квадрата" Пирсона.

Критерием согласия называют критерий проверки гипотезы о предполагаемом законе неизвестного распределения.

Критерий ч2 ("хи-квадрат") используется для проверки гипотезы различных распределений. В этом заключается его достоинство.

Расчетная формула критерия равна

где m и m" - соответственно эмпирические и теоретические частоты

рассматриваемого распределения;

n - число степеней свободы.

Для проверки нам необходимо сравнивать эмпирические (наблюдаемые) и теоретические (вычисленные в предположении нормального распределения) частоты.

При полном совпадении эмпирических частот с частотами, вычисленными или ожидаемыми S (Э - Т) = 0 и критерий ч2 тоже будет равен нулю. Если же S (Э - Т) не равно нулю это укажет на несоответствие вычисленных частот эмпирическим частотам ряда. В таких случаях необходимо оценить значимость критерия ч2, который теоретически может изменяться от нуля до бесконечности. Это производится путем сравнения фактически полученной величины ч2ф с его критическим значением (ч2st).Нулевая гипотеза, т. е. предположение, что расхождение между эмпирическими и теоретическими или ожидаемыми частотами носит случайный характер, опровергается, если ч2ф больше или равно ч2st для принятого уровня значимости (a) и числа степеней свободы (n).

Распределение вероятных значений случайной величины ч2 непрерывно и ассиметрично. Оно зависит от числа степеней свободы (n) и приближается к нормальному распределению по мере увеличения числа наблюдений. Поэтому применение критерия ч2 к оценке дискретных распределений сопряжено с некоторыми погрешностями, которые сказываются на его величине, особенно на малочисленных выборках. Для получения более точных оценок выборка, распределяемая в вариационный ряд, должна иметь не менее 50 вариантов. Правильное применение критерия ч2 требует также, чтобы частоты вариантов в крайних классах не были бы меньше 5; если их меньше 5, то они объединяются с частотами соседних классов, чтобы в сумме составляли величину большую или равную 5. Соответственно объединению частот уменьшается и число классов (N). Число степеней свободы устанавливается по вторичному числу классов с учетом числа ограничений свободы вариации.

Так как точность определения критерия ч2 в значительной степени зависит от точности расчета теоретических частот (Т), для получения разности между эмпирическими и вычисленными частотами следует использовать неокругленные теоретические частоты.

В качестве примера возьмем исследование, опубликованное на сайте, который посвящен применению статистических методов в гуманитарных науках.

Критерий "Хи-квадрат" позволяет сравнивать распределения частот вне зависимости от того, распределены они нормально или нет.

Под частотой понимается количество появлений какого-либо события. Обычно, с частотой появления события имеют дело, когда переменные измерены в шкале наименований и другой их характеристики, кроме частоты подобрать невозможно или проблематично. Другими словами, когда переменная имеет качественные характеристики. Так же многие исследователи склонны переводить баллы теста в уровни (высокий, средний, низкий) и строить таблицы распределений баллов, чтобы узнать количество человек по этим уровням. Чтобы доказать, что в одном из уровней (в одной из категорий) количество человек действительно больше (меньше) так же используется коэффициент Хи-квадрат.

Разберем самый простой пример.

Среди младших подростков был проведён тест для выявления самооценки. Баллы теста были переведены в три уровня: высокий, средний, низкий. Частоты распределились следующим образом:

Высокий (В) 27 чел.

Средний (С) 12 чел.

Низкий (Н) 11 чел.

Очевидно, что детей с высокой самооценкой большинство, однако это нужно доказать статистически. Для этого используем критерий Хи-квадрат.

Наша задача проверить, отличаются ли полученные эмпирические данные от теоретически равновероятных. Для этого необходимо найти теоретические частоты. В нашем случае, теоретические частоты - это равновероятные частоты, которые находятся путём сложения всех частот и деления на количество категорий.

В нашем случае:

(В + С + Н)/3 = (27+12+11)/3 = 16,6

Формула для расчета критерия хи-квадрат:

ч2 = ?(Э - Т)І / Т

Строим таблицу:

Эмпирич. (Э)

Теоретич. (Т)

(Э - Т)І / Т

Находим сумму последнего столбца:

Теперь нужно найти критическое значение критерия по таблице критических значений (Таблица 1 в приложении). Для этого нам понадобится число степеней свободы (n).

n = (R - 1) * (C - 1)

где R - количество строк в таблице, C - количество столбцов.

В нашем случае только один столбец (имеются в виду исходные эмпирические частоты) и три строки (категории), поэтому формула изменяется - исключаем столбцы.

n = (R - 1) = 3-1 = 2

Для вероятности ошибки p?0,05 и n = 2 критическое значение ч2 = 5,99.

Полученное эмпирическое значение больше критического - различия частот достоверны (ч2= 9,64; p?0,05).

Как видим, расчет критерия очень прост и не занимает много времени. Практическая ценность критерия хи-квадрат огромна. Этот метод оказывается наиболее ценным при анализе ответов на вопросы анкет.

Разберем более сложный пример.

К примеру, психолог хочет узнать, действительно ли то, что учителя более предвзято относятся к мальчикам, чем к девочкам. Т.е. более склонны хвалить девочек. Для этого психологом были проанализированы характеристики учеников, написанные учителями, на предмет частоты встречаемости трех слов: "активный", "старательный", "дисциплинированный", синонимы слов так же подсчитывались.

Данные о частоте встречаемости слов были занесены в таблицу:

Для обработки полученных данных используем критерий хи-квадрат.

Для этого построим таблицу распределения эмпирических частот, т.е. тех частот, которые мы наблюдаем:

Теоретически, мы ожидаем, что частоты распределятся равновероятно, т.е. частота распределится пропорционально между мальчиками и девочками. Построим таблицу теоретических частот. Для этого умножим сумму по строке на сумму по столбцу и разделим получившееся число на общую сумму (s).

Итоговая таблица для вычислений будет выглядеть так:

Эмпирич. (Э)

Теоретич. (Т)

(Э - Т)І / Т

Мальчики

"Активный"

"Старательный"

"Дисциплинированный"

"Активный"

"Старательный"

"Дисциплинированный"

Сумма: 4,21

ч2 = ?(Э - Т)І / Т

где R - количество строк в таблице.

В нашем случае хи-квадрат = 4,21; n = 2.

По таблице критических значений критерия находим: при n = 2 и уровне ошибки 0,05 критическое значение ч2 = 5,99.

Полученное значение меньше критического, а значит принимается нулевая гипотеза.

Вывод: учителя не придают значение полу ребенка при написании ему характеристики.

Заключение

Студенты почти всех специальностей изучают в конце курса высшей математики раздел "теория вероятностей и математическая статистика", реально они знакомятся лишь с некоторыми основными понятиями и результатами, которых явно не достаточно для практической работы. С некоторыми математическими методами исследования студенты встречаются в специальных курсах (например, таких, как "Прогнозирование и технико-экономическое планирование", "Технико-экономический анализ", "Контроль качества продукции", "Маркетинг", "Контроллинг", "Математические методы прогнозирования", "Статистика" и др. - в случае студентов экономических специальностей), однако изложение в большинстве случаев носит весьма сокращенный и рецептурный характер. В результате знаний у специалистов по прикладной статистике недостаточно.

Поэтому большое значение имеет курс "Прикладная статистика" в технических вузах, а в экономических вузах - курса "Эконометрика", поскольку эконометрика - это, как известно, статистический анализ конкретных экономических данных.

Теория вероятности и математическая статистика дают фундаментальные знания для прикладной статистики и эконометрики.

Они необходимы специалистам для практической работы.

Я рассмотрела непрерывную вероятностную модель и постаралась на примерах показать ее используемость.

И в конце своей работы я пришла к выводу, что грамотная реализация основных процедур математико-статического анализа данных, статическая проверка гипотез невозможна без знания модели "хи-квадрат", а также умения пользоваться ее таблицей.

Список используемой литературы

1. Орлов А.И. Прикладная статистика. М.: Издательство "Экзамен", 2004.

2. Гмурман В.Е. Теория вероятностей и математическая статистика. М.: Высшая школа, 1999. - 479с.

3. Айвозян С.А. Теория вероятностей и прикладная статистика, т.1. М.: Юнити, 2001. - 656с.

4. Хамитов Г.П., Ведерникова Т.И. Вероятности и статистика. Иркутск: БГУЭП, 2006 - 272с.

5. Ежова Л.Н. Эконометрика. Иркутск: БГУЭП, 2002. - 314с.

6. Мостеллер Ф. Пятьдесят занимательных вероятностных задач с решениями. М.: Наука, 1975. - 111с.

7. Мостеллер Ф. Вероятность. М.: Мир, 1969. - 428с.

8. Яглом А.М. Вероятность и информация. М.: Наука, 1973. - 511с.

9. Чистяков В.П. Курс теории вероятностей. М.: Наука, 1982. - 256с.

10. Кремер Н.Ш. Теория вероятностей и математическая статистика. М.: ЮНИТИ, 2000. - 543с.

11. Математическая энциклопедия, т.1. М.: Советская энциклопедия, 1976. - 655с.

12. http://psystat.at.ua/ - Статистика в психологии и педагогике. Статья Критерий Хи-квадрат.

Приложение

Критические точки распределения ч2

Таблица 1

Размещено на Allbest.ru

...

Подобные документы

    Вероятностная модель и аксиоматика А.Н. Колмогорова. Случайные величины и векторы, классическая предельная проблема теории вероятностей. Первичная обработка статистических данных. Точечные оценки числовых характеристик. Статистическая проверка гипотез.

    методичка , добавлен 02.03.2010

    Правила выполнения и оформления контрольных работ для заочного отделения. Задания и примеры решения задач по математической статистике и теории вероятности. Таблицы справочных данных распределений, плотность стандартного нормального распределения.

    методичка , добавлен 29.11.2009

    Основные методы формализованного описания и анализа случайных явлений, обработки и анализа результатов физических и численных экспериментов теории вероятности. Основные понятия и аксиомы теории вероятности. Базовые понятия математической статистики.

    курс лекций , добавлен 08.04.2011

    Определение закона распределения вероятностей результатов измерения в математической статистике. Проверка соответствия эмпирического распределения теоретическому. Определение доверительного интервала, в котором лежит значение измеряемой величины.

    курсовая работа , добавлен 11.02.2012

    Сходимость последовательностей случайных величин и вероятностных распределений. Метод характеристических функций. Проверка статистических гипотез и выполнение центральной предельной теоремы для заданных последовательностей независимых случайных величин.

    курсовая работа , добавлен 13.11.2012

    Основные этапы обработки данных натуральных наблюдений методом математической статистики. Оценка полученных результатов, их использование при принятии управленческих решений в области охраны природы и природопользования. Проверка статистических гипотез.

    практическая работа , добавлен 24.05.2013

    Сущность закона распределения и его практическое применение для решения статистических задач. Определение дисперсии случайной величины, математического ожидания и среднеквадратического отклонения. Особенности однофакторного дисперсионного анализа.

    контрольная работа , добавлен 07.12.2013

    Вероятность и ее общее определение. Теоремы сложения и умножения вероятностей. Дискретные случайные величины и их числовые характеристики. Закон больших чисел. Статистическое распределение выборки. Элементы корреляционного и регрессионного анализа.

    курс лекций , добавлен 13.06.2015

    Программа курса, основные понятия и формулы теории вероятностей, их обоснование и значение. Место и роль математической статистики в дисциплине. Примеры и разъяснения по решению самых распространенных задач по различным темам данных учебных дисциплин.

    методичка , добавлен 15.01.2010

    Теория вероятностей и математическая статистика являются науками о методах количественного анализа массовых случайных явлений. Множество значений случайной величины называется выборкой, а элементы множества – выборочными значениями случайной величины.

Вверх