СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ЗАКОНЫ ИХ РАСПРЕДЕЛЕНИЯ.
Случайной называют такую величину, которая принимает значения в зависимости от стечения случайных обстоятельств. Различают дискретные и случайные непрерывные величины.
Дискретной называют величину, если она принимает счетное множество значений. (Пример: число пациентов на приеме у врача, число букв на странице, число молекул в заданном объеме).
Непрерывной называют величину, которая может принимать значения внутри некоторого интервала. (Пример: температура воздуха, масса тела, рост человека и т.д.)
Законом распределения случайной величины называется совокупность возможных значений этой величины и, соответствующих этим значениям, вероятностей (или частот встречаемости).
П р и м е р:
x | x 1 | x 2 | x 3 | x 4 | ... | x n |
p | р 1 | р 2 | р 3 | р 4 | ... | p n |
x | x 1 | x 2 | x 3 | x 4 | ... | x n |
m | m 1 | m 2 | m 3 | m 4 | ... | m n |
ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН.
Во многих случаях наряду с распределением случайной величины или вместо него информацию об этих величинах могут дать числовые параметры, получившие название числовых характеристик случайной величины . Наиболее употребительные из них:
1 .Математическое ожидание - (среднее значение) случайной величины есть сумма произведений всех возможных ее значений на вероятности этих значений:
2 .Дисперсия случайной величины:
3 .Среднее квадратичное отклонение :
Правило “ТРЕХ СИГМ” - если случайная величина распределена по нормальному закону, то отклонение этой величины от среднего значения по абсолютной величине не превосходит утроенного среднего квадратичного отклонения
ЗАОН ГАУССА – НОРМАЛЬНЫЙ ЗАКОН РАСПРЕДЕЛЕНИЯ
Часто встречаются величины, распределенные по нормальному закону (закон Гаусса). Главная особенность : он является предельным законом, к которому приближаются другие законы распределения.
Случайная величина распределена по нормальному закону, если ее плотность вероятности имеет вид:
M(X) - математическое ожидание случайной величины;
s - среднее квадратичное отклонение.
Плотность вероятности (функция распределения) показывает, как меняется вероятность, отнесенная к интервалу dx случайной величины, в зависимости от значения самой величины:
ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
Математическая статистика - раздел прикладной математики, непосредственно примыкающий к теории вероятностей. Основное отличие математической статистики от теории вероятностей состоит в том, что в математической статистике рассматриваются не действия над законами распределения и числовыми характеристиками случайных величин, а приближенные методы отыскания этих законов и числовых характеристик по результатам экспериментов.
Основными понятиями математической статистики являются:
1. Генеральная совокупность;
2. выборка;
3. вариационный ряд;
4. мода;
5. медиана;
6. процентиль,
7. полигон частот,
8. гистограмма.
Генеральная совокупность - большая статистическая совокупность, из которой отбирается часть объектов для исследования
(Пример: все население области, студенты вузов данного города и т.д.)
Выборка (выборочная совокупность) - множество объектов, отобранных из генеральной совокупности.
Вариационный ряд - статистическое распределение, состоящее из вариант (значений случайной величины) и соответствующих им частот.
Пример:
X,кг | ||||||||||||
m |
x - значение случайной величины (масса девочек в возрасте 10 лет);
m - частота встречаемости.
Мода – значение случайной величины, которому соответствует наибольшая частота встречаемости. (В приведенном выше примере моде соответствует значение 24 кг, оно встречается чаще других: m = 20).
Медиана – значение случайной величины, которое делит распределение пополам: половина значений расположена правее медианы, половина (не больше) – левее.
Пример:
1, 1, 1, 1, 1. 1, 2, 2, 2, 3 , 3, 4, 4, 5, 5, 5, 5, 6, 6, 7 , 7, 7, 7, 7, 7, 8, 8, 8, 8, 8 , 8, 9, 9, 9, 10, 10, 10, 10, 10, 10
В примере мы наблюдаем 40 значений случайной величины. Все значения расположены в порядке возрастания с учетом частоты их встречаемости. Видно, что справа от выделенного значения 7 расположены 20 (половина) из 40 значений. Стало быть, 7 – это медиана.
Для характеристики разброса найдем значения, не выше которых оказалось 25 и 75% результатов измерения. Эти величины называются 25-м и 75-м процентилями . Если медиана делит распределение пополам, то 25-й и 75-й процентили отсекают от него по четвертушке. (Саму медиану, кстати, можно считать 50-м процентилем.) Как видно из примера, 25-й и 75-й процентили равны соответственно 3 и 8.
Используют дискретное (точечное) статистическое распределение инепрерывное (интервальное) статистическое распределение.
Для наглядности статистические распределения изображают графически в виде полигона частот или - гистограммы .
Полигон частот - ломаная линия, отрезки которой соединяют точки с координатами (x 1 ,m 1 ), (x 2 ,m 2 ), ..., или для полигона относительных частот – с координатами (x 1 ,р * 1 ), (x 2 ,р * 2 ), ...(Рис.1).
m m i /n f(x)
Рис.1 Рис.2
Гистограмма частот - совокупность смежных прямоугольников, построенных на одной прямой линии (Рис.2), основания прямоугольников одинаковы и равны dx , а высоты равны отношению частоты к dx , или р * к dx (плотность вероятности).
Пример:
х, кг | 2,7 | 2,8 | 2,9 | 3,0 | 3,1 | 3,2 | 3,3 | 3,4 | 3,5 | 3,6 | 3,7 | 3,8 | 3,9 | 4,0 | 4,1 | 4,2 | 4,3 | 4,4 |
m |
Полигон частот
Отношение относительной частоты к ширине интервала носит название плотности вероятности f(x)=m i / n dx = p* i / dx
Пример построения гистограммы .
Воспользуемся данными предыдущего примера.
1. Расчет количества классовых интервалов
гдеn - число наблюдений. В нашем случае n = 100 . Следовательно:
2. Расчет ширины интервала dх :
,
3. Составление интервального ряда:
dх | 2.7-2.9 | 2.9-3.1 | 3.1-3.3 | 3.3-3.5 | 3.5-3.7 | 3.7-3.9 | 3.9-4.1 | 4.1-4.3 | 4.3-4.5 |
m | |||||||||
f(x) | 0.3 | 0.75 | 1.25 | 0.85 | 0.55 | 0.6 | 0.4 | 0.25 | 0.05 |
Гистограмма
Одесский национальный медицинский университет Кафедра биофизики, информатики и медицинской аппаратуры Методические указания студентам 1 курса по теме “Основы математической статистики” Одесса 2009 г.Математическая статистика – это раздел математики, которая изучает методы собирания, систематизации и обработки результатов наблюдений массовых случайных событий с целью выяснения и практического применения существующих закономерностей. Методы математической статистики нашли широкое применение в клинической медицине и здравоохранении. Они используются, в частности, при разработке математических методов медицинской диагностики, в теории эпидемий, в планировании и обработке результатов медицинского эксперимента, в организации здравоохранения. Статистические концепции, сознательно или бессознательно, используются при принятии решений в таких вопросах, как клинический диагноз, прогнозирование течения болезни у отдельного больного, прогнозирование возможных результатов осуществления тех или других программ в данной группе населения и выбор надлежащей программы в конкретных обстоятельствах. Знакомство с идеями и методами математической статистики является необходимым элементом профессионального образования каждого работника здравоохранения.
3. Целые занятия. Общая цель занятия есть научиться студентам сознательно использовать математическую статистику при решении задач медико-биологического профиля. Конкретные целые занятия:Применение статистики в здравоохранении необходимо как на уровне сообщества, так и на уровне отдельных пациентов. Медицина имеет дело с индивидуумами, которые отличаются друг от друга по многим характеристикам, и значение показателей, на основе которых человека можно считать здоровой, варьируются от одного индивидуума к другому. Нет двух абсолютно одинаковых пациентов или двух групп пациентов, поэтому решение, которые касаются отдельных больных или групп населень, приходится принимать, исходя из опыта, накопленного на других больных или популяціних группах с похожими биологическими характеристиками. Необходимо осознавать, что учитывая существующие расхождения эти решения не могут быть абсолютно точными - они всегда связаны с некоторой неопределенностью. Именно в этом состоит ймовірносна природа медицины.
Задача выборочного метода заключается в том, чтобы по полученной избирателю сделать правильную оценку случайной величины, которая изучается. Поэтому основное требование, которое пред"яв-ляється к виборки, это максимальное отображение всех черт генеральной совокупности. Виборка, что удовлетворяет этому требованию, называется репрезентативной. От репрезентативности виборки зависит обгрунтованість оценки, то есть степень соответствия оценки параметру, который она характеризует .
Выводы, которые получаются методами математической статистики, всегда основываются на ограниченном, выборочном числе наблюдений, поэтому природньо, что для второй виборки результаты могут быть другими. Это обстоятельство определяет ймовірносний характер выводов математической статистики и, как следствие, широкое использование теории вероятностей в практике статистического исследования.
уменьшается с ростомn, итак, при постоянной величине надежного интервала с ростомn растет и . При постоянной надежной вероятности с ростом объема виборкип уменьшается величина надежного интервала. При планировании медицинских исследований эта связь используют для определения минимального объема виборки, который обеспечит нужны по условиям решаемой задачи величины надежного интервала и надежной вероятности.
Математическая статистика - это раздел математики, посвященный методам сбора, анализа и обработки результатов статистических данных наблюдений для научных и практических целей. Методы математической статистики используют в тех случаях, когда изучают распределение массовых явлений , т.е. большой совокупности предметов или явлений, распределенных по определенному признаку .
Пусть подлежит изучению совокупность однородных объектов, объединенных общим признаком или свойством качественного или количественного характера. Отдельные элементы такой совокупности называются ее членами. Все число членов совокупности составляет ее объем . Совокупность всех объектов, объединенных по некоторому признаку, будем называть генеральной совокупностью . Например, изучается доход населения, рыночная стоимость акций или отклонение от Госстандарта в ходе качественной оценки изготавливаемой продукции.
Математическая статистика тесно связана с теорией вероятности и опирается на ее выводы. В частности, понятию генеральной совокупности в математической статистике соответствует понятие пространства элементарных событий в теории вероятностей.
Изучение всей генеральной совокупности чаще всего невозможно или нецелесообразно из-за значительных материальных затрат, порчи или уничтожения объекта исследования. Так, невозможно получить объективную и полную информацию о доходе населения всего региона, т.е. каждого конкретного его обитателя. В связи с порчей объекта исследования, невозможно получить достоверную информацию о качестве, например, некоторых лекарственных средств или продуктов питания.
Основная задача математической статистики заключается в исследовании генеральной совокупности по выборочным данным в зависимости от поставленной цели, то есть изучение вероятностных свойств совокупности: закона распределения, числовых характеристик и т.д. для принятия управленческих решений в условиях неопределенности.
Одним из методов математической статистики является выборочный метод . На практике чаще всего исследуется не вся генеральная совокупность, а ограниченного объема выборка из нее.
Выборкой
(выборочной совокупностью) называют
совокупность случайно отобранных
объектов. С помощью выборочного метода
исследуется не вся генеральная
совокупность, а выборка (х
1 ,
х
2 ,...,x
n
)
как результат ограниченного ряда
наблюдений. Затем по вероятностным
свойствам данной выборки из некоторой
генеральной совокупности выносится
суждение о всей генеральной совокупности.
Для получения выборки применяют различные
методы отбора. Объекты исследования
после изучения можно
в генеральную совокупность, что
соответствует
выборке.
Выборка называется репрезентативной или представительной , если она хорошо воспроизводит генеральную совокупность, то есть вероятностные свойства выборки совпадают или близки к свойствам самой генеральной совокупности.
Итак, результативность применения выборочного метода повышается при соблюдении ряда условий, к которым можно отнести следующие:
Количество исследуемых элементов выборки достаточно для выводов , то есть выборка представительна или «репрезентативна ».
Так, достаточное количество деталей в партии, проверяемой на качество (брак), устанавливается с помощью законов теории вероятностей и математической статистики.
Элементы выборки должны быть разнообразны, взяты случайно, т.е. должен соблюдаться принцип рандомизации.
Изучаемый признак – характерен , типичен для всех элементов множества изучаемых объектов – т.е. для всей генеральной совокупности.
Изучаемый признак является существенным для всех элементов данного класса.
Изменение признака статистической совокупности, изучаемого выборочным методом, называется вариацией , а наблюдаемые значения признака x i - вариантой. Абсолютной частотой (частотой или частостью ) варианты x i называется число членов совокупности (генеральной или выборки), имеющих значение x i (т.е. это число частиц i - го сорта).
Ранжированная группировка вариант по отдельным значениям признака (или по интервалам изменения), т.е. последовательность вариант, расположенная в порядке возрастания, называется вариационным рядом . Любую функцию (X 1 ,X 2 ,…,X n ) от результатов наблюдений X 1 ,X 2 ,…,X n исследуемой случайной величины называют статистикой .
Принято объем генеральной совокупности обозначать N , ее абсолютные частоты - N i , объем выборки - n , ее абсолютные частоты - n i . Очевидно, что
,
.
Отношение частоты к объему совокупности называется относительной частотой или статистической вероятностью и обозначается W i или :
.
Если количество вариант велико или близко к объему выборки (при дискретном распределении), а также если выборка производится из непрерывной генеральной совокупности, то вариационный ряд составляют не по отдельным – точечным – значениям, а по интервалам значений генеральной совокупности. Вариационный ряд, представленный таблицей, построенный с помощью процедуры группировки, будем называть интервальным. При составлении интервального вариационного ряда первая строка таблицы заполняется равными по длине интервалами значений исследуемой совокупности, вторая – соответствующими абсолютными или относительными частотами.
Пусть из некоторой генеральной совокупности в результате n наблюдений извлечена выборка объема п . Статистическим распределением выборки называется перечень вариант и соответствующих им абсолютных или относительных частот. Точечный вариационный ряд абсолютных частот может быть представлен таблицей:
x i |
х k |
|||
n i |
n k |
причем
.
Точечный вариационный ряд относительных частот представляют таблицей:
x i |
х k |
|||
причем
.
При построении интервального распределения существуют правила в выборе числа интервалов или величины каждого интервала. Критерием здесь служит оптимальное соотношение: при увеличении числа интервалов улучшается репрезентативность, но увеличивается объем данных и время на их обработку. Разность x max - x min между наибольшим и наименьшим значениями вариант называют размахом выборки.
Для подсчета числа интервалов k обычно применяют эмпирическую формулу Стерджесса:
k = 1+3,3221g n (3.1)
(подразумевается округление до ближайшего целого). Соответственно, величину каждого интервала h можно вычислить по формуле:
. (3.2)
x min = x max - 0,5h .
Каждый интервал должен содержать не менее пяти вариант. В том случае, когда число вариант в интервале меньше пяти, соседние интервалы принято объединять.
Математическая статистика - это раздел математики, изучающий приближенные методы сбора и анализа данных по результатам эксперимента для выявления существующих закономерностей, т.е. отыскания законов распределения случайных величин и их числовых характеристик.
В математической статистике принято выделять два основных направления исследований :
1. Оценка параметров генеральной совокупности.
2. Проверка статистических гипотез (некоторых априорных предположений).
Основными понятиями математической статистики являются: генеральная совокупность, выборка, теоретическая функция распределения.
Генеральной совокупностью является набор всех мыслимых статистических данных при наблюдениях случайной величины.
Х Г = {х 1 , х 2 , х 3 , …, х N , } = { х i ; i=1,N }
Наблюдаемая случайная величина Х называется признаком или фактором выборки. Генеральная совокупность - есть статистический аналог случайной величины, ее объем N обычно велик, поэтому из нее выбирается часть данных, называемая выборочной совокупностью или просто выборкой.
Х В = {х 1 , х 2 , х 3 , …, х n , } = { х i ; i=1,n }
Х В Ì Х Г, n £ N
Выборка - это совокупность случайно отобранных наблюдений (объектов) из генеральной совокупности для непосредственного изучения. Количество объектов в выборке называется объемом выборки и обозначается n. Обычно выборка составляет 5%-10% от генеральной совокупности.
Использование выборки для построения закономерностей, которым подчинена наблюдаемая случайная величина, позволяет избежать ее сплошного (массового) наблюдения, что часто бывает ресурсоемким процессом, а то и просто невозможным.
Например, популяция представляет собой множество индивидуумов. Изучение целой популяции трудоемко и дорого, поэтому собирают данные по выборке индивидуумов, которых считают представителями этой популяции, позволяющими сделать вывод относительно этой популяции.
Однако, выборка обязательно должна удовлетворять условию репрезентативности , т.е. давать обоснованное представление о генеральной совокупности. Как сформировать репрезентативную (представительную) выборку? В идеале стремятся получить случайную (рандомизированную) выборку. Для этого составляют список всех индивидуумов в популяции и случайно их отбирают. Но иной раз затраты при составлении списка могут оказаться недопустимыми и тогда берут приемлемую выборку, например, одну клинику, больницу и исследуют всех пациентов в этой клинике с данным заболеванием.
Каждый элемент выборки называется вариантой . Число повторений варианты в выборке называется частотой встречаемости . Величина называется относительной частотой варианты, т.е. находится как отношение абсолютной частоты варианты ко всему объему выборки. Последовательность вариант, записанных в возрастающем порядке, называется вариационным рядом .
Рассмотрим три формы вариационного ряда: ранжированный, дискретный и интервальный.
Ранжированный ряд - это перечень отдельных единиц совокупности в порядке возрастания изучаемого признака.
Дискретный вариационный ряд представляет собой таблицу, состоящую из граф, либо строк: конкретного значения признака х i и абсолютной частоты n i (или относительной частоты ω i) проявления i-го значения признака x.
Примером вариационного ряда служит таблица
Написать распределение относительных частот.
Решение : Найдем относительные частоты. Для этого разделим частоты на объем выборки:
Распределение относительных частот имеет вид:
0,15 | 0,5 | 0,35 |
Контроль: 0,15 + 0,5 + 0,35 = 1.
Дискретный ряд можно изобразить графически. В прямоугольной декартовой системе координат отмечаются точки с координатами () или (), которые соединяются прямыми линиями. Такую ломаную называют полигоном частот.
Построить дискретный вариационный ряд (ДВР) и начертить полигон распределения 45 абитуриентов по числу баллов, полученных ими на приемных экзаменах:
39 41 40 42 41 40 42 44 40 43 42 41 43 39 42 41 42 39 41 37 43 41 38 43 42 41 40 41 38 44 40 39 41 40 42 40 41 42 40 43 38 39 41 41 42.
Решение : Для построения вариационного ряда различные значения признака x (варианты) располагаем в порядке их возрастания и под каждым из этих значений записываем его частоту.
Построим полигон этого распределения:
Рис. 13.1. Полигон частот
Интервальный вариационный ряд используется при большом числе наблюдений. Для построения такого ряда надо выбрать число интервалов признака и установить длину интервала. При большом числе групп величина интервала будет минимальна. Число групп в вариационном ряду можно найти по формуле Стерджеса : (k-число групп, n - объем выборки), а ширину интервала -
где - максимальное; - минимальное значения вариант, а их разность R носит название размаха вариации .
Исследуется выборка из 100 человек из совокупности всех студентов медицинского ВУЗа.
Решение : Рассчитаем число групп: . Таким образом, для составления интервального ряда данную выборку лучше разбить на 7 или 8 групп. Совокупность групп, на которые разбиваются результаты наблюдений и частот получения результатов наблюдений в каждой группе, называют статистической совокупностью .
Для наглядного представления статистического распределения пользуются гистограммой.
Гистограмма частот - это ступенчатая фигура, состоящая из смежных прямоугольников, построенных на одной прямой, основания которых одинаковы и равны ширине интервала, а высота равна или частоте попадания в интервал или относительной частоте ω i .
Наблюдения за числом частиц, попавших в счетчик Гейгера, в течение минуты дали следующие результаты:
21 30 39 31 42 34 36 30 28 30 33 24 31 40 31 33 31 27 31 45 31 34 27 30 48 30 28 30 33 46 43 30 33 28 31 27 31 36 51 34 31 36 34 37 28 30 39 31 42 37.
Построить по этим данным интервальный вариационный ряд с равными интервалами (I интервал 20-24; II интервал 24-28 и т.д.) и начертить гистограмму.
Решение : n = 50
Гистограмма этого распределения имеет вид:
Рис. 13.2. Гистограмма распределения
Варианты заданий
№ 13.1. Через каждый час измерялось напряжение тока в электросети. При этом были получены следующие значения (В):
227 219 215 230 232 223 220 222 218 219 222 221 227 226 226 209 211 215 218 220 216 220 220 221 225 224 212 217 219 220.
Построить статистическое распределение и начертить полигон.
№ 13.2. Наблюдения за сахаром крови у 50 человек дали такие результаты:
3.94 3.84 3.86 4.06 3.67 3.97 3.76 3.61 3.96 4.04
3.82 3.94 3.98 3.57 3.87 4.07 3.99 3.69 3.76 3.71
3.81 3.71 4.16 3.76 4.00 3.46 4.08 3.88 4.01 3.93
3.92 3.89 4.02 4.17 3.72 4.09 3.78 4.02 3.73 3.52
3.91 3.62 4.18 4.26 4.03 4.14 3.72 4.33 3.82 4.03
Построить по этим данным интервальный вариационный ряд с равными интервалами (I - 3.45-3.55; II - 3.55-3.65 и т. д.) и изобразить его графически, начертить гистограмму.
№ 13.3. Построить полигон частот распределения скорости оседания эритроцитов (СОЭ) у 100 человек.
Данным, полученным в результате эксперимента, свойственна изменчивость, которая может быть вызвана случайной ошибкой: погрешностью измерительного прибора, неоднородностью образцов и т.д. После проведения большого количества однородных данных экспериментатору необходимо их обработать для извлечения как можно более точной информации о рассматриваемой величине. Для обработки больших массивов данных измерений, наблюдений и т.п., которые могут быть получены при проведении эксперимента, удобно применять методы математической статистики .
Математическая статистика неразрывно связана с теорией вероятностей, но между этими науками есть существенное различие. Теория вероятностей использует уже известные распределения случайных величин , на основе которых рассчитываются вероятности событий, математическое ожидание т.д. Задача математической статистики – получить как можно более достоверную информацию о распределении случайной величины на основе экспериментальных данных.
Типичные направления математической статистики:
Методы оценки и проверки гипотез основываются на вероятностных и гиперслучайных моделях происхождения данных.
Математическая статистика оценивает параметры и функции от них, которые представляют важные характеристики распределений (медиану, математическое ожидание, стандартное отклонение, квантили и др.), плотности и функции распределения и пр. Используются точечные и интервальные оценки.
Современная математическая статистика содержит большой раздел – статистический последовательный анализ , в котором допускается формирование массива наблюдений по одному массиву.
Математическая статистика также содержит общую теорию проверки гипотез и большое количество методов для проверки конкретных гипотез (например, о симметрии распределения, о значениях параметров и характеристик, о согласии эмпирической функции распределения с заданной функцией распределения, гипотеза проверки однородности (совпадение характеристик или функций распределения в двух выборках) и др.).
Проведением выборочных обследований , связанных с построением адекватных методов оценки и проверки гипотез, со свойствами разных схем организации выборок, занимается раздел математической статистики, имеющий большое значение. Методы математической статистики непосредственно использует следующие основные понятия.
Определение 1
Выборкой называются данные, которые получены при проведении эксперимента.
Например, результаты дальности полета пули при выстреле одного и того же или группы однотипных орудий.
Замечание 1
Функция распределения дает возможность выразить все важнейшие характеристики случайной величины.
В математической стаитистике существует понятие теоретической (заранее не известной) и эмпирической функции распределения.
Эмпирическая функция определяется по данным опыта (эмпирические данные), т.е. по выборке.
Гистограммы используются для наглядного, но довольно приближенного, представления о неизвестном распределении.
Гистограмма представляет собой графическое изображение распределения данных.
Для получения качественной гистограммы придерживаются следующих правил :
Если выборка очень большая зачастую интервал элементов выборки разбивают на одинаковые части.
С помощью данных понятий можно получить оценку необходимых числовых характеристик неизвестного распределения, не прибегая к построению функции распределения, гистограммы и т.п.
nanbaby.ru - Здоровье и красота. Мода. Дети и родители. Досуг. Быт. Дом