На сегодняшний день статистика один из основных методов познания в науке и не только. Но при этом подавляющее большинство имеет весьма отдалённое представление что это. Это неудивительно, ведь на мех-мате, на котором я учился, тв (теория вероятности) и статистика изучались на третьем курсе, и это были только базовые понятия, что тогда говорить о непрофессиональных математиках. Во многих учебных заведениях на разных специальностях тв и статистика преподаются "на пальцах" в весьма кастрированном виде, зачастую людьми, которые сами в них весьма плохо ориентируются. И вот имеем то, что имеем. Люди, слабо ориентирующиеся в понятиях статистики и тв, проводят аналитику методами статистики и тв, а затем получают странные результаты. А потом люди повторяют фразу "есть ложь, большая ложь и статистика".
Это сподвигло меня на написание серии постов о тв и статистике, в которых я постараюсь изложить свой "кастрированный" вариант введения базовых понятий тв и статистики. Почему кастрированный, а иначе надо будет сначала пройти двухлетний курс базовых дисциплин, а затем большой курс тв и статистики. Да простят меня коллеги за весьма вольную трактовку математических терминов.
Тогда начнём. Для математиков случайность не более чем некая абстракция, реально не важно насколько случайно изучаемое явление для того, чтобы воспользоваться методами тв и статистики, важно соблюдать строгость и корректность в формулах, а всё остальное имеет слабое значение. Часто статистические методы используют там где всё вполне считаемо без какого-либо намёка на случайность, но просто это трудоёмко, и гораздо легче использовать статистические методы, считая это случайным.
Тогда о чём это вообще если не о случайностях? Это нечто, что пытается анализировать и "прогнозировать", используя предыдущий опыт/теоретические знания. Например, после подкидывания монетки 100000 раз и получения 50157 орлов, можно "прикинуть", что в следующие 1000 подкидываний орёл выпадет приблизительно 501-502 раза (никаких вам 500, хотя в результате может оказаться и меньше), кроме того с вероятностью 99% результат будет от 463 до 540 (числа с потолка, лень было считать точно). То есть мы изучаем нечто, что повторяется, изучаем некий набор результатов (выборку) и на основе этого делаем выводы о дальнейшем поведении.
Перейдём к базовым понятиям.
Вероятностное пространство. Пусть есть некое множество "возможностей" М, есть некая группа подмножеств множества М П, на П задана функция f такая, что:
1. значения этой функции больше либо равны нуля
2. f(М)=1
3. f(АUB) = f(A) + f(B), если подмножества А и В не пересекаются.
Тогда М - вероятное пространство, а f - вероятность.
Приведём несколько простых примеров.
1. Самый стандартный пример - подкидывание монетки:
Вероятностное пространство М - "орёл", "решка"
Подмножества - "ничего", "орёл", "решка", "орёл или решка"
Вероятность P(probability)
p("ничего")=0
p("орёл")=0.5
p("решка")=0.5
p("орёл или решка")=1
2. Вероятностное пространство - люди, подмножества - различные группы людей, вероятность группы - количество человек в группе разделить на количество всех людей.
3. Вероятностное пространство - отрезок, подмножества - множества вложенных отрезков, вероятность сумма длин вложенных отрезков разделить на длину всего отрезка.
4. Вероятностное пространство - земная поверхность, подмножества - участки земной поверхности, вероятность - площадь участка разделить на площадь всей поверхности земли.
Статистическая оценка вероятности. Пусть у нас есть пространство и нужно определить на нём вероятность. Тогда мы просто проводим множество "экспериментов" и частоту результата считаем оценкой вероятности.
Например, подкидываем монетку 100000 раз, орёл выпал 50172 раза, считаем вероятность выпадения орла 0,50172.
Случайная величина. Это просто функция, только это борелевая функция из вероятностного пространства в действительные числа. Не парьтесь по поводу слова борелевая, практически все функции встречающиеся на практике борелевые.
Примеры для соответственных примеров вероятностных пространств:
1. -1 если орёл, и 1 если решка
2. возраст человека, доход, сбережения, словарный запас, рост, вес...
3. синус, косинус, тангенс, ...
4. Высота над уровнем моря.
Математическое ожидание случайной величины. Грубо среднее значение случайной величины, менее грубо интеграл случайной величины на вероятностном пространстве.
Для дискретных вероятностных пространств это сумма произведений значений случайной величины на вероятность в этой точке.
Примеры:
1. С монеткой: -1*0.5+1*0.5=0
2. отрезок [0, pi/2], мера лебега (грубо сумма длин кусочков) разделить на pi/2, функция синус
матожидание - M(sinx) = (-cos(pi/2)-(-cos(0)))/(pi/2)=2/pi
3. Вероятностное пространство - класс из 30 учеников, 6 получили 5 за контрольную, 12 получили 4, 12 получили 3.
Матожидание оценки за контрольную, если ученики равноценны равно:
(6*5+12*4+12*3)/30=19/5=3.8
Условная вероятность. Первая серьёзная проблема, на этой теме часто плывут люди, в том числе закончившие мех-мат с красными дипломами. По сути условие лишь сужает вероятностное пространство, генерируя новое вероятностное пространство с новыми вероятностями. Кажется всё просто, вот пример тоже простой:
У Пети 3 яблока, У Кати - 4, У Юры - 6, у Оксаны - 7 и у Наташи 8.
Каково матожидание яблок у ребёнка - (3+4+6+7+8)/5=28/5=5.6
Каково матожидание яблок у девочек - (4+7+8)/3=19/3=3,33
Всё просто? Вроде, да.
Ещё пример:
Есть две урны, в первой один белый, один чёрный, во второй один белый и четыре чёрных, наугад выбрали урну, и наугад вытянули шар, он оказался белым, какая вероятность, что урна была первая, хочется ответить 0,5 ведь выбирали наугад, но правильная логика такова:
есть 4 возможности:
вытащить белый из первой (вероятность 0.25 - 0.5 (вероятность выбрать первую урну) умножить на 0.5 (выбрать в ней белый шар) (из 1000 экспериментов приблизительно 250 раз)
вытащить чёрный из первой (вероятность 0.25) (из 1000 приблизительно 250 раз)
вытащить бклый из второй (вероятность 0.1) (из 1000 приблизительно 100 раз)
вытащить чёрный из второй (вероятность 0.4) (из 1000 приблизительно 400 раз)
тогда вытащить белый вероятность 0.35 сумма вытащить белый из первой и вытащить из второй (из тысячи приблизительно 350 раз)
А вытащить белый из первой урны 0.25 (250 раз из тысячи)
Тогда когда мы говорим о вытащенном белом мы говорим о 350 результатах из 1000, а случай когда это было именно из первой урны 250. То есть приблизительно 250 из 350 оказываются вытащенными из первой урны, или вероятность 250/350=0.25/0.35=5/7=0.71
В общем случае это описывается формулой:
Р(А|B)=P(A&B)/P(B)
Р(А|B) - вероятность А при условии В
A&B - А и В выполняются одновременно (пересечение множеств)
Пару типичных ошибок:
Игра за одной из 3 шкатулок приз вы выбираете одну из 3, а затем ведущий открывает одну из двух оставшихся - пустую (из двух одна точно пустая и ведущий знает какая), затем игроку предлагается изменить выбор, игроки зачастую не хотят менять выбор, а зря. Многие думают, что расклад не изменился или вероятность приза в каждой из шкатулок по 0.5 или даже в ими выбранной больше. Но реальность такова, что когда они выбирали шкатулку они угадывали с вероятностью 1/3, а после открытия в ней так и осталась 1/3, а вот в невыбранную не открытую перекочевала вероятность открытой и теперь в ней 2/3.
Проведём мысленный эксперимент:
мы играем 900 раз, тогда приблизительно 300 раз сразу отгадываем, если мы не меняем, то наш результат и будет 300 из 900, а вот если меняем, то оставшиеся 600.
Если всё ещё непонятно, пусть мы всё время выбираем первую, она выпадает 300 раз, вторая выпадает 300 раз и третья выпадает 300 раз. Не меняя мы выигрываем только когда мы сразу отгадали, то есть когда выпала первая 300 раз, меняя мы выигрываем все разы кроме того, когда мы сразу отгадали и выпала первая.
Другой пример, пусть лампочка фирмы "Светильная" портится с вероятностями:
0.1 сразу
0.2 через год
0.4 через два
0.3 через три
Средняя продолжительность работы лампочки 0*0.1+1*0.2+2*0.4+3*0.3=1.8
Допустим лампочка прослужила Вам год, тогда какая ожидаемая продолжительность работы этой лампочки, большинство считает либо 1.8 либо 2.8, но это, очевидно, неверно.
Правильно: теперь вероятности сместились, она не уже не перегорела сразу, а сместившиеся вероятности такие:
0 сразу
0.2/0.9=2/9 через год
0.4/0.9=4/9 через два
0.3/0.9=3/9 через три
И ожидаемая продолжительность работы 0*0+1*2/9+2*4/9+3*3/9=19/9=2.11
А теперь если лампочке уже два года?
0 сразу
0 через год
0.4/0.7=4/7 через два
0.3/0.7=3/7 через три
И ожидаемая продолжительность работы 0*0+1*0+2*4/7+3*3/7=17/7=2.43
Теперь Вам уже смешны стенания мужчин предпенсионного возраста, что жить им жить на пенсии всего несколько лет так как возраст выхода на пенсию и средняя продолжительность жизни мужчин близки?
Так как пост уже и так сильно затянулся, то постараюсь продолжить в следующих постах, а пока всё.