Математическая статистика

Категории Математическая статистика | Под редакцией сообщества: Математика

Математическая статистика – раздел математики, в котором изучаются методы сбора, систематизации и обработки статистических данных, а также использования таких данных для научных или практических выводов.

Статистическими данными называют обычно совокупности значений числовых или качественных характеристик (результаты обследований, измерений, экспериментов и т.п.), порожденные теми или иными источниками (объектами обследований, измерений, экспериментов соответственно). Примерами статистических данных являются:

– представленные избирательными комиссиями результаты голосования,

– совокупности данных в анкетах, заполненных переписчиками при переписи населения,

– совокупности метеорологических наблюдений (температуры, влажности, атмосферного давления, количества осадков, степени облачности и т.п. в разные дни на разных метеостанциях),

– отчеты о моментах наступления страховых случаев и о размерах соответствующих страховых выплат,

– отчеты о течении болезни, результатах медицинских анализов, назначенных лекарствах и процедурах, результатах лечения пациентов в больнице,

– отчеты о результатах работы отдела технического контроля на производстве,

– совокупности результатов научных экспериментов,

– результаты моделирования или сложных вычислений на ЭВМ.

Целью обработки статистических данных является поиск или уточнение проявляющихся в них закономерностей, которым подчиняются источники этих данных. Найденные закономерности можно использовать в дальнейшем при изучении тех же или аналогичных источников данных и работе с ними.

Следующий отрывок из повести Джека Лондона «Смок Беллью», в котором герой объясняет владельцам онлайн казино обнаруженный им способ выигрывать в рулетку, является примером использования результатов сбора и обработки статистических данных:

«Смок подошел к столу.

– Прошу внимания, джентльмены! У меня не совсем обыкновенная система. Вряд ли это можно назвать системой. Но у нее то преимущество, что она дает практические результаты. Следите за мной. Крупье, приготовьте шарик. Я хочу выиграть на номер двадцать шесть. Допустим, я ставлю на него. Пускайте шарик, крупье!

Шарик забегал по кругу.

– Заметьте, – сказал Смок, – что номер девять был как раз напротив!

Шарик остановился как раз напротив двадцати шести.

Большой Бэрк выругался. Все ждали.

– Для того, чтобы выиграть на ноль, нужно, чтобы напротив стояло одиннадцать. Попробуйте сами, если не верите.

– Но где же система? – нетерпеливо спросил Моран. – Мы знаем, что вы умеете выбирать выигрышные номера. Но как вы их узнали?

– Я внимательно следил за выигрышами. Случайно я дважды отметил, где остановился шарик, когда вначале против него был номер девять. Оба раза выиграл двадцать шестой. Тогда я стал изучать и другие случаи. Если напротив находится двойной ноль - выигрывает тридцать второй. А для того чтобы выиграть на двойной ноль, необходимо, чтобы напротив было одиннадцать. Это случается не всегда, но обычно. У меня есть свои догадки, о которых я предпочитаю не распространяться.

Большой Бэрк, пораженный какой-то мыслью, внезапно вскочил, остановил рулетку и стал внимательно осматривать колесо. Все девять остальных владельцев рулеток тоже склонили головы над колесом. Затем Большой Бэрк выпрямился и посмотрел на печку.

– Черт возьми! – сказал он. – Никакой системы не было. Стол стоит слишком близко к огню, и проклятое колесо рассохлось, покоробилось. Мы остались в дураках. Не удивительно, что он играл только за этим столом. За другим столом он не выиграл бы и кислого яблока.»

Метод, которым интуитивно воспользовался Смок, относится к описательной статистике.

В математической статистике рассматриваются математические модели процессов порождения статистических данных, и в рамках этих моделей разрабатываются и изучаются методы обработки данных. Так как математическая модель четко описана, то можно оценивать точность оценок и выводов, получаемых при обработке статистических данных тем или иным методом, сравнивая эти оценки и выводы с известными характеристиками модели. Проведение таких исследований для разных методов обработки статистических данных позволяет выбрать из рассмотренных методов наиболее точные и удобные для практических применений.

Любой метод обработки статистических данных представляет собой формальную процедуру, не зависящую от природы данных. Например, как для совокупности значений температуры воздуха, так и для времен пребывания пациентов в больнице их средние значения можно вычислять как среднее арифметическое, как медиану (т.е. число, разделяющее массив данных на две одинаковые по количеству данных части) или другими способами. Одни и те же методы обработки статистических данных можно применять в рамках разных математических моделей, и естественно, что в каких-то моделях лучше могут работать одни методы, а в каких-то моделях – другие.

Этот эффект необходимо иметь в виду при применении статистических методов к реальным данным, так как любая математическая модель может описывать реальную ситуацию лишь приближенно и не учитывает все возможные взаимосвязи. Для правильного выбора метода обработки статистических данных нужно сначала выбрать математическую модель, хорошо отражающую наиболее существенные черты реального процесса, и только после этого приступать к выбору и использованию методов обработки статистических данных.

Пример. Партия продукции состоит из 100 изделий, среди которых могут быть дефектные. Для проверки наличия скрытых дефектов из партии случайно выбирается 10 изделий; в результате проверки они становятся непригодными для использования. Что можно сказать о числе дефектных изделий в остальной части партии, если среди 10 выбранных изделий оказалось ровно 1 дефектное?

В условии задачи ничего не говорится о распределении числа дефектных изделий в партии и весьма расплывчато – о способе выбора изделий для проверки. Рассмотрим две математические модели этой ситуации.

В первой модели (предполагающей, что в процессе производства после случайной разладки оборудования выходит много изделий с дефектами) считается, что в партии с вероятностью 0,99 все изделия исправны, а с вероятностью 0,01 в процессе производства партии может наступить разладка, после которой все изделия оказываются дефектными. Разладка может с равной вероятностью возникнуть в любой момент времени, поэтому для любого k = 1,2,…,100 число дефектных изделий в партии равно k с вероятностью 0,0001.

Во второй модели предполагается, что (за счет жесткого контроля в процессе производства) в партии не может быть больше одного дефектного изделия.

В обеих моделях предполагается, что отбор изделий для контроля проводится по схеме равновероятного выбора без возвращения.

В первой модели вероятность того, что в партии имеется k дефектных изделий, а среди отобранных 10 изделий – ровно одно, равна

так что одно дефектное изделий появляется среди 10 отобранных с вероятностью

и поэтому при условии, что среди 10 проверенных изделий есть ровно одно дефектное, математическое ожидание числа дефектных изделий в остальной части партии равно

Значит, в рамках первой модели при обнаружении одного дефектного изделия имеет смысл забраковать остальную часть партии без дальнейшей проверки.

Во второй модели в партии не может быть больше одного дефектного изделия, и если дефектное изделие обнаружилось среди отобранных, то других дефектных изделий заведомо нет, и поэтому остальную часть партии можно принимать.

Приведенный пример показывает, что одним и тем же результатом контрольной проверки можно обосновывать диаметрально противоположные выводы, если использовать разные модели «источника статистических данных». Поэтому при интерпретации результатов применения статистических методов к реальным данным необходимо учитывать, насколько хорошо математическая модель соответствует реальным данным (поскольку реальность никогда не соответствует математической модели совершено точно и может изменяться со временем). Это особенно важно в случаях, когда методы, разработанные в рамках вероятностных моделей источников данных, пытаются применять к статистическим данным, которые могут не быть случайными (например, к последовательностям десятичных знаков в разложениях чисел или 1/7=0,142857142857..., к последовательности карт, извлекаемых из колоды честным крупье или шулером, и т.п.).

В зависимости от характера решаемых задач и характера данных в математической статистике можно выделять различные (порою пересекающиеся) разделы: описательную статистику (первичный анализ данных), проверку статистических гипотез (способы принятия решений), статистическое оценивание параметров моделей, статистический анализ многомерных наблюдений, статистический анализ временных рядов и случайных процессов, планирование экспериментов, последовательный анализ и т.п. Каждый из этих разделов, в свою очередь, делится на более мелкие подразделы.

Практически все разделы математической статистики (за исключением ряда задач первичного анализа данных) связаны с вероятностными моделями источников статистических данных. Основой таких моделей является так называемое вероятностное пространство, (Ω, F, P) состоящее из пространства элементарных событий Ω с вероятностной мерой P, определенной на сигма-алгебре F подмножеств Ω. В вероятностных моделях совокупности статистических данных часто называются «наблюдениями» и рассматриваются как «случайные величины», т.е. как функции, определенные на Ω и принимающие значения в пространстве B значений совокупности статистических данных (обычно B – пространство большой размерности).

Как правило, постановки основных задач в математической статистике имеют по сути дела следующий вид. Семейство моделей источника статистических данных (семейство статистических гипотез) отождествляется с семейством Ξ случайных величин, ξ заданных на (Ω, F, P) и принимающих значения в пространстве B. Каждая случайная величина ξ определяет на B вероятностную меру P_ξ (распределение при гипотезе ξ) на подмножествах по формуле

(Обычно в математической статистике гипотезы обозначают латинской буквой H с теми или иными индексами и отождествляют гипотезы с вероятностными распределениями на пространстве B. Здесь в целях унификации статистические гипотезы отождествляются со случайными величинами, порождающими эти распределения.) Если выбрана конкретная модель источника статистических данных (гипотеза), то вероятностной моделью реализации совокупности статистических данных является значение случайной величины ξ(ω) на элементарном событии , которое выбирается в соответствии с вероятностной мерой P на Ω. Если число элементов семейства Ξ конечно, то требуется построить функцию определенную на множестве всех возможных значений «наблюдений», принимающую значения в Ξ и такую, что вероятности ошибок

⁽¹⁾

принимают по возможности наименьшие значения. Наглядная интерпретация этого условия состоит в том, что для любой конкретной модели ξ источника данных (гипотезе) по порожденному этой моделью значению случайной величины ξ(ω) (совокупности статистических данных) с помощью функции θ можно определить, какой именно источник породил это значение (т.е. какая гипотеза верна), и при этом вероятность ошибки (неправильного определения источника) определяется формулой (1).

Если множество Ξ бесконечно и для любых гипотез определено расстояние ρ(ξη) между ними, то можно рассмотреть задачу построения такой функции принимающей значения в Ξ (статистической оценки), что случайная величина ρ(ξ,θ(ξ(ω))) в том или ином смысле мала при любой гипотезе (например, математическое ожидание ρ(ξ,θ(ξ(ω))) принимает минимальные возможные значения при всех гипотезах ). Иными словами, значение (гипотеза) статистической оценки, удовлетворяющей этому условию, с большой вероятностью принимает значения, близкие к гипотезе ξ, породившей значение ξ(ω).

Важными целями первичного анализа данных являются выявление аномальных данных (возникающих как в результате ошибок, сбоев измерительной аппаратуры, так и отражающих скрытые или редко проявляющиеся закономерности), а также представление характеристик большой совокупности данных в наглядном виде, облегчающем выбор вероятностной модели этой совокупности. Кроме стандартных методов вычисления моментов, эмпирических распределений и составления таблиц при этом широко используются представления данных в виде гистограмм и графиков различных типов, а при первичной обработке многомерных данных, порождаемых разными источниками, может оказываться полезным их разбиение на группы близких значений (кластерный анализ). Удачный выбор представления данных может упростить их последующий более детальный анализ и выявление зависимостей.

Литература

1. Боровков А.А. Математическая статистика. – М., URSS, 2007.

2. Вальд А. Последовательный анализ, пер. с англ. – М., Физматгиз, 1960.

3. Ван дер Варден Б.Л. Математическая статистика, пер. с нем. – М., ИЛ, 1960.

4. Кендалл М., Стьюарт А. Теория распределений, пер. с англ. – М., Наука, ГРФМЛ, 1966.

5. Кендалл М., Стьюарт А. Статистические выводы и связи, пер. с англ. – М., Наука, ГРФМЛ, 1973.

6. Кендалл М., Стьюарт А. Многомерный статистический анализ и временные ряды, пер. с англ. – М., Наука, ГРФМЛ, 1976.

7. Кокс Д., Хинкли Д. Теоретическая статистика, пер. с англ. – М., Мир, 1978.

8. Крамер Г. Математические методы статистики, пер. с англ., 2 изд. – М., Мир, 1975.