Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя
Преподаватель-исследователь, специалист по информационным системам и технологиям, структур...  · 25 июн 2021  · lookaround.blog

Математическая статистика: правда или ложь?

Очень часто приходится слышать расхожее выражение, которое популяризировал Марк Твен:
Существуют три вида лжи: ложь, наглая ложь и статистика»,
(англ. There are three kinds of lies: lies, damned lies, and statistics)
Насколько она справедлива?
С одной стороны можно сказать, что Правда не есть Истина, а всё что не истинно, то ложно. Как следствие правда и ложь по сути одно и тоже, ведь не даром говорят, что у каждого своя правда. Но с другой стороны в Математике, которая является языком для описания закономерностей Природы, в свою очередь нет понятия Правда (Физика - греч. Природа).
Как следствие нужно признать, что математическая статистика, являясь разделом Математики, не может врать в принципе.
Но о чём тогда речь в вопросе данного поста?
Предлагаю простой пример.
Есть два числовых ряда, представляющие собой результаты некоего эксперимента (источник укажу позже):
Зависит ли Y от X?
Если я скажу Да - мне скажут, что это не Правда.
Если я скажу Нет - попросят доказать. (Забегая на перёд это тоже не Правда.)
Давайте попробуем доказать с помощью Математической статистики!
  • Что мы имеем?
  • Два числовых ряда.
  • Что нас интересует?
  • Найти функцию зависимости.
В Математической статистике эта операция называется Аппроксимация функции одной переменной. Для этого проводится регрессионный анализ.
Перечислю основные методы аппроксимации:
  1. Линейная;
  1. Квадратичная;
  1. Кубическая;
  1. Степенной функции;
  1. Показательная;
  1. Логарифмическая;
  1. Гиперболическая;
  1. Экспоненциальная.
Где y со "шляпкой" - это значение найденной функции, которая, как правило, не совпадает со значением полученным экспериментально.
Соответственно из названия метода уже понятно к какой функции мы будем приводить нахождение нашей зависимости.
Очевидно, что для каждого вида регрессии нам нужно найти коэффициенты обозначенные буквами a, b, c и d (в большинстве достаточно классических a и b).
ПРИМЕР НАХОЖДЕНИЯ КОЭФФИЦИЕНТОВ ТОЛЬКО ДЛЯ ЭКСПОНЕНЦИАЛЬНОЙ РЕГРЕССИИ:
Как я сказал выше, y со "шляпкой" практически никогда не бывает равен исходному y из таблицы, а значит нам надо понять насколько мы ошибаемся принимая ту или иную результирующую функцию.
Давайте посмотрим на график, на котором изображены варианты функций для всех видов аппроксимации, которые я перечислил выше.
Очевидно, что некоторые полученные функции, а может кому-то покажется что все, ни разу не похожи на ту функцию, которая будет проходить через все заданные точки на плоскости.
И вот тут начинается СТАТИСТИКА.
Математическая статистика умеет работать со случайными величинами, зависимость которых не очевидна и позволяет численно оценить уровень ошибки.
Она ответит нам на вопрос: А насколько не похожа? Может быть нам достаточно той точности, которую предлагает одна из изображённых линий?
Для этого вводится понятие - Корреляция, или с латыни "соотношение". Переводишь, и сразу всё понятно, или нет?
Для численной оценки вводятся такие параметры, как:
  1. Коэффициент корреляции;
  2. Коэффициент детерминации;
  3. Средняя ошибка аппроксимации.
Разумеется, что для каждого из видов аппроксимации свои формулы расчёта этих характеристик соотношения случайных величин, найти их не сложно в справочниках.
Но вот как выглядят приведённые выше графики через призму показанных коэффициентов:
Из представленной таблицы видно, что далеко не все варианты регрессии можно рассматривать в дальнейшем.
Оставим Квадратичную, Кубическую и Экспоненциальную (Показательная аналогична по сути).
Что получилось?
Как тут будем оценивать?
И вот тут без источника не обойтись. Цифры взяты отсюда за последние 14 дней начиная с 11 июня.
Становится понятно, что и Кубическая регрессия нам не подходит.
Остаётся лишь экспоненциальная регрессия со следующими коэффициентами:
график выглядит вот так
Средняя ошибка аппроксимации равна 42,84%.
Таким образом Математическая статистика показала возможную функцию процесса роста числа заболевших в Израиле на основании данных с 11 по 24 июня 2021 года, рассмотрев числовой ряд, как ряд случайных величин.
Статистика ничего не знает о том, какие физические процессы стоят за цифрами. Она лишь показала отношение между числовыми рядами.
Статистика - это Ложь? Наглая Ложь? НИЧЕГО ПОДОБНОГО!
Статистика даёт нам даже оценку ошибки в результате.
Как интерпретировать полученные с её помощью результаты - вот тут и возникает простор для деятельности у эксперта.
А если эксперт "липовый", то мы и получим соответствующий вывод.
PS: экспоненциальный рост - признак эпидемии.
PS2: статистика не знает, что в Израиле более 60% населения привиты
"Лень - двигатель прогресса технического и регресса человеческого". КЕВПерейти на vk.com/e.kandzyuba

Перефразируя вопрос можно спросить, удобно ли манипулировать статистикой, чтобы выдавать ложь за правду.

Внимательно изучая данные, не понимаю, почему была отброшена квадратичная зависимость, наиболее корректно отражающая полученные данные. Смущает, почему слева был подъём? Но давайте возьмём на вооружение гипотезу, что заболеваемость была и ранее изучаемого отрезка времени. Почему - нет? И тогда возникает вопрос: почему считается вспышка заболевания с нуля? Для экспоненты в нулевом времени тоже имеется какой-то уровень заболевания.

А, возможно, гипотеза, что заболевания не было ранее - неверная?

Или работает внешнее давление, что это - эпидемия, а при эпидемии не может быть квадратичной зависимости???

А, может, источник инфекции - не один и поэтому 60% привитых - это не тот фактор, который оказывает решающее значение? Привили от одного, а работает и другой, а то и более - инфекционных агентов... Тут уже с факторным анализом нужно работать. Если данных хватит.

@Вячеслав Домбровский,
Квадратичная зависимость при тестировании на большем объёме данных, по пример за 21 день, не покажет таких результатов.
Почему начал с нуля график строить? А что мне мешает, как постановку задачи, показать поведение найденной функции до начала интервала?
При подготовке исходных данных, Вячеслав, я преобразовал даты на интервале в номера по счёту.
Про интервал допустимости для дискретной функции заболеваемости я не совсем понял, поясните что Вы имели ввиду

Да, ещё необходимо оценить доверительный интервал для найденных параметров. Насколько они достоверны для данной корреляции.

@Вячеслав Домбровский, формулы расчёта я дал, что ещё нужно для коэффициентов корреляции?

Уважаемый автор, вы понимаете, что Вы сделали что-то не то?

Дело в том, что статистика - это отражение, зеркало, отчёт о произошедшем в прошлом и зафиксированных в этом - прошлом - определённых данных, где для расчета средних показателей, минимальных и максимальных отклонений от средних значений, дающий повод для исследования причин, достаточно арифметики.

Вы же под готовый ряд(ы) данных подгоняете формулы, получаете некие графики, находите нечто похожее на данные статистики (что вообще не очевидно, проверить надо бы) с огромными коэффициентами разброса и т.д. К чему этот сизифов труд? Это не статистика, это Вы где-то заблудились. Нам не надо формулу искать игрек или разницу между фактическим игреком и желательным, ожидаемым, он уже известен! Для прогноза? С таким-то разбросом? Да, я согласен, как прогноз, мало что имеющий с действительностью, так, общая закономерность, это может иметь место. Это как с погодой, когда английский фермер подал иск к прогнозистам погоды: - Я замучился вашу "лёгкую облачность" из погребов выкачивать (открыл крышки просушить погреба, поверив подобным прогнозам, а тут небывалый ливень). Это как прогнозировать выпадение Дамы пикей - рассчитать-то вы рассчитаете, но я на Ваш расчёт не поставлю. Это просто ВЕРОЯТНОСТЬ! Это вилами на воде! И не надо людям пудрить мозги! Хотите неубиваемый пример? Оспаривать начнёте - приведу, да не один.

А может именно так и морочат голову нашему президенту?

Статистика - это в первую очередь, первично, сухие цифры, факты, это уже прошло, и во вторую - методы сбора, учёта, анализа первого - ПРОШЛОГО, т.е. цифр.

А вот за вторую, вторичную часть и ругают манипуляторов статистикой, а первичная часть - так это просто цифры, зеркало, если они НАСТОЯЩИЕ (чтобы не писать масло масляное - "фактические"), то что в этом плохого.

@Вадим Крассиб, мне кажется, что мы говорим на разных языках. Ваше мнение безусловно имеет право на существование, однако я с Вами не согласен. Есть случайные процессы, которые лишь кажутся случайными. Однако лучшие генераторы случайных величин базируются на координатам тех же гроз. Чем они справоцированы? Например случайно залетевшей в нашу атмосферу высоко энергетической частицы, которая запускает процесс ионизации, а то и распада по аналогии с Черенковским изучением в воде. Откуда прилетит эта частица и когда - никто не знает. Однако методы анализа этих случайных процессов описываются статистические анализом, что я и показал. Не более.