Саммари книги "Статистика и котики". Владимир Савельев

В этой статье я записал для себя самое главное из книги для понимания статистики, но вам рекомендую приобрести и прочесть её.

Книга "Статистика и котики" станет просто спасением для всех тех, кто не любит учиться по нудным талмудам.

В этой книге, на простых и понятных примерах с котиками и собачками (ну конечно, всем ведь нравятся котики или собачки 😍), вас познакомят с основами статистики с подробным объяснением каждого понятия в картинках.

Основные определения

Генеральная совокупность - вся группа объектов для исследования.

Выборка - часть генеральной совокупности, доступная для исследования.

Связные выборки - объект из первой выборки соответствует объекту из второй выборки. Люди до приёма лекарств и люди после приёма.

Переменные - свойства объектов, которые поддаются измерению.

Значение переменной - степень преобладания того или иного свойства объекта.

Меры центральной тенденции

Используется, когда нужно отразить типичные значения в выборке.

Состав:

Мода - часто встречающееся значение;
Медиана - середина упорядоченного ряда значений;
Среднее арифметическое - сумма значений поделённое на их количество.

Меры изменчивости

Используется, когда нужно степень разброса значений относительно центральной тенденции

Состав:

Размах - разность между максимальными и минимальными значениями
Дисперсия - сумма квадратов отклонения (Отклонения - это разность между средним арифметическим и конкретным значением.)
Стандартное отклонение - корень из дисперсии.

Важно: Дисперсия для генеральной совокупности и для выборки вычисляются по разным формулам.

Меры различий для несвязанных выборок

Используется, когда нужно определить различия между двумя несвязанными выборками.

Наличие значимых различий по определенному признаку позволяет с некоторой уверенностью говорить о том, что генеральные совокупности также различаются.

Делятся на параметрические и непараметрические

Параметрические нужно использовать тогда, когда ваши данные удовлетворяют следующим требованиям:

Данные представлены в метрической шкале. Иными словами, признаки должны быть представлены в определенных единицах измерения (см, кг, сек. и т. д.);
Большое число наблюдений (от 30, но лучше более 100);
Распределение значений признаков приблизительно соответствует нормальному;
Отсутствуют выбросы (значения, на порядок отличающиеся от среднего).

Непараметрические меры различий работают и без этих допущений.

Наиболее часто используемые меры различий представлены в таблице.

Вид	Две выборки	Три и более выборки
Параметрические	t-критерий Стьюдента для несвязанных выборок	Дисперсионный анализ
Непараметрические	U-Манна Уитни	H-Краскелла-Уоллеса

Меры различий для связанных выборок

Используется, когда нужно определить различия между двумя связанными выборками.

Также делятся на параметрические и непараметрические.

Вид	Две выборки	Три и более выборки
Параметрические	t-критерий Стьюдента для несвязанных выборок	Дисперсионный анализ для повторных измерений
Непараметрические	Т-Вилкоксона	Критерий Фридмана

Меры связи

Данный класс критериев (называемых также коэффициентами корреляции) позволяет найти взаимосвязь между переменными.

Математически взаимосвязь – это совместное изменение переменных.

Если она положительна и равна 1, то увеличение значения первой переменной сопровождается увеличением значения второй.

Если она отрицательна (-1), то высокое значение первой переменной сопровождается низким значением второй.

Коэффициент корреляции, равный 0, обозначает отсутствие взаимосвязи.

Самыми популярными коэффициентами корреляции являются r Пирсона (параметрический) и p Спирмена (непараметрический).

Регрессионный анализ

Данная группа методов позволяет построить функциональную математическую модель – уравнение, которое помогает предсказать значение некоторой целевой переменной, используя значения ряда переменных, называемых предикторами.

Наиболее распространенными методами регрессионного анализа являются линейная и логистическая регрессии.

Линейная регрессия позволяет предсказать точное количественное значение некоторой переменной, представленной в метрической шкале.

Логистическая регрессия позволяет предсказать вероятность принадлежности объекта к тому или иному классу

Дискриминантный анализ

Дискриминантный анализ во многом похож на логистическую регрессию.

Задачу, которую он решает, можно приблизительно сформулировать так: по каким переменным я могу отнести конкретный объект в тот или иной класс

Кластерный анализ

Кластерный анализ позволяет разбить ваши объекты на классы.

При этом число классов может быть заранее неизвестным, либо вы точно знаете их количество.

В первом случае ваш выбор – это метод иерархической кластеризации, который последовательно объединяет объекты в группы, основываясь на расстоянии между ними.

Для второго случая необходим метод k-средних, который группирует ваши объекты вокруг так называемых центроидов.

Факторный анализ

Факторный анализ позволяет сократить количество переменных, заменив их набором факторов.

Кроме того, он может являться предварительной процедурой перед проведением регрессионного анализа в случае, если ряд предикторов коррелирует между собой.

Статистика и котики. Владимир Савельев

Дмитрий