Как определить тип распределения вероятности для данных

Когда вы собрали данные в своей системе или процессе, следующим шагом будет определение типа распределения вероятностей. Типы распределений вероятности: дискретное равномерное, бернуллиевское, биномиальное, отрицательное биномиальное, пуассоновское, геометрическое, непрерывное равномерное, нормальное (кривая колокола), экспоненциальное, гамма- и бета-распределения. Сужение даже нескольких из списка возможностей делает определение, которое является ближайшим значением R в квадрате, намного быстрее.

Предметы, которые вам понадобятся

Графическое программное обеспечение
Средства для расчета значения R в квадрате (анализ наилучшего соответствия)

График данных для визуального представления типа данных.

Один из первых шагов к определению того, какое распределение данных имеется - и, следовательно, тип уравнения, который следует использовать для моделирования данных, - это исключение того, чем оно не может быть. • Если в наборе данных есть пики, это не может быть дискретным равномерным распределением. • Если данные имеют более одного пика, они не являются пуассоновскими или биномиальными. • Если он имеет одну кривую, не имеет вторичных пиков и имеет медленный наклон с каждой стороны, это может быть распределение Пуассона или гамма-распределение. Но это не может быть дискретным равномерным распределением. • Если данные распределены равномерно и не имеют перекоса в одну сторону, можно исключить гамма-распределение или распределение Вейбулла. • Если функция имеет четное распределение или пик в середине графических результатов, это не геометрическое распределение или экспоненциальное распределение. • Если встречаемость фактора зависит от переменной среды, это, вероятно, не является распределением Пуассона.

После сужения типа распределения вероятностей проведите R-квадратный анализ каждого возможного типа распределения вероятностей. Тот, который имеет наибольшее значение R в квадрате, скорее всего, правильный.

Устранить одну точку выброса данных. Затем пересчитайте R в квадрате. Если тот же тип распределения вероятностей подходит к наиболее близкому совпадению, то существует высокая степень уверенности в том, что это правильное распределение вероятностей, которое следует использовать для набора данных.

подсказки

Если данные показывают множество пиков в широком разбросе, возможно, что происходят два отдельных процесса или смешивается отбираемый продукт. Вспомните данные и затем повторно проанализируйте.

Предупреждение

Проверьте уравнения, сгенерированные для более поздних наборов данных, чтобы подтвердить, что они все еще точны для набора данных. Возможно, что факторы окружающей среды и дрейф процесса сделали текущие уравнения и модели неверными.