Эффективное использование статистических показателей контрольных пределов

От абсолютных чисел польза не велика (у нас было 459 245 уникальных посетителей в прошлом месяце). Ход кривой, которую мы начали понимать, улучшился (декабрь: 459 249, ноябрь: 591 067, октябрь: 489 419). Но на веб-сайте происходит взаимодействие с заказчиками, влияющее на итоговые результаты вашей компании. Вы собираете урожай диаграмм и графиков, которые довольно трудно разгадать и преобразовать в действия.

Существует фактор, который не принимается в расчет в достаточной мере – это то, что каждая метрика или KPI (ключевой показатель эффективности) которые вы получаете при помощи ваших аналитических инструментов (или, возможно, при помощи ваших программных средств управления ресурсами предприятия или системы управления взаимодействием с клиентами, или из хранилища данных) имеет вид графика естественных «биоритмов». То есть эти метрики или KPI будут колебаться вверх-вниз и меняться из-за «естественных явлений», которые просто происходят (я вижу, что некоторые из вас почувствовали раздражение!).

image Эти биоритмы сложны для понимания и тем более для прогнозирования, и так как многие из нас ведут себя скорее всего, как при сборке «мозаики», нежели как при разгадывании «загадки»* (статья на англ ^(http://www.kaushik.net/avinash/web-analytics-a-puzzle-or-a-mystery/)), мы прокручиваем наш цикл как сумасшедшие, пытаясь понять эти числа, чтобы затем объяснить их руководству так, чтобы они смогли предпринять какие-либо меры. Представьте, что вы получаете ежедневные или еженедельные диаграммы, которые скачут вверх-вниз, и вы никак не можете понять что же, черт возьми, вызывает эти скачки, даже после достижения предела своих возможностей, пытаясь выделить все переменные.

Примечание переводчика:

Здесь подразумевается статья, в которой Авинаш Кошик говорит о ситуациях, когда 1) приходится собирать пазл, головоломку, расставляя имеющиеся данные по своим местам (мозаика) и 2) имея множество данных, решать что и как именно использовать (загадка), т.к. не вся информация, которой мы владеем, полезна и применима в работе. Т.е. большинство людей пытается собрать «мозаику», не задумываясь о том, нужна ли им вообще эта информация. Тут сложность не в нехватке информации, а наоборот, в ее чрезмерном количестве.

В результате эти естественные биоритмы вынуждают аналитиков и маркетеров анализировать и глубоко нырять там, где в этом нет необходимости. В итоге некоторые из нас чувствуют себя «неважно», потому что не могут объяснить полученные данные, что в итоге приводит к неверию в данные и их способности дать представление о ситуации.

Вот вам прекрасный пример по проблеме:

image

На самом деле числа на графике и показатели оси Х не имеют значения. Когда вы смотрите на точку 7 или 17 или 25, понимаете ли вы, что говорит вам эта кривая, и есть ли тут причина для беспокойства, или все в порядке, и не требуется принятие каких-либо мер, или может быть высшие точки – это повод для вечеринки?

Я нашел один чрезвычайно полезный инструмент или методологию для отделения сигнала от лишних помех – это 6 стандартных отклонений от среднего показателя (превосходная обработка) и он называется «контрольные пределы» (или графики контроля). Просто графики контроля действительно полезны при использовании статистики для оценки характера колебаний в любом процессе. Графики контроля, преобразованные в биоритмы в соответствующих ситуациях, могут помочь триггеру ^(http://ru.wikipedia.org/wiki/%D0%A2%D1%80%D0%B8%D0%B3%D0%B3%D0%B5%D1%80_%28%D0%B7%D0%BD%D0%B0%D1%87%D0%B5%D0%BD%D0%B8%D1%8F%29) в глубоком анализе и предпринимаемых действиях.

Графики контроля были придуманы для повышения качества в производственных ситуациях (или подобных им), но они также прекрасно подходят и для нас.

В графике контроля существует три ключевых компонента. Линия в центре – среднее значение всех точек данных, UCL (верхний предел графика контроля) и LCL (нижний предел графика контроля).

Вот как выглядит кривая с контрольными пределами, наложенными поверх:

image

Что такое контрольные пределы на самом деле?

Давайте разберемся в том, что вы видите.

Среднее значение (Х): зеленая линия на графике выше. Статистически подсчитываемое число, определяющее среднюю величину на вашей диаграмме KPI. Например, для нашего процесса это 39,29.

UCL (верхняя граница): статистически подсчитываемое число, определяющее верхний предел колебания на вашей диаграмме KPI. В нашем примере это 45.

LCL (нижняя граница): статистически подсчитываемое число, определяющее нижний предел колебаний на вашей диаграмме KPI. В нашем примере это 33.

Этот график контроля показывает естественный биоритм диаграммы KPI, который варьируется между двумя пределами контроля. Это точки, показывающие естественные колебания в метрике и предположительно не требующие принятия каких-либо мер, даже если вы четко видите, что они варьируются довольно часто.

Реально крутая вещь в том, что график показывает все точки динамики изменения. Подумайте о днях, неделях или месяцах, когда вы должны были предпринять какие-то действия, потому что там происходит что-то необычное. К сожалению, график не покажет вам, какого черта происходит, но он укажет вам, когда необходимо потратить ваше ценное время для копания поглубже. Ну разве это не прекрасно? Подумайте о всем том времени, которое бы вы потеряли, собирая мозаику, скрытую за точками данных ниже среднего показателя, которые выглядят похожими на проблемы.

И так, как же вы вычисляете эти замечательне контрольные пределы (UCL & LCL)?

Общий практический метод подсчета выглядит так:

(среднее значение KPI) +/- (3 х (стандартное отклонение))

Контрольные пределы высчитываются тремя стандартными отклонениями выше или ниже среднего значения ваших данных KPI. Они не задаются, но легко подсчитываются исходя из ваших естественных выходных данных. Все, что в пределах контрольных границ должно рассматриваться как ожидаемые колебания (естественный биоритм). Все что за пределами контрольных границ, является основанием для анализа. Мало того, если ряд точек данных выпадает за контрольные пределы, тогда это более серьезный сигнал опасности о том, что что-то имеющее большое влияние, идет не так.

В мире, где существуют сотни метрик, где каждая панель инструментов имеет по пятьдесят графиков, контрольные пределы чрезвычайно полезны при использовании могущественной силы статистики. Они могут быть первым фильтром показателей, и указать, когда вам следует покопать глубже или поискать причину. В случае если ваши метрики и диаграммы колеблются изо дня в день и каждую неделю, контрольные пределы являются превосходным способом выделить что «нормально», а что «ненормально» на диаграмме.

Графики контроля также очень хорошо определяют соотношения. Вам было бы легче, если для каждой имеющейся метрики у вас была бы четко установленная Цель, к которой вы стремитесь. Эта цель может указать вам насколько хорошо или плохо вы справляетесь. Замечательно подходит в случае массового потока метрик, с которыми вам приходится работать, и для применения контрольных пределов ко всем вашим диаграммам.

Практические аспекты, которые необходимо учитывать при использовании контрольных графиков (пределов):

Как и во всем прочем в статистике, чем больше точек данных у вас имеется, тем лучше будут контрольные пределы. Довольно сложно создать нормальный график контроля, имея всего пять значений (вы можете его создать, просто этот график не будет настолько значимым). Контрольные пределы лучше работают с метриками или KPI, в которых немного легче управлять переменными, оказывающими влияние.

К примеру, создание контрольных пределов для вашего общего коэффициента конверсии имеет меньше смысла, если вы проводите прямой маркетинг, кампании по рассылке электронных сообщений, поисковый маркетинг (PPC, оплата за клик), или аффилированный маркетинг, и у вас имеется множество людей, пришедших прямо на ваш сайт. В этих случаях существует слишком много переменных, которые могут повлиять на вашу диаграмму.

Но вы можете легко создать графики контрольных пределов для своих кампаний по рассылке почты, или поискового маркетинга, или прямого трафика и это будет очень полезно, потому что переменная всего одна (или две). И у вас будут превосходные триггерные показатели (критические точки) для последовательного проведения анализа и принятия мер.

Вам необходимо немного понимать статистику и иметь некоторые базовые знания о стандартных отклонениях и т.п., для того, чтобы вы смогли не только оптимально их использовать, но также объяснить и показать огромную важность того, что вы делаете, вашему руководству.

Практический пример использования контрольных пределов:

conversion_20rate_20

График выше показывает потенциальный образец коэффициента конверсии веб-сайта. Без красной (UCL, верхняя граница) и синей (LCL, нижняя граница) линий нам сложнее узнать, какова эффективность кампаний прямого маркетинга в каждом отдельном месяце. Здесь легко увидеть, что в январе 2005 г. эффективность была ужасающей. Намного сложнее понять, что в период с марта по июль не происходило ничего статистически важного, о чем бы стоило упоминать, даже если кривая скачет вверх-вниз.

Последний момент важен, любой может разглядеть предупреждение и предпринять меры по значительным колебаниям. Но что загоняет аналитика в тупик, так это отделение сигналов от помех при незначительных колебаниях в данных.

Учитывайте применяемые контрольные пределы на ваших диаграммах KPI, таких как корзина и проверка коэффициента отказов (здесь автор ссылается на эту статью: англ, рус – примеч. переводчика) и вы (а также ваши боссы) будете приятно удивлены тому, что узнали.

Любое подходящее аналитическое ПО автоматически подсчитает контрольные пределы и создаст для вас эти графики. Minitab часто используется ребятами, которых я знаю (хотя это чуточку дорого). Также мы использовали наши стандартные корпоративные интеллектуальные инструменты для подсчета контрольных пределов (Brio, Business Objects, Cognos, MicroStrategy и т.п.). Кроме того, вы всегда можете просто на скорую руку перенести в Excel для подсчета.

Вы также можете узнать немного больше о графиках контроля и попробовать два калькулятора графиков контроля на SQC Online. В разделе «What» введите данные и выберите спин в калькуляторе графика контроля для переменных.

Получился длинный и комплексный пост, но я надеюсь, что довел до вас мысль о могущественной силе графиков контроля. Немного скучновато и требует небольших знаний и терпения, но это чрезвычайно важно и полезно при проведении вашего анализа, особенно когда дело касается отделения сигналов от шумов.

Сигнал -> Проникновение в суть -> Меры -> счастливые клиенты -> деньги, деньги, деньги! :-)

Как думаете? А вы ранее использовали графики контроля? С какими метриками они, по вашему мнению, лучше всего будут работать? Должны ли производители средств веб-аналитики включать в свои инструменты возможность создания графиков контроля в качестве стандартного элемента? Или это все вообще не имеет смысла?

Пожалуйста, поделитесь своим мнением и критикой в комментариях.

Leverage Statistical Control Limits ^(http://www.kaushik.net/avinash/excellent-analytics-tip-9-leverage-statistical-control-limits/)

ГлавнаяВеб-аналитика → Эффективное использование статистических показателей контрольных пределов