Системы и методы биржевой торговли (страница 9)
Эксцесс (четвертый момент)
Четвертый момент, эксцесс, описывает заостренность или сглаженность распределения, как показано на рис. 2.9. Этот измеритель хорош для беспристрастной оценки того, формируют ли цены тренд или движутся в боковике. Если вы видите, что цены равномерно повышаются, распределение будет более плоским и охватит более широкий диапазон. Это называется отрицательным эксцессом. Если цены движутся в определенном диапазоне, образуется скопление вокруг среднего, и мы имеем положительный эксцесс. В профиле рынка Стидлмайера, описываемом в главе 18, используется концепция эксцесса с плотностью распределения, накапливаемой динамически за счет учета изменения цены в реальном времени.
Используя те же нотации, что и в третьем моменте, эксцесс можно рассчитать как
Чаще всего используется модифицированный показатель эксцесса (excess kurtosis, обозначается KE), позволяющий видеть ненормальные распределения лучше. KE = K – 3, потому что нормальная величина эксцесса равна 3.
Рис. 2.9. Эксцесс. Положительный эксцесс образуется, когда пик распределения выше нормального, что типично для бокового рынка. Отрицательный эксцесс, выглядящий как более плоское распределение, формируется, когда рынок находится в тренде
Эксцесс также полезен при анализе результатов тестирования системы. Если система прибыльна, эксцесс дневной доходности должен быть несколько больше 3. Однако эксцесс выше 7–8 может указывать на чрезмерную подгонку системы. Высокий эксцесс означает, что имеется слишком много прибыльных сделок одинакового размера, что вряд ли возможно в реальной торговле. Высокое значение эксцесса должно сразу же вызывать подозрения.
Статистические функции в Excel
Электронные таблицы существенно упрощают нам жизнь. Больше не нужно просматривать таблицы, чтобы определить местоположение точки в распределении вероятностей или вручную вводить сложные формулы. В Excel есть следующие функции.
ДИСП (список) или ДИСП.В – это дисперсия списка значений со знаменателем n. ДИСП (список) или ДИСП.Г – это вычисление дисперсии для генеральной совокупности со знаменателем n – 1.
СТАНДОТКЛОН (список) или СТАНДОТКЛОН.В – стандартное отклонение для выборки, а СТАНДОТКЛОН.Г (список) – стандартное отклонение для генеральной совокупности. В первом случае знаменатель равен n – 1, во втором n.
СКОС (список) и СКОС.Г (список) – расчет асимметрии распределения относительно среднего со знаменателями n и n – 1 соответственно.
ЭКСЦЕСС (список) – расчет эксцесса.
НОРМРАСП (Х; среднее; стандартное_откл; интегральная) – расчет вероятности, связанной со значением стандартного отклонения в распределении. X – значение, для которого строится распределение (например, 1,5); среднее – среднее списка значений; стандартное_откл – стандартное отклонение для списка значений; интегральная (ИСТИНА) – кумулятивная функция распределения. Ответ 0,933 означает, что заданное значение находится на уровне 93,3 % (в крайней правой части) распределения.
СЛЧИС и СЛУЧМЕЖДУ (a, b) возвращает равномерные (равномерно распределенные) случайные числа. СЛЧИС возвращает значения от 0 до 1, а СЛУЧМЕЖДУ – равномерно распределенные значения между двумя входными числами a и b.
Чтобы найти другие статистические функции в Excel, нажмите кнопку fx (Вставка функции) на панели инструментов – откроется список функций и их описания. Все базовые функции включены во все платформы, но могут иметь другие обозначения.
Доходность фондового рынка
Если бы годовая доходность фондового рынка за последние 50 лет имела нормальное распределение (как показано на рис. 2.4), то среднее составило бы приблизительно 8 %, а одно стандартное отклонение 16 %. Это означает, что в любом году можно было бы ожидать доходность в 8 %, но при этом существовала бы 32 %-ная вероятность, что она была бы либо больше 24 % (16 % в правом хвосте, что определяется как среднее плюс одно стандартное отклонение), либо меньше –8 % (16 % в левом хвосте, что определяется как среднее минус одно стандартное отклонение). Чтобы узнать вероятность доходности в 20 % и выше, сначала нужно преобразовать формулу:
Если цель равна 20 %, получаем
Период времени, на протяжении которого можно достичь этой цели, совпадает с периодом данных, используемым для расчета стандартного отклонения, т. е. составляет 50 лет.
Выбор между плотностью распределения и стандартным отклонением
Плотность распределения важна, поскольку стандартное отклонение не работает в случае асимметричных распределений, наиболее характерных для большинства ценовых данных на длительных периодах времени. Мы уже видели это на примере цен на пшеницу и золото, где среднее минус два стандартных отклонения было намного ниже реалистичной минимальной цены. Плотность распределения дает более полезную картину. Если бы мы захотели, основываясь на плотности распределения, узнать цену на 10 %– и 90 %-ном уровнях вероятности, то нам нужно было бы рассортировать все данные от минимума до максимума. При наличии 300 точек данных 10 %-ный уровень находился бы в точке 30, а 90 %-ный уровень – в точке 271. Медианная цена располагалась бы в точке 151. Это показано на рис. 2.10 для цен на пшеницу.
Рис. 2.10. Отсечение 10 % от каждого конца плотности распределения. Из-за высокой плотности низких цен эта зона кажется узкой, в то время как менее плотные данные в области высоких цен зрительно занимают большее пространство
Измерение сходства
Многие читатели знакомы с концепцией корреляции – основной мерой сходства. Корреляция выводится из линейной регрессии, о чем мы подробно поговорим в главе 6 в разделе «Линейная корреляция».
t-статистика и степени свободы
Когда в распределении используется меньше цен или сделок, можно ожидать, что форма кривой будет более блуждающей. Например, пик распределения может оказаться совсем немного выше, чем любой из хвостов. Чтобы измерить, насколько распределение выборки из меньшего множества близко к нормальному распределению, можно использовать t-статистику (ее также называют t-критерием Стьюдента). t-критерий рассчитывается в зависимости от степени свободы (df), которая равна n – 1, где n представляет собой размер выборки, т. е. количество цен, используемых в распределении.
Чем больше данных в выборке, тем надежнее результаты. Мы можем получить общее представление о форме распределения, взглянув на табл. 2.2, где указаны значения t, соответствующие верхним областям хвоста 0,10, 0,05, 0,025, 0,01 и 0,005. Таблица показывает, что по мере увеличения размера выборки n значение t приближается к величинам, характерным для нормальных значений стандартного отклонения в областях хвоста.
Необходимые значимые значения t можно найти с помощью Excel. Функция ТТЕСТ возвращает вероятность, связанную с тестом, а функция СТЬЮДРАСП возвращает левостороннее распределение хвоста. Другие функции, связанные с t-распределением, можно найти, набрав в строке поиска Excel запрос «T распределение». Значимые уровни здесь такие же, как и в других тестах, где 5 % обычно считается значимым, а 1 % (0,01) – высокозначимым.
Таблица 2.2. Значения t, соответствующие вероятности появления верхнего хвоста 0,025
Степени свободы зависят от правил и переменных в вашей стратегии. Когда вы тестируете торговую систему, бо́льшая степень свободы означает, что необходимо больше данных для валидации стратегии. Это могут быть ценовые данные или количество сделок. T-тест – самый распространенный способ узнать, достаточно ли вы сделали.
t-критерий для двух выборок
У вас может возникнуть необходимость сравнения двух периодов данных, чтобы решить, не произошло ли значительных изменений в поведении цены. Некоторые аналитики используют двухвыборочный t-критерий для устранения противоречивых данных, однако характеристики цен и экономические данные постоянно меняются в результате эволюционного процесса, и торговая система должна приспосабливаться к этим изменениям. Этот тест лучше всего применять к результатам торговли, когда нужно понять, насколько устойчиво работает стратегия.
где и – средние значения цен периодов 1 и 2;
var1 и var2 – дисперсия цен периодов 1 и 2;
n1 и n2 – количество цен в периодах 1 и 2,
а два сравниваемых периода являются взаимно исключающими.
Степени свободы df, необходимые для определения доверительных уровней, можно рассчитать, используя аппроксимацию Саттертвейта, где s – стандартное отклонение значений данных:
Используя t-критерий для определения стабильности прибылей и убытков, генерируемых торговой системой, замените элементы данных на чистую доходность каждой сделки, количество элементов данных количеством сделок и рассчитайте все остальные значения, используя торговую доходность, а не цены.
Автокорреляция
Сериальная корреляция, или автокорреляция, ищет постоянство в данных – что означает, что будущие данные можно предсказать на основе прошлых данных. Это может говорить о наличии трендов. Автокорреляцию можно легко найти, если поместить данные в столбец А электронной таблицы, а затем скопировать их в столбец B, сместив вниз на одну строку. Затем определяется корреляция столбцов A и B. Дополнительные корреляции можно рассчитать, смещая столбец B вниз на 2, 3 или 4 строки. Так можно обнаружить существование цикла.
Формальным способом нахождения автокорреляции является использование критерия Дарбина – Уотсона, позволяющего получить d-статистику. Этот подход измеряет изменение остатков (e), т. е. разность между N точек данных и их средним значением.
Величина d всегда находится между 0 и 4. Если d = 2, никакой автокорреляции нет. Если d существенно меньше 2, существует положительная автокорреляция, однако при d ниже 1 сходство остатков превышает разумный уровень. Чем больше d превышает 2, тем более отрицательной представляется автокорреляция.
Наличие положительной автокорреляции, или сериальной корреляции, означает, что существует хороший шанс на повторение рассматриваемых событий в будущем.
Нормализация риска и доходности
Чтобы сравнивать один метод торговли с другим, необходимо нормализовать как тесты, так и параметры, используемые для оценки. Если одна система имеет совокупную доходность 50 %, а другая 250 %, мы не можем определить, какая из них лучше, если не знаем продолжительности тестов и волатильности доходности или риска. Если 50 %-ная доходность была получена за один год, а 250 %-ная доходность более чем за 10 лет, то первая лучше. В то же время, если первая доходность ассоциируется с 10 %-ным риском в годовом исчислении, а вторая с 50 %-ным риском, то системы эквивалентны. Соотношение доходности и риска крайне важно для результативности, о чем мы поговорим в главе 21 «Тестирование систем». А пока важно лишь запомнить, что доходность и риск следует выражать в годовом исчислении или нормализовать иным образом, чтобы сравнения имели смысл.
Расчет доходности
В простейшей форме однопериодная доходность r, или доходность за период владения, представляется как
Эта формула часто используется для расчета доходности для текущего года. Для фондового рынка, где цены меняются непрерывно, это можно записать как
где p0 – первоначальная цена, а p1 – цена после истечения одного периода. Эта формула не используется для фьючерсов, у которых данные с обратной корректировкой могут быть отрицательными. Для них есть формула:
В индустрии ценных бумаг часто предпочитают другой метод расчета с использованием натурального логарифма:
Оба метода имеют свои достоинства и недостатки. Чтобы различать эти два расчета, первый метод будем называть стандартным методом, а второй – логарифмическим методом. В этой книге по умолчанию используется первый метод, если не указано иное.