Для корректной обработки статистики турниров по го необходимо прежде всего выделить группы учета партий по уровням мастерства соперников. Здесь возможны два подхода:
группировать партии по средним рангам соперников;
группировать партии по равномерной вероятности побед/поражений в равных партиях для средних представителей из соседних групп.
При первом подходе принято для минимальных групп учета принимать партии игроков примерно одного ранга, затем к ним добавляются группы партий по увеличивающейся на один ранг разнице в силе игры. В этом случае базовыми группами учета будут партии на равных между игроками одного ранга, потом партии игроков, отличающихся на один, два, три, четыре ранга и т.д. Это самое мелкое деление шкалы рейтинга, которое используется на практике для статистического учета партий в го. Данный подход является традиционным и используется в статистике Европейской Го Федерации (ЕГФ) и ниже приводится пример такой статистики.
Следует отметить еще раз, что при поранговом учете статистики средние вероятности побед для пар из соседних базовых групп учета (отдельные ранги) меняются при смещении по шкале, т.к. вероятности побед зависят не только от разницы в силе игры, но и от уровня соперников. Поэтому при обработке статистики партий российских турниров был выбран второй подход: в этом случае вероятности в различных группах учета в среднем оказываются примерно одинаковыми по всей шкале (при фиксированной разнице между средними партнерами по шкале групп).
В го имеется естественная разбивка игроков по разрядам Единой Всероссийской Спортивной Классификации (ЕВСК). За основу разрядной сетки взята вероятность победы в 80% при встрече среднего игрока какого-либо разряда со средним соперником из разряда на одну ступень ниже, при этом вся шкала разбивается на следующие разряды по рейтингу:
Разбивка на группы на основе разрядной сетки лучше подходит для целей статистического учета партий в российских турнирах еще и потому, что в этом случае обеспечивается достаточное наполнение групп, т.к. в целом выборка партий не настолько объемна, чтобы можно было вводить более мелкие группы учета по рангам. Для партий на форе число групп увеличивается за счет разбиения базовых групп на подгруппы по величине форы (от 1 до 9). В некоторых случаях рассматриваются также укрупненные группы учета (например, нижняя и верхняя части шкалы рейтинга с границей по рейтингу 1500).
Основное внимание при анализе статистики следует обращать на разницу частот и вероятностных прогнозов, т.к. эта характеристика является главным критерием качества статистической модели, заложенной в основу рейтинг-системы (РС). Кроме того, различные группы учета имеют неодинаковую значимость для оценок качества РС: наиболее важными являются группы из верхней части шкалы, т.к. игроки из этой группы являются наиболее стабильными участниками РС и выступают в роли анкеров по отношению к остальным участникам. В форовых партиях наиболее важными являются группы с форой до 4 камней, т.к. здесь можно рассчитывать на хорошее соблюдение условия линейности форы, а при большей форе могут проявляться особенности, не достаточно изученные на данное время.
Отдельно следует отметить особенности учета партий игроков с экспертными оценками (ЭО) уровня игры. Часть игроков получает ЭО при первом входе в РС, но есть игроки, имевшие перерыв в выступлениях, за время которого они существенно повысили свой уровень и поэтому также получали ЭО, принимавшиеся за их новый стартовый уровень при пересчетах рейтинга. К этой группе примыкают игроки, которые не входят в РС (т.н. «внешние», в основном иностранные участники российских турниров) и их партии учитываются только в целях пересчета рейтинга игроков из РС. По указанным группам участников ведется дополнительная статистика, а игроки с подтвержденными ЭО, т.е. показавшие по результатам пересчитываемого турнира неотрицательное измененение рейтинга, учитываются в статистике наравне с обычными участниками РС. Необходимость отдельного учета неподтвержденных ЭО вытекает из того факта, что в 2005–2007гг наблюдалось значительное в среднем завышение ЭО по сравнению с реально достигнутым уровнем игры: в партиях участников с неподтвердденными ЭО против игроков из РС недобор побед достигал почти 30% в относительном выражении (в частоте).
Таким образом, вся статистика имеет следующую структуру: в основные группы учета входят партии между участниками из РС, включая игроков с подтвержденными ЭО, и отдельно ведется учет партий между игроками с ЭО и соперниками из РС (включая игроков с подтвержденными ЭО), а также дополнительно ведется учет всех партий игроков с неподтвержденными ЭО и внешних.
Все рейтинги и, соответственно, группы учета в статистических таблицах указываются с учетом проведенной в начале 2008 года коррекции шкалы. Параметры, относящиеся к старой шкале (вероятностные прогнозы, средние рейтинги соперников и их разница) указываются в отдельных колонках (ожидаемые результаты – с индексом 1).
2. Сравнительный анализ вероятностных функций в РС ЕГФ и РФГ(Б)
Вероятностная функция в той или иной РС является частью статистической модели и выбирается на основе специальных теоретических исследований или статистического анализа на больших выборках партий. Традиционно, начиная с шахматной РС А.Эло (1970), для формулы вероятностей в логических играх как правило выбирают кривую из семейства гауссовых распределений (интеграл Гаусса, т.е. нормальное распределение с экспоненциальной плотностью), или кривую с дробно-экспоненциальной зависимостью вероятностей победы от разницы рейтингов (класс так называемых «логистических кривых»). В РС ЕГФ выбрана логистическая кривая с двумя свободными параметрами, уточняемыми на основе статистического анализа. Класс нормальных распределений также является двухпараметрическим, и оба класса могут использоваться для взаимной аппроксимации при подходящем выборе параметров в заданном интервале значений рейтингов. Статистика равных партий в какой-либо узкой группе по рейтингу в данной РС задает одно условие на параметры, а второе условие обеспечивается статистикой форовых партий, так что для двухпараметрических семейств распределений этой информации вполне достаточно для полного определения статистической модели РС с зависимостью вероятностных формул как от разницы рейтингов, так и от уровней игроков при фиксированном классе распределений.
Поскольку анализ статистики ЕГФ (более 100 000 партий на момент разработки проекта РС-2005) и регулярно проводимый в ЕГФ мониторинг показали, что форовые соотношения в РС ЕГФ соблюдаются достаточно точно (в пределах статистической погрешности), то статистика ЕГФ пригодна для уточнения параметров вероятностных распределений как для форовых, так и для равных партий, если выбран какой-либо подходящий двупараметрический класс кривых (не обязательно только нормальных или логистических).
Соблюдение в РС правильных форовых соотношений означает, что вероятности побед/поражений при правильной форе близки к 50% независимо ни от разницы рангов, ни от расположения соперников на шкале рейтингов (рангов). В этом случае статистика партий на форе практически не зависит от не очень больших линейных сдвигов шкалы (при фиксированной точке отсчета, соответствующей рейтингу ИИ), а статистика равных партий характеризует истинные вероятностные соотношения в совокупности игроков независимо от выбора формулы вероятностей в РС, т.к. форовые соотношения от вида функции вероятностей не зависят. С другой стороны, обычно применяемые формулы вероятностей для равных партий инвариантны с высокой точностью относительно растяжений-сжатий всей шкалы с центром в рейтинге ИИ, принимаемом за относительную точку отсчета рейтингов. В наиболее часто используемых абсолютных шкалах рейтингов обычно эта точка не ниже 3000 пунктов.
Исходя из выше изложенного, в 2003 году было проведено статистическое исследование выборки партий ЕГФ на предмет определения подходящего для формулы вероятностей двухпараметрического класса функций и уточнения конкретных значений параметров. Оказалось, что частоты в равных партиях для различной фиксированной разницы в уровне соперников (1, 2, 3 и 4 ранга) качественно ведут себя одинаково: кривые частот имеют гиперболический вид, а при обращении частот (замена зависимой переменной – частоты Y – на обратную величину Z = 1/Y) эти кривые переходят в прямые, сходящиеся примерно в одной точке на оси рейтингов, которая имеет физический смысл рейтинга ИИ. Вычисленное на данной выборке с использованием метода наименьших квадратов значение рейтинга ИИ с высокой точность оказалось равно 3000 пунктов. Сами так полученные статистические прямые имели углы наклона с высокой точность соответствующие линейному приращению частот при переходе с одной прямой на другую. Поэтому для проекта РС-2005 был выбран класс непрерывных монотонных и симметричных по разнице рейтингов кривых, состоящих из трех кусков: константы 0 и 1 на достаточном удалении по разнице рейтингов от точки симметрии, где эта разница равна 0 и вероятность P = 50%, а в средней части между этими предельными значениями используется линейно-гиперболическая формула зависимости вероятности от разницы рейтингов (эта разность стоит в числителе дроби, прибавляемой к 0.5) и среднего уровня пары (расстояние пары от рейтинга ИИ – в знаменателе дроби).
Описанный выше класс кусочно-гладких кривых при не очень больших разницах рейтингов является хорошей аппроксимацией как для класса нормальных распределений, так и для класса логистических кривых при согласованном выборе параметров. Ниже в качестве иллюстрации приводится сопоставление частот с вероятностями по формулам ЕГФ и РС-2005 на выборке партий ЕГФ, в которых на равных встречались соперники со средней разницей уровней в один ранг (всего данная статистика содержала около 86 тыс. партий).
- -
Таблица 1. Сравнение частот побед в равных партиях с вероятностными прогнозами по формулам ЕГФ и РФГ при средней разнице в 1 ранг Приведены частоты побед более слабого в усредненных по рангам парах соперников
P_егф вероятность по формуле ЕГФ
P_рфг вероятность по формуле РФГ
В таблице опущены ранги от 15 кю и ниже ввиду больших отклонений в этой части шкалы из-за влияния нижней границы рейтинга, где ранг 20 кю присваивается в ЕГФ всем новичкам независимо от реального уровня игры. Как видим, линейно-гиперболическая формула на порядок точнее принятой в ЕГФ логистической кривой. Большие расхождения для формулы ЕГФ объясняются в основном тем, что при выборе параметров логистической кривой были взяты значения, заведомо занижающие вероятности побед для более слабого соперника почти на всей шкале (рейтинг ИИ в РС ЕГФ принят равным 4100). Подробные данные по использованной здесь статистике партий ЕГФ предоставлены в октябре 2006 года Европейским рейтинг-комитетом.
3. Коррекция шкалы по турнирам до 2008 года
В 20052007гг в России проведено 164 турнира, в которых сыграно 8354 партии, из них 1227 форовых. Анализ статистики по разным периодам и группам учета показал, что для устранения деформаций шкалы нужно сделать сжатие шкалы рейтингов с уменьшением амплитуды к верхним данам. С помощью процедуры подгонки параметров было установлено, что наиболее адекватной статистике 2007 года по верхней половине шкалы (1500 и выше) будет коррекция по следующей формуле
Rкорр = R + 0.2 * Corr * D,
где D = 3000 R, и коэффициент Corr равен 1 для R < 1500, т.е. чистое сжатие шкалы на 20% для регионалов, а для федералов (R >= 1500) Corr постепенно снижается до нуля по квадратичному закону
Corr = 1- (1 D/1500)2.
В таблице 2 приводятся поправки и конечные значения для рейтинговой лестницы рангов.
Так как коррекция шкалы проводилась по формуле, основанной на статистике 2007 года, т.е. определенной по фактическим результатам пересчета рейтинга по старой версии программы, то адекватность выбора параметров коррекции могла быть выяснена только на основе статистики, насчитанной уже после коррекции шкалы ("критерий истины практика").
Всего в 2008 году проведено 54 рейтинговых турнира. Общее число партий – 3108, в том числе форовых – 318 (10%). Из них учтено в статистике для игроков из РС 2346 равных и 207 форовых партии. Из 1259 участников у 78 (6.2%) зафиксирован аномальный результат, а суммарная аномальная коррекция составила 10791 пункт (по 138 пунктов в среднем). Суммарный прирост рейтингов в РС составил 9623 (по 7.6 пункта в среднем на участника), т.е. полностью покрывается аномальными поправками с небольшим относительным избытком.
Как видно из таблицы 3, частоты в форовых партиях очень точно соответствуют прогнозу (расхождение в 0.4%), в то время как без коррекции шкалы статистика дала расхождение в 6.6%. Соответствие шкалы рейтингов и шкалы данов-кю находится в пределах статистической погрешности и составляет 102 пункта на один ранг в среднем по всей шкале. Статистика равных партий по группам учета приводится в таблице 4.
Расхождение частот и прогнозов в равных партиях находится в пределах статистической погрешности. Наибольший вклад в разницу дали группа «Б-3» (15.8 побед, т.е. около 8%) и группа «3р» (12.7 побед, т.е. тоже около 8%). Без аномальных групп схождение частот и прогнозов прекрасное разница всего около 0.5%.
В заключение еще раз констатируем: приведенные результаты подтверждают правильность проведенной коррекции и в целом хорошую сбалансированность шкалы рейтингов к началу 2009 года.