ГоБиблиотека: Рейтинг/РФГ/Статистика

СТАТИСТИЧЕСКИЕ ОСНОВЫ РЕЙТИНГ-СИСТЕМЫ


Отчет по статистической обработке российских турниров
с учетом коррекции шкалы и без нее и общему мониторингу
рейтинг-системы РФГ(Б).

Подготовлен рейтинг-комиссией РФГ(Б) по результатам
статистических исследований и с учетом обсуждений
на специализированном подфоруме по проблемам рейтинга
форума «Кидо» в период с марта по октябрь 2008 года



В 2008 году в рейтинг-систему РФГ(Б) были внесены изменения (коррекция шкалы, модернизация алгоритма), а также к программе пересчета рейтингов был подключен блок статистических расчетов. На основании проведенных детальных статистических исследований рейтинг-системы (РС) получены результаты, излагаемые ниже в виде подробного отчета, включающего обзорную теоретическую часть (Введение, разделы по выбору коми и параметров шкалы, мониторингу РС) и общее описание результатов статистического анализа (раздел «Статистика турниров»).

Оглавление документа

Обозначения и сокращения:


РС – рейтинг-система
ИИ – идеальный игрок
Дан – ранг для оценки уровня мастерства опытных игроков
Кю – ступень (ранг) для оценки уровня основной массы любителей, не достигших 
     уровня данов
Анкер – стабильно выступающий игрок с незначительными колебаниями уровня игры
Рейтинг – числовая оценка уровня игры с достаточно мелкой шкалой, согласованной
     с рангами дан-кю
Рейтинговое событие – мероприятие по го (в т.ч. и отдельная партия), по
     результатам которого производится пересчет рейтинга участников
Рейтинговый период – интервал времени, охватывающий не менее одного рейтингового
     события, в течение которого  рейтинги участников считаются неизменными
     в целях пересчета рейтингов
Ранжировка – распределение какой-либо совокупности объектов по списку с 
     предпочтением по выделенному признаку;
     на шкале данов и кю таким признаком является ранг игрока, а в РС – рейтинг
Коми – компенсация в равной партии за право первого хода, которую начинающий
     первым (как правило черные) передает сопернику, или адекватная какой-то
     разнице в рейтинге добавка к форе в очках результата партии в го
Принцип гандикапа – способ выравнивать шансы сторон в партии при существенной
     разнице в силе игры
Схема Бернулли – статистический способ учета результатов серии партий в виде отображения
     последовательности побед и поражений с помощью чисел 1 и 0
Стандартное отклонение схемы Бернулли – статистическая характеристика разброса частот побед в
     случайном процессе формирования последовательности нулей и единиц в схеме Бернулли 
     (этот процесс подчиняется так называемому биномиальному распределению); 
     стандартное отклонение схемы Бернулли равно корню квадратному из суммы произведений  
     P (1 – P)  вероятностей побед (P) и поражений (1 – P) и при вероятностях, близких к 50%, 
     примерно равно половине корня квадратного из числа учитываемых партий
ЕГФ – Европейская Го Федерация
ЕВСК – Единая Всероссийская Спортивная Классификация


ВВЕДЕНИЕ

«Статистика знает все»


Игра го обладает уникальным свойством, отличающим ее от всех других распространенных интеллектуальных игр: здесь широко применяется форовый принцип (или «принцип гандикапа»), позволяющий очень точно выравнивать шансы в партиях между соперниками разного уровня мастерства. Такая особенность игры го очень важна в статистических расчетах, связанных с уточнением параметров РС.

В любых единоборствах парные сопоставления (игры или партии) между участниками РС служат статистической базой для расчета рейтингов. При этом более сильный соперник побеждает чаще, априорная вероятность его победы в партии больше 0.5 и задается определенной функцией вероятностей, постулируемой в РС. На основе результатов множества партий все игроки распределяются с помощью заданного алгоритма РС в виде ранжировки по некоторому числовому параметру ("рейтинг-коэффициенту" или просто – «рейтингу»). Шкала рейтингов в той или иной РС является достаточно условной и можно вводить бесконечно много шкал и РС, которые будут давать примерно адекватные ранжировки, т.е. с достаточно правдоподобными соотношениями «силы игры», выражаемыми числовыми рейтинг-коэффициентами. Однако РС, позволяющие всех расставить в единой шкале независимо от того, насколько часто играются партии меду представителями разных регионов и клубов, практически не существуют в большинстве игр, за исключением игры го именно за счет использования в ней форового принципа.

Как же на практике принцип гандикапа позволяет построить единую универсальную шкалу в го? Фора реализуется в виде выставления более слабым соперником ряда камней на доску перед началом партии. Фактически это означает определенное преимущество, предоставляемое данной стороне за счет нескольких ходов «вперед». Так как результат партии определяется числом набранных каждой стороной очков и любой «правильный» ход в самом начале партии также оценивается определенным числом очков, примерно (в среднем) одинаковым для оптимальной игры при первых 10-15 ходах, то число камней форы может служить ориентиром для построения грубой шкалы «рангов», предположительно однородной и линейной. Если задать начальный фиксированный ранг какому-то одному стабильному игроку ("анкеру"), то за счет форовых игр с ним можно ранжировать сначала всех близких по уровню мастерства к данному анкеру, а затем и остальных участников – через форовые игры с уже ранжированными игроками. Такая шкала используется в го с давних времен и единственная в этом случае проблема – привязка шкалы к какой-то единой точке отсчета. Обычно сильнейшие профессиональные игроки Востока получают ранг 9 дан, затем к ним привязываются другие профессиональные игроки и сильнейшие любители – с шагом в один ранг вниз вплоть до 1-го дана, потом остальные более слабые – по шкале от 1 кю (на один ранг ниже 1-го дана) и далее в принципе неограниченно вниз с ростом ступеней кю. Сегодня в Японии и в большинстве других стран используется обычно 20 ступеней кю.

Под однородностью шкалы кю-данов понимается то, что преимущество в очках результата партии, определяемое форой, не зависит от расположения игроков на фиксированной шкале, а линейность означает одинаковый прирост очкового преимущества с ростом числа камней форы. Если постулировать линейность и однородность шкалы кю-данов и задать определенное число пунктов рейтинга на один ранг (обычно 100 пунктов), то можно получить числовую шкалу рейтингов с мелким шагом в один пункт (1/100 ранга), привязанную к сильнейшим профессионалам, в которой каждому рангу будет в среднем соответствовать целое число, кратное с множителем 100 номеру ранга. Такая шкала должна иметь точку отсчета, т.е. некоторый фиксированный сдвиг, определяемый условным максимальным значением, приписываемым виртуальному игроку, который никому не проигрывает. Предполагается, что такой «идеальный игрок» (сокр. «ИИ») не совершает ошибок в ходе партии, т.к. обладает оптимальной стратегией, а такая стратегия всегда существует для игр типа го, что доказывается математическими методами. На основе описанного подхода и строятся сегодня рейтинговые шкалы и РС, используемые в разных национальных федерациях и международных организациях по игре го.

Итак, при построении современной РС в го, базирующейся на форовом принципе, требуется ответить на следующие вопросы:
– каково преимущество в результате партии, которое имеют черные за счет права первого хода (величина «коми»);
– какова величина шага шкалы в пунктах рейтинга, соответствующая увеличению форы на один камень, и как шаг шкалы рейтинга связан с величиной коми;
– как выбрать точку отсчета шкалы рангов и согласовано с ней точку отсчета рейтингов;
– как выбрать для РС функцию вероятностей, зависящую от разницы рейтингов, уровней игроков и может быть других параметров, например характеризующих стабильность выступления того или иного участника РС в турнирах;
– как учитывать при расчете априорных вероятностей исходов партий принцип гандикапа;
– что считать «рейтинговым событием» и как выбирать интервал пересчета рейтингов ("рейтинговый период", соответствующий одному или нескольким рейтинговым событиям);
– какой выбрать алгоритм пересчета рейтингов по итогам рейтингового события (или за один рейтинговый период);
– как задавать в РС стартовые рейтинги новым участникам и как компенсировать в алгоритме РС отток рейтинга от стабильных игроков к прогрессирующим;
– по каким критериям оценивать качество РС и как оптимизировать параметры.

Все выше перечисленные вопросы решаются на основе статистического анализа на больших выборках партий с привлечением современных методов теории вероятностей и прикладной математической статистики, в том числе с проведением при необходимости численных экспериментов, моделирующих поведение конструируемой РС во времени. Часть из обозначенных проблем рассматриваются в последующих разделах, а некоторые, имеющие алгоритмический характер, изложены в описании РС РФГ(Б).

РАЗМЕР КОМИ И ШАГ ШКАЛЫ


Коми в равных партиях стало использоваться относительно недавно – только после образования Японской Ассоциации го ("Нихон-Киин") в 20-х годах прошлого века. Первоначально размер коми был принят в 4.5 очка и с таким коми играли вплоть до конца 70-х годов. Пол-очка являются условной величиной для определения победителя при равном счете очков.

Однако статистика равных партий между профессионалами Японии показала, что такое коми является недостаточной компенсацией белым и размер коми был увеличен до 5.5 очков. В 80-х годах в Японии неоднократно публиковалась статистика игр с новым коми, в соответствии с которой черные побеждали примерно в 60% партий. Теоретико-вероятностный анализ при некоторых предположениях о распределениях силы игры профессионалов дает для ошибки определения величины коми оценку примерно в 2–3 очка. Поэтому в 90-х годах постепенно перешли на коми 6.5 очка, а в ряде турниров сегодня уже применяется коми в 7.5 очка. В РФГ(Б), как и в большинстве национальных и международных организаций по игре го, в настоящее время принято коми в 6.5 очка.

Шаг рейтинговой шкалы не имеет существенного значения – важно только, чтобы он обеспечивал необходимую точность ранжировки игроков. Обычно он выбирается кратным 100 и в большинстве РС принята шкала 100 пунктов на ранг (кю или дан). Нестабильность силы игры и, соответственно, отклонений рейтинга обычно имеют порядок от нескольких десятков пунктов (доли ранга) для уровня данов до нескольких сот пунктов (2–3 ранга) – для нижних кю. Поэтому шкала с шагом в 100 пунктов на ранг имеет достаточно мелкую «цену деления», чтобы обеспечить адекватную оценку уровня игры по рейтингу.

Размер правильного коми, т.е. обеспечивающего выравнивание шансов сторон при игре без форы, является внутренним свойством самой игры и в партии двух идеальных игроков (ИИ) конечный очковый результат должен быть в пользу черных ровно на величину коми (с точностью до условных пол-очка). К сожалению, определить теоретически точное значение правильного коми или экспериментально проверить адекватность используемого значения с абсолютной достоверностью практически невозможно. Остается только проводить мониторинг на основе статистики партий сильнейших профессионалов и наблюдать за согласием частот побед с ожидаемыми 50%. Однако на такую статистику влияет ряд факторов субъективного характера и прогресс в теории игры, и вполне возможно, что размер принятого на практике коми еще будет уточняться.

Между разницей в рангах (или рейтингах) двух игроков и ожидаемым средним очковым результатом партии между ними при не очень большой разнице в рангах имеется практически 100% корреляция. Поэтому правильное коми также должно соответствовать определенной разнице рейтингов. Если предполагать линейность и однородность шкалы рейтингов, то правильное коми должно быть эквивалентно половине шага шкалы (50 пунктов рейтинга при шаге шкалы в 100 пунктов на ранг). Т.е. два игрока с разницей уровней в полранга (50 пунктов рейтинга) в партиях без коми, когда черными играет более слабый соперник (фора 1), должны иметь равные шансы и частота побед любой из сторон при росте числа партий обязана приближаться к 50%. Сформулированное выше утверждение о соответствии правильного коми половине шага шкалы рейтингов доказывается следующим образом.

По предположению о линейности, нарастание очкового преимущества при добавлении камней форы происходит всегда на одно и то же число. Адекватная новой форе разница рангов увеличивается на соответствующее целое число, а разница рейтингов – на кратное добавленной разнице рангов (или добавленных камней форы) с коэффициентом 100 (зафиксируем такой шаг шкалы). Из симметрии ситуации при смене цвета соперников в игре без форы и без коми ясно, что размер коми должен соответствовать половине разницы ожидаемых очковых результатов партии при игре черными и белыми соответственно, т.к. переход от игры черными к игре белыми соответствует изменению ожидаемого результата партии на два коми. С другой стороны, добавление камня форы можно рассматривать как пас белых, и аналогично смена цвета эквивалентна пасу черных. Следовательно, смена цвета (два коми) эквивалентна разнице в один ранг, и коми в пунктах рейтинга эквивалентно половине шага шкалы.

Таким образом, при построении РС, согласованной с принципом гандикапа, необходимо учитывать, что фора в камнях эквивалентна разнице рейтингов пропорционально числу камней форы со сдвигом на полкамня (полранга), т.е. сдвиг эквивалентен одному коми, или 50 пунктов рейтинга при шаге шкалы 100 пунктов на ранг. Для обычно используемой форы от 1 до 9 камней получаем следующее соответствие между форой и адекватной ей разницей рейтингов: фора 1 (право первого хода без коми) = 50 пунктов, фора 2 (пас белых после первого хода черных) = 150, ..., фора 9 (8 пасов белых) = 850. Соответственно ожидаемый результат партии без форы между игроками разных рангов пропорционален удвоенному коми и составляет 13–15 очков на один ранг разницы в уровнях игры, если исходить из принятых на практике величин коми. Этот вывод хорошо согласуется с данными, известными из разных источников, по которым оценка очкового преимущества черных при форе в 9 камней составляет порядка 130–140 очков. Если вспомнить о том, что коми 5.5 было предположительно определено с ошибкой в 2–3 очка в пользу черных, то для форы 9, эквивалентной 850 пунктам разницы в рейтинге или 17 коми, получим оценку ~ 127 очков при коми 7.5, 136 очков при коми 8.

ТОЧКА ОТСЧЕТА ШКАЛЫ И ФУНКЦИЯ ВЕРОЯТНОСТЕЙ


Со времен А.Эло, который начал свои исследования по РС в 60-х года прошлого века, принято шкалу рейтинга для логических игр типа шахмат, шашек или го брать в диапазоне 0–3000 пунктов. Выбор максимальной точки отсчета не имеет существенного значения – можно взять для этой отметки шкалы любое другое число, например 4000 или еще какое подходящее значение. Главная цель любой РС – ранжировка участников по силе игры относительно друг друга, а сдвиг шкалы не меняет ранжировку. В частности, шкала может быть и неограниченна сверху или снизу.

Однако для логических игр двух лиц с полной информацией, к которым относятся шахматы, шашки, го и многие другие игры, справедлива теорема о существовании оптимальной стратегии. Игрок, обладающей такой стратегией (идеальный игрок, сокр. ИИ), не совершает ошибок и при равных стартовых условиях в партии не может проиграть. С другой стороны, реальные игроки совершают ошибки и результат партии определяется тем, кто меньше суммарно совершит ошибок (с учетом их значимости). В играх с качественным исходом партии (мат в шахматах, уничтожение материала соперника в шашках) не имеет особого значения, какой рейтинг приписать ИИ, в том числе его можно принять и бесконечно большим.

В го результат партии определяется очками, набранными соперниками, и ИИ должен набирать максимально возможную сумму, которая может в практических целях считаться ограниченной сверху, в то время как реальный игрок совершает ошибки почти при каждом из 120–150 ходов в партии. Результат партии в го, таким образом, определяется разницей набранных очков, вернее разницей суммарно сделанных соперниками ошибок, и каждый ход или его ошибочность могут теоретически быть оценены также в очках результата. При этом результат всегда конечен, и шкала рейтингов, согласованная со шкалой рангов, имеет тоже конечные оценки по разнице набираемых соперниками очков. Известно также, что с ростом мастерства уровень и частота совершаемых при отдельных ходах ошибок в среднем снижаются, а у ИИ уровень ошибок всегда равен 0. Поэтому правдоподобным выглядит предположение о конечности рейтинга ИИ, а рейтинг реальных игроков может неограниченно приближаться к этой отметке, никогда ее не достигая. Т.е. рейтинг ИИ должен быть конечным и являться асимптотическим значением на шкале рейтингов.

Исходя из выше изложенного, необходимо при построении РС для го после определения шага шкалы выбрать отметку, которая будет соответствовать рейтингу ИИ. Можно назначить такую точку отсчета произвольно, но можно исходить и из существующих ранжировок игроков и подбирать адекватное значение рейтинга ИИ на основе анализа статистических данных. Именно так и поступили в ЕГФ в 1998 году, когда приняли РС Чешской Ассоциации го (автор А.Чеплы). База партий ЕГФ содержала на тот момент более 100 000 партий, в том числе около 12% партий с гандикапом.

Здесь следует сказать сразу же и о выборе функции вероятностей, т.к. обработка статистики партий часто осуществляется с учетом прогнозируемых исходов. Исторически в первой РС Эло, внедренной в ФИДЕ в начале 70-х годов, была принята формула (точнее таблица вероятностей) на основе интеграла Гаусса (нормальное распределение). В РС ЕГФ и некоторых других применяется функция c дробно-экспоненциальной зависимостью вероятностей исходов от разницы рейтингов. Это семейство функций, асимптотически выходящих на 0 и 1 соответственно при бесконечно большой отрицательной и положительной разнице рейтингов, аналогично семейству нормальных распределений и имеет также два свободных параметра. Графики таких функций симметричны относительно средней точки, где вероятность равна 50%, и общее наименование класса – логистические кривые. Формула вероятностей на основе логистической кривой для парных сопоставлений впервые была предложена в 1953 году (модель Брэдли-Терри). Она выводится теоретически из предположения о транзитивности отношения частот побед (подробнее – см. сайт ЕГФ например), а статистического обоснования для игр, похоже, не существует.

Само по себе предположение о транзитивности отношений частот является далеко не очевидным и поэтому не подходящим для постулирования при построении РС. Любое другое предположение, например о нормальном поведении распределения вероятностей, ничем не хуже. Более того, интеграл Гаусса является интегро-экспоненциальной функцией с аналогичными свойствами, что и у логистической кривой, и они могут использоваться для взаимной аппроксимации (возможно, что логистические кривые появились вообще из экспериментов над случайными нормально распределенными величинами как упрощение нормальной гауссовой формы).

Теоретико-вероятностный анализ показывает, что для асимптотических свойств сходимости РС к адекватной ранжировке вид функции вероятностей не так важен. Однако в практических целях достоверного прогнозирования исходов конечного числа турнирных партий роль правильного выбора функции вероятностей невозможно переоценить. Как же выбрать функцию вероятностей, если ничего практически неизвестно об индивидуальных распределениях силы игры участников РС? И тут снова игра го оказывается в исключительном положении, опять благодаря все тому же форовому принципу.

Если начальное распределение рейтингов произвольно и задана какая-то формула вероятностей и нет других механизмов извлечения информации, кроме парных сопоставлений (без форы или иных коррекций разницы в рейтингах), а все игроки уже стабилизировались и не меняют своего уровня, то вероятно распределение рейтингов будет сходиться к равновесному состоянию, где все наблюдаемые частоты побед будут в среднем совпадать с ожидаемыми исходами, рассчитанными по некоторому вероятностному закону. Точнее, есть основания считать, что если играются только форовые партии, то сходимость будет к некоторому универсальному распределению, не зависящему от исходной формулы вероятности. Скорость сходимости в подобных случайных процессах крайне низка, но механизм стабилизации РС за счет форовых партий на порядок более эффективен, чем «автокоррекции» за счет равных партий.

Действительно, в го начальные распределения рангов (и порождаемых ими рейтингов) фактически всегда довольно точно соответствуют правильным форовым соотношениям. Аналогично обстоит дело и с рангами новых игроков, т.к. их экспертные оценки тоже как правило основаны на партиях с форой. Правильность форовых соотношений в шкале рангов (рейтингов) является очень устойчивым признаком, если играется достаточное количество форовых партий. Устойчивость определяется тем, что фора как правило выбирается близкой к реальному соотношению рангов и вероятности исходов приближаются к 0.5 независимо от вида заложенной в РС формулы вероятностей. Т.е. форовый принцип подавляет ошибки формулы вероятностей, и из статистики равных партий в сообществе игроков с правильными форовыми соотношениями можно получить информацию об истинном виде распределения вероятностей. Это фундаментальный вывод, подтверждающийся экспериментально: в ЕГФ хорошо выполняются форовые соотношения, что регулярно проверяется и подтверждается при мониторинге РС, однако формула вероятностей, основанная на логистической кривой, дает большие расхождения с наблюдаемыми частотами в равных партиях и это расхождение никак не уменьшилось за последние 5 лет, хотя объем статистики из более чем 108000 партий за тот же период вырос примерно в полтора раза.

С другой стороны, в России прекратили учитывать в рейтинговых расчетах форовые партии примерно лет 20 назад и за последующий период вплоть до введения нового проекта РС-2005 форовые соотношения не могли не искажаться. В этот период действовали два дополнительных фактора, способствовавшие накоплению искажений: во-первых, формула вероятностей, применявшаяся с 1990 года, не подходила для всей шкалы (область корректного ее применения была очень узкой по диапазону рангов, т.к. статистическая выборка содержала только партии 1–5 данов), и, во-вторых, мониторинг РС не осуществлялся и вообще никак не контролировались возможные деформации шкалы рейтингов. Наличие деформаций было выявлено позже в 2008 году, после того как принятый новый проект РС-2005 отработал 3 года и был накоплен свежий статистический материал.

Поскольку статистика ЕГФ, как показано выше, пригодна для выявления истинных вероятностных соотношений, то такая работа по статистическому анализу была проделана в 2003 году и было выяснено, что наиболее подходящим для выбора функции вероятностей из достаточно простых классов кривых является дробно-гиперболическое семейство. В общем виде формула вероятностей по проекту РС-2005 содержит постоянный член 0,5 и добавок в виде дроби, в числителе которой стоит разница рангов (рейтингов), а в знаменателе – некоторое среднее расстояние партнеров по шкале рейтинга от точки отсчета – рейтинга ИИ. Сравнение средних частот по всем рангам при средней разнице между партнерами в 1, 2 или 3 ранга дало очень хорошее согласие при простых коэффициентах базовой формулы, и только при разнице в 4 ранга было более существенное расхождение, превышающее допустимую статистическую погрешность. Последующие повторные сопоставления частот и ожидаемых результатов на расширенной статистике ЕГФ показали такое же хорошее согласие – за прошедшие годы не изменилось практически ничего.

Следует сказать, что распределения рейтингов игроков (или точнее поправок) будут всегда асимптотически нормальны, независимо от конкретных индивидуальных распределений вероятностей, т.к. это свойство схемы Бернулли, от стандартного отклонения которой поправки в РС типа Эло зависят линейно (корреляция 100%). Принятый в РС РФГ(Б) вид формулы вероятностей можно, при определенных предположениях, вывести теоретически из аппроксимации нормального распределения вероятностей, которое вполне естественно было бы постулировать, учитывая большое число совершаемых в партии ходов. В этом случае вполне вероятно (но не с абсолютной достоверностью) соблюдаются условия применимости центральных предельных теорем теории вероятностей, и тогда сумма случайных величин, каковыми являются ошибки соперников, совершаемые ими в ходе партии, является асимптотически нормальной.

МОНИТОРИНГ РС НА ОСНОВЕ СТАТИСТИКИ ПАРТИЙ


Какую РС в го, базирующуюся на форовом принципе, можно считать идеальной? Очевидно такая РС должна давать прогнозы результатов партий, незначительно отклоняющиеся от наблюдаемых частот побед/поражений, т.е. в среднем по всей шкале отклонения частот от прогнозов должны находиться в пределах статистической погрешности, а заданный шаг шкалы (у нас принято 100 пунктов на ранг) должен правильно отражать форовые соотношения между игроками, т.е. при точно выбранной по разнице рейтингов форе частоты должны сходиться к 50%. Обычно фора задается неточно (с недобором в пользу белых), поэтому частоты в форовых играх просто должны быть адекватны прогнозу, вычисленному по рейтинговой разнице между соперниками с учетом даваемой форы. Если играются в достаточном количестве форовые игры, то шкала в большей своей части сохраняет правильные форовые соотношения даже при неправильной формуле вероятностей, что подтверждается на статистике ЕГФ (12% форовых партий), где ведется мониторинг выполнения форовых соотношений, показывающий хорошее согласие с условием «100 пунктов рейтинга на один ранг», в то время как статистика равных партий показывает значительные расхождения частот и прогнозов (в некоторых случаях более 10%, что на статистике в тысячи партий в группах по рангам в несколько раз превышает допустимую статистическую погрешность).

В России в период с 1985 по 2005гг. практически не проводились форовые рейтинг-турниры. Коме того, формула вероятностей, принятая в РС-90, была выбрана на основе статистики равных игр 1–5 данов и не годится для всей шкалы от 7 дана до 20 кю. Кроме того, параметры функции вероятностей РС-90 постоянны и одинаковы для всех уровней игроков. Поскольку обычно во всех РС имеется еще и переток рейтинга от стабильных игроков к растущим, то можно было ожидать, что статистика российских партий за 2005–2007гг. позволит выявить какие-либо деформации в шкале рейтингов. Ниже перечислим еще раз основные факторы, влияющие на возникновение деформаций, и рассмотрим механизмы действия этих факторов на шкалу рейтингов.

Фактор 1. Отсутствие форовых рейтинг-партий.
Фактор 2. Неправильная формула вероятностей.
Фактор 3. Переток рейтинга от стабильных игроков к растущим.

Как уже отмечалось, без учета в РС форовых партий реальная шкала рейтингов не может быть адекватной теоретической шкале, получаемой из традиционной лестницы кю-данов на основе постоянного шага в 100 пунктов рейтинга на один ранг. Действительно, все применяемые на практике формулы вероятностей с точностью до величин третьего порядка от разницы рейтингов для равных партий инвариантны относительно растяжений-сжатий шкалы с центром в рейтинге ИИ (точка отсчета шкалы, у нас 3000) и такие деформации не могут быть обнаружены «изнутри системы». Если играются только равные партии, то рейтинги стремятся постепенно занять положение, при котором частоты минимально отклоняются от вероятностей, какой бы неправильной не была сама формула, и шаг становится отличным от 100. Таким образом, если формула задана с ошибкой, то возникает деформация шкалы со следующим механизмом ее формирования.

Рассмотрим формулу вероятностей РС-90 и возьмем середину шкалы. Пусть изначально шкала адекватна лестнице рангов и вообще правильная, а игрок с рейтингом 1000 (11 кю) встречается попеременно с соперниками выше его на один ранг, которым проигрывает, и ниже его на один ранг, у которых выигрывает. Ошибка формулы вероятностей в этом случае составляет около 11% и симметрична: вероятность победы по предположительно правильной формуле РС-2005 составляет 55% во встречах с более слабыми, 45% – с более сильными. Формула РС-90 дает соответственно 66% и 34%. В итоге при коэффициенте динамичности 100 (это значение не принципиально, для простоты берем круглое число) получим, что при выигрыше у более слабого в РС-90 игрок недополучает при пересчете 100 х 0,11 = 11 пунктов рейтинга. Но точно на такую же величину игрок теряет меньше чем положено при проигрыше старшим, т.е. шкала в средней части в обычных условиях стабильной игры не деформируется, хотя колебания рейтинга по амплитуде существенно увеличиваются по сравнению со случаем применения правильной формулы. Для рассмотренного примера: при 20 партиях с более слабыми и таком же числе с более сильными ожидаемое число побед и поражений соответственно 11/9, при совпадении частот с прогнозом при правильной формуле изменение рейтинга в обоих случаях равно нулю, а по формуле РС-90 -202 и +202 соответственно (в сумме тоже 0).

Однако на краях шкалы симметрия нарушается: снизу игрок обычно встречается в основном с более старшими по рейтингу, и хотя чаще им проигрывает, но при этом у него отбирается меньшее число очков, чем положено по правильной формуле, а при более редких выигрышах он получает лишние очки. В итоге баланс рейтинга самого нижнего участника РС даже без роста мастерства оказывается положительным и рейтинг слабейших в РС игроков начинает расти. Затем избыток рейтинга может частично или полностью поглащаться естественным в этой части шкалы ростом мастерства или просто перераспределяется среди чуть более сильных соседей, и тогда этот процесс оттока рейтинга к самым слабым компенсируется снижением рейтинга остальных участников РС, в основном в нижней части шкалы, т.е. эта часть шкалы растягивается книзу с уплотнением шкалы вблизи рейтинга самых слабых (образуется «горбик» в распределении отклонений частот от вероятностей – что-то типа солитона).

Вверху шкалы ситуация прямо противоположная, за исключением того, что избыток рейтинга, получаемый лидерами, никуда рассосаться уже не может, т.к. им присуща стабильность в игре и они сохраняют лидирующие позиции длительное время. В итоге лидеры начинают отрываться по рейтингу от остальной группы чуть более слабых стабильных игроков, снижая их средний рейтинг. Это явление было подтверждено экспериментально в РС-90 при анализе рейтинга А.Динерштейна: его российский рейтинг по РС-90 в 2003 году был уже 2878, что превышало его европейский рейтинг 2762, примерно адекватный в среднем в верхней части шкалы российскому рейтингу, на 116 пунктов. После экспертной оценки рейтинга А.Динерштейна в 2800 пунктов, сделанной в 2005 году для нового проекта РС-2005, он сохранил в последующие 3 года тот же уровень с незначительным снижением рейтинга (в пределах 20–25 пунктов), причем рейтинги в ЕГФ и РФГ(Б) у А.Динерштейна очень близки в течение всего рассматриваемого периода (обе формулы вероятностей в области 6–7 данов дают близкие прогнозы).

Чтобы еще раз наглядно представить скорость отрыва лидера в РС-90, рассмотрим обычного среднего соперника А.Динерштейна в российских турнирах – это как правило игрок 5–6 дана, отстающий от него в среднем на 2 ранга (200 пунктов). Если принять стартовый рейтинг Динерштейна в 2700 пунктов (конец 90-х годов), а его соперника – 2500, то их средний рейтинг равен 2600 (400 пунктов от ИИ) и вероятность победы старшего по РС-2005 будет 100%, а по РС-90 только 80%. Таким образом, выиграв 10 партий у 5-х данов, Динерштейн зарабатывал около 20 пунктов рейтинга просто так, за счет ошибки формулы вероятностей. Поэтому нет проблемы лет за 5 набрать 100 «лишних» пунктов. Заметим еще раз, что такой процесс отрыва лидера приводит к снижению среднего рейтинга основной части игроков дан-уровня без реального снижения уровня игры, и эта волна деформации постепенно смещается вниз шкалы.

Следует еще раз подчеркнуть, что описанные выше процессы дефоромации шкалы играют существенную роль только именно в случае отсутствия учитываемых в РС форовых партий. Так как фора сводит все вероятности побед/поражений примерно к 50% независисмо от конкретного вида функции вероятностей, применяемой в той или иной РС, то ошибки данного вида подавляются при пересчете форовых партий и форовый принцип, таким образом, является мощным стабилизатором всей рейтинговой шкалы.

Последний из рассматриваемых факторов – рост мастерства игроков – также приводит в целом к деформации шкалы типа растяжения, т.к. растущий игрок отнимает лишние пункты рейтинга в основном у более старших, и продвигаясь по шкале вверх вплоть до своего уровня стабилизации может суммарно отнять у стабильных игроков тысячи пунктов рейтинга. В самом деле, пусть игрок вошел в РС с рейтингом 1000 (11 кю), а стабилизировался на уровне 2000 (1 кю). Тогда этот прирост в 1000 пунктов, если не было экспертных оценок и аномалок, полностью получен за счет отбора примерно такого же количества пунктов у остальных игроков (сначала только у соперников, с которыми встречался растущий, а потом этот дефицит рейтинга перераспределяется между всеми остальными участниками). Если в РС кроме растущего еще 10 стабильных игроков, то они понизятся в рейтинге каждый на целый ранг! При 100 игроках среднее снижение уже не так заметно – всего 10 пунктов. Однако при достаточном количестве в РС растущих игроков стабильные игроки постоянно теряют рейтинг. По оценкам для РС-90 эта скорость потери рейтинга стабильной группой данов составляла до 20 пунктов в год и за 15 лет эксплуатации РС общие потери рейтинга достигали порядка 300 000 пунктов.

Описанные выше механизмы деформации полностью подтверждаются статистикой: проведенная в начале 2008 года коррекция шкалы, основанная на статистическом анализе всех сыгранных в РС партий, хорошо исправляет ситуацию по статистике для 164 турниров 2005–2007гг. В 37 турнирах 2008 года эффективность коррекции также подтвердилась: имеется хорошее совпадение частот с прогнозами (сдвиги для скорректированных рейтингов находятся в пределах статистической погрешности, в то время как статистика без коррекции шкалы на том же наборе партий дает существенно большие расхождения). Более того, анализ статистики показал, что уже к концу 2005 года расхождения частот и прогнозов стали уменьшаться за счет резкого увеличения числа форовых игр (18% в 2005 году, в среднем 13% в последние три года), а также за счет применения более правильной функции вероятностей и использования более динамичного алгоритма, основанного на усовершенствованном методе аномальной коррекции и применении формул Гликмана с индивидуальными отклонениями рейтинга. Но скорость такой сходимости крайне низка, в последующие два года скорость автокоррекции упала и для исправления шкалы внутри самой РС без коррекции административным способом пришлось бы ждать лет 10–15, т.е. примерно столько же, сколько деформации накапливались.


Комментарии