ГоБиблиотека: ВЕБ/ДГС/Драгун1/Комментарии

Комментарии к турниру «Драгун-1». В основном это касается пересчета рейтинга, т.к. РС на Драгоне в версии ГБ только запускалась «с нуля».

Карта корневого раздела — ВЕБкарта

Автор материаловСергей Павлов

Оглавление документа

Описание расчетов

Предварительные замечания

  • Одной из основных целей турнира является отработка методики пересчета рейтинга по новому проекту, в том числе уточнение технических параметров рейтинг-системы, методик корректировки параметров. Но ввиду отсутствия программы, реализующей полный и достаточно сложный алгоритм, а также учитывая отсутствие данных по достоверности рейтингов, пересчет проведен по упрощенной схеме: все коэффициенты, учитывающие неопределенность рейтинга – коэффициенты влияния B в проекте РС – приняты равными 1, коэффициенты динамичности взяты из начального проекта РС (объясняются в следующем пункте).
  • Начальный рейтинг определен на основе экспертных оценок и, возможно, содержит серьезные ошибки для отдельных игроков. Будем предполагать начальную достоверность рейтинга участников соответствующей заданию коэффициентов стабильности в перовначальном проекте, равных 0.5. В результате пересчета некоторые игроки повысят достоверность рейтинга, некоторые могут понизить (аномальные результаты). Задача «номер один» – отработать технику запуска рейтинг-системы «с нуля».
  • Замечание о коэффициенте аномальности. Более тщательно был расмотрен вопрос о критерии аномальности результата, в качестве которого в первоначальном проекте РС было предложено брать S (стандартное отклонение) из схемы Бернулли, а в скорректированном на основе результатов Гликмана новом проекте естественно было бы брать ст. отклонение каждого игрока перед пересчетом, которое в данном случае неопределено. Поступим тогда так. Конечная дисперсия в результатах по разнице прогнозируемых и набранных очков – это фактически дисперсия суммы двух независимых случайных величин: одна отвечает за ошибку в начальном рейтинге (и имеет ст. отклонение Sнач) и нам пока неизвестна, вторая – известная случайная величина, задваемая схемой Бернулли (S10 = sqrt(n*p*q) = 1.58). По теоерме о сложении дисперсий, получаем, что итоговая дисперсия D20 есть сумма дисперсий этих двух случайных величин. Так как о схеме Бернулли все известно, то в итоге можем вычислить оценку для дисперсии ошибки в начальном рейтинге, учитывая что между этой ошибкой и той частью конечной ошибки (Sнач), которая и наблюдается в турнире, имеется линейная зависимость, задаваемая формулой для вероятности (потому что изменение рейтинга предполагается пропорциональным расстоянию от идеального игрока по шкале рейтинга – это заложено в коэффициентах динамичности). Теперь мы готовы вычислить эту оценку. Она зависит от уровня игрока. Например, ошибка в вероятности победы имеет ст. отклонение 21.5%, поэтому в районе 1 кю получаем, что ошибка в рейтинге имеет ст. отклонение около 1000*0.215 = 2 кю. В районе 11 кю этот параметр ошибки в два раза выше. Действительно, такие игроки как Илья Мартынов и Вадим Ляховский имели реальную ошибку в начальном рейтинге больше этой величины, причем существенно. Они и внесли основной вклад в дисперсию начального рейтинга. С учетом всего вышеизложенного, разумно в качестве критерия аномальности брать именно вычисляемое из статистики ст. отклонение Sнач, которое примерно в полтора раза больше ст. отклонения схемы Бернулли. Если бы ошибка в начальном рейтинге была равна нулю, то и Sнач оказалось бы близким к нулю, поэтому ст. отклонение схемы Бернулли в данном случае будем использовать как нижнюю границу критерия аномальности.
  • Стандартное отклонение в начальных рейтингах не задано. Но мы приняли некоторые предположения относительно коэффициентов, а тогда это приводит к уравнениям на нач. ст. оклонения, получаемые решения можно взять в качестве начальных значений и затем вычислить конечные значения по общим формулам нового проекта РС (это будет сделано несколько позже).


Первый этап пересчета рейтинга

  • Определяем разницу между прогнозируемым результатом и набранными очками (суммой числа побед) для каждого игрока. Для этого в каждой графе для всех партий по порядку в основной таблице – а в строке у каждого свой порядок партий – находим и записываем в виде отношения (оно будет вычисляться потом) сдвиг рейтинга или несоответствие рейтинга и форы, а также расстояние партии от максимального рейтинга в 3000 очков (средняя разница между 3000 и рейтингами партнеров, которая вычисляется как среднее геометрическое соответствующих индивидуальных расстояний до идеального игрока). Например, первая партия в первой строке имеет это расстояние: sqrt[(3000–2300)*(3000–2200)] = 748. Почему не просто среднее арифметическое? В действительности эти средние близки друг к другу и различаются в доли процента для большинства пар. Однако только среднее геометрическое удовлетворяет очевидному асимптотическому условию, что расстояние должно стремиться к нулю, когда рейтинг одного (любого) из партнеров стремится к 3000. Сдвиг рейтинга в большинстве партий при линеной форе не более 9-ти камней будет 50 очков (полразряда – дана или кю). Поэтому в первой ячейке получаем 50/748, что равно 6.7% и, следовательно, это и есть превышение вероятности победы белых над 50%, а сама вероятность – 56.7%. Поскольку белые выиграли, то разница между прогнозируемым результатом (0.567) и полученным (1.0) равна +0.433, что и записываем. Ну и т.д. В итоге у Сергея Межова суммарная разница получается 1.69.
  • Находим коэффициенты аномальности. Для этого берем вычисленное (см. выше в предварительных замечаниях) стандартное (среднее квадратичное) отклонение Sнач и вычисляем Кан. Результы проведенных расчетов приведены в таблице. Как видим, только у пяти игроков наблюдалось положительное аномальное отклонение и только двое вышли за пределы удвоенного критерия аномальности, т.е. получают «аномалку» на 100%. Для игроков, у которых Кан равен нулю, пересчет рейтинга по старой системе делается перемножением каждого из полученнх значений разницы между набранными и прогнозируемыми результатами на некоторый коэффициент динамичности (ок. 15 для игроков 3 дана), может еще с коэффициентом 2 как для не совсем достоверного начального рейтинга. В новой схеме нужно в каждой из суммируемых долей общей разницы (числа в отдельных клетках) учитывать достоверность рейтингов соперников – при низкой достоверности снижать влияние соответствующего слагаемого на общее изменение рейтинга. Поэтому пересчет всех рейтингов делается только после выяснения всех аномальных результатов и соответствующих коэффициентов аномальности. Если расчет проводить без учета этого, то по условиям упрощения пересчета (по первой версии нового проекта РС) базовый коэффициент динамичности равен 2D, где D – расстояние игрока в данах от идеального. За счет недостоверности начального рейтинга по первоначальному проекту РС нужно удвоить коэффициент динамичности и в рассматриваемом примере для С. Межова получим К = 14*2 = 28. В итоге +47 очков рейтинга без учета «аномальности» соперников. Игроки, имеющие «отрицательно аномальный» результата изменяют свой рейтинг по обычной схеме – к ним не применяется «аномалька» на понижение. Но и такая аномальность учитывается: влияние их партий на рейтинг соперников снижается пропорционально аномальности результатов. В конечном ст. отклонении тоже учитывается всякая аномальность, в том числе и «отрицательная».


Второй этап пересчета рейтинга

  • Аномальная поправка к рейтингу вычисляется только для пяти игроков (выделено красным), причем только для двух (у которых Кан = 1) это и будет окончательным значением. Для остальных трех проводится интерполяция между обычной и аномальной поправками.
  • Учитывая все ранее сказанное, остается описать общую схему расчета поправки к рейтингу, котрая для неаномальных игроков и будет окончательной, а для аномальных с коэффициентом Кан меньше единицы – будет участвовать в интерполяции (см. вторую графу в итоговых расчетах изменения рейтинга в правой части таблицы). Итак, общая схема, или «обобщенная схема Эло» (Sum {} означает суммирование):

DN = Sum {Bi*(ri – pi)}, сумма берется по всем i = 1, 2, ..., N, а число туров в данном случае равно 10.

DR = Kдин * DN; Кдин = 4 * (3000 – Rнач)/100.

Коэффициент 4 уже объянялся выше – он удвоен по сравнению с принятым по первоначальному проекту РС. Так, при достоверном рейтнге коэффициент динамичности Кдин был бы равен 14 для С.Межова (3 д), а в данном случае он в два раза больше: Кдин = 28 и т.д.


Некоторые пояснения к вычислениям


Как рассчитываются коэффициенты Bi?

Эти коэффициенты учитывают индивидуальное взаимное влияние партий между конкретными соперниками на изменение рейтинга с учетом достоверности «входного» рейтинга каждого и аномальности выступления в данном турнире. Если в турнире все игроки имеют одинаково достоверный начальный рейтинг и нет аномальных результатов, то эти коэффициенты одинаковы везде и близки к 1 (приняты равными 1 в данном упрощенном случае). Поскольку в турнире имеется несколько аномальных результатов, то достоверность рейтинга становится неравномерной и эти коэффициенты меняются от партии к партии (и не одинаковы для партнеров в одной и той же партии). В общем случае вычисление этих коэффициентов описано в проекте РС.

Общая идея такова: если достоверность рейтинга соперника ниже, то результат партии с ним должен меньше влиять на изменение рейтинга. Начальная достоверность одинакова у всех, коэффициенты динамичности взяты «почти с потолка» (из старого проекта), поэтому мы и положили Вi = 1 приближенно для всех партий (без учета аномальности). Учет аномальных выступлений приводит к корректировкам некоторых из этих коэффициентов. Если соперник имеет результат в пределах нормы по критерию аномальности (как в положительном, так и в отрицательном направлении изменения рейтинга), то влияние партии полное и Вi = 1 по-прежнему. Если же в ходе турнира соперник получил коэффициент аномальности, отличный от нуля, то далее:

если Кан,i > Кан и игрок проиграл этому аномальному сопернику при положительной аномальности, или выиграл у этого аномального соперника – при отрицательной аномальности, то

Вi = (1 – Кан,i)/(1 – Кан),

т.е. чем более аномальный результат у соперника, тем меньше влияет на рейтинг проигрыш/выигрыш (при положительной/отрицательной аномальности) в партии с таким соперником – ведь у него предположительно оказался существенно занижен/завышен начальный рейтинг. В остальных случаях по-прежнему Вi = 1.

Как рассчитывается рейтинг при аномальном результате?

При расчете рейтинга, соответствующего аномальному результату (или при первом вхождении игрока в рейтинг-систему), после вычисления Dср и Dh сдвиг Dан от рейтинга в 3000 очков находится из решения уранения

p = 0.5 + (DфDан) / sqrt(Dср*Dан),

где p - наблюдаемый процент побед данного игрока. При первом входе Rнач должно выбираться согласно назначаемой форе, т.е. можно считать, что уранение

Rф = Rнач – Dh

в этом случае есть определение для Rнач. Почему вверху в числителе одно значение рейтинга (разница рейтингов берется по «сдвинутому рейтингу» с учетом форы), а внизу в знаменателе – другое? Второй (не сдвинутый) рейтинг отвечает за дисперсию и он неизменно входит в формулу вероятности (при вычислении ожидаемых очков именно такой же средний сдвиг рейтинга использовался для каждой пары). А учет сдвига за счет форы осуществляется изменением разницы рейтингов, которая входит в числитель формулы для вероятностей.

Обозначим Dф = 3000 – Rф, Dср = 3000 – Rср и сделаем замену: z = sqrt(Dан), которая корректна, так как Dан по смыслу всегда больше нуля. Получим простое квадратное уравнение относительно z с единственным неотрицательным корнем и в результате найдем

Dан = z2 = Dср*{sqrt[(2p – 1)2/16 + Dф/Dср] – (2p – 1)/4}2.

В частности, для Сергея Межова получаем Dан = 582, что соответствует рейтингу 2418, или приращению в 118 очков. Из полученной формулы следует также, что существует решение и для p = 1 (или, аналогично, при равенстве p нулю – т.е. решается задача установления приближенного начального рейтинга и тогда, когда все партии выиграны или проиграны – в отличие от рейтинг-систем типа Томпсона, как на сервере КГС, где эта проблема – камень преткновения). При p = 1 получаем, что среди равных соперников и при игре без форы стопроцентный результат означает примерно превышение рейтинга на столько, что расстояние до 3000 очков рейтинга ближе по сравнению с Dср = 3000 – Rср в {0.25*[1 + sqrt(17)]}2 = 1.64 раза. Заметим, что полученное значение является следствием применяемой формулы вероятностей, для которой выход на значение в 100% происходит для конечной разницы в рейтинге (таким образом, мы по ходу дела нашли эту самую точку пересечения графика функции вероятностей с горизонталью p = 1).

При первом вхождении игрока в рейтинг-систему можно пользоваться и другой эквивалентной формой уравнения, в которой будет средний гандикап Hср вместо Rнач:

p = 0.5 + (Dср – Dан – Hср) / sqrt(Dср*Dан).

Решение в этом случае будет выглядеть так:

Dан = Dср*{sqrt[(2p – 1)2/16 + 1 – Hср/Dср] – (2p – 1)/4}2.

В последнем случае в принципе можно не задавать никакого начального рейтинга для игрока, только из каких-то соображений устанавливая фору. Это пригодилось бы на игровых серверах, где вход в систему не очень внятно объясняется и никак не прогнозируем. В данном случае все вычисляется по результатам серии игр с любыми соперниками и на любой форе.


Комментарии