ГоБиблиотека: Рейтинг

Раздел по рейтингу и методам его расчета.

Го (ГоКарта) => Го/Методики => Го/Методики/Рейтинг
Карта раздела 'Рейтинг':

 

ВЕБ-рейтинги для серверов (пока – только для ДГС
ЕГФ-рейтинги по РС ЕГФ
      ~ ЕГФ-коды стан
      ~ комментарии по разделу
      ~ описание РС ЕГФ
      ~ правила предоставления таблиц
      ~ соответствие рангов и рейтингов
РФГ-рейтинги по новой РС
      ~ текущий рейтинг-лист
Рейтинг-системы, общий раздел по теории
      ~ рейтинг-система Гликмана
      ~ комментарии по разделу
      ~ статья по основам рейтинга
~ оглавление «Энциклопедии рейтинга» (в печати)
      ~ новый проект российской РС
~ методика по проекту РС
      ~ рейтинг-система Арпада Эло
Условия запуска рейтинг-систем
      ~ комментарии по разделу
Таблицы, предназначенные для обсчета рейтинга
      ~ страница для выкладывания таблиц
      ~ архив пересчитанных таблиц
      ~ подготовленные к пересчету


РедакторСергей Павлов

Оглавление документа

Что такое рейтинг и зачем он нужен?

  • ...Что собственно отражает рейтинг: класс игрока, т.е. сумму знаний и умений, или ожидаемый результат в турнире? И для чего он нужен?Вопрос одного из участников обсуждения на форуме.

Рейтинг нужен по многим причинам, которые неоднократно озвучивались. А отражает он именно то, что в названии: оценка (в статистическом смысле) уровня игры, который проявляется в вероятностях (точнее в частотах побед, которые оценивают эти самые вероятности). Если РС интегрально учитывает выступления игрока за большой период (три месяца – при высокой активности, или полгода-год при не очень частых выступлениях), то это оценка скорее класса игры, а не локальной по времени спортивной формы. Классические системы с пересчетом после каждого турнира (в пределе – после каждой партии) дают наиболее динамичную сиюминутную оценку, которая прежде всего интересует тренеров, озадаченных отбором на соревнования, в состав команд и т.д.

К чисто интегральным системам относится система А.А.Полозова, решающая систему линейных уранений при предположениях «достраивания» недостающих результатов макротурнира всех участников за весь обсчитываемый период (обчно – сезон).

К динамичным системам относятся все системы типа Эло при условии минимального периода обсчета (после каждого турнира). Промежуточное положение занимают итерационные системы типа Томпсона, построенные на принципе «максимального правдоподобия» и учитывающие весь «хвост» партий за большой период (от нескольких месяцев до года). Примером такой системы явсляется РС сервера КГС. При более-менее регулярной активности хвост почти полный, несколько новых партий (даже может больше десятка) не оказывают сильного влияния непосредственно сразу же. Я наблюдал случаи счета партий за один день 13:3 или 9:5, даже однажды 0:15 – и изменение рейтинга еле видно было на графике на следующий день. При большом перерыве происходит укорачивание хвоста и влияние последних партий резко возрастает. В этом случае можно поднять свой рейтинг на пару разрядов за один вечер, правда также быстро можно его и потерять.

Системы типа Эло имеют то преимущество, что позволяют построить доверительные интервалы и оценить достоверность рейтинга (модификация Гликмана, новый проект российской РС). В то же время они одинаково хорошо «справляются» и с активными игроками, и с теми, кто выступает редко.


Происхождение термина и краткая предыстория

Рейтинг – это термин, происходящий из теории вероятностей и математической статистики. Дословно «рейтинг» (rating) означает «оценка». Что же «оценивает» рейтинг? Во многих сферах человеческой деятельности встречаются величины (признаки, параметры), имеющие предположительно численную природу, но конкретные значения этих величин, однако, не поддаются прямому физическому измерению. Одно из возможных решений этой проблемы – применение экспертных оценок, когда группа лиц ("экспертов") дает заключение о характере распределения оцениваемой величины по некоторой, достаточно условной в большинстве случаев, шкале числовых значений (шкала рейтингов).

В таких игровых видах спорта, как теннис, шахматы, шашки и некоторых других, применение «рейтинг-оценок» в целях ранжировки спортсменов по силе игры стало общепринятой нормой, хотя там есть и прямые методы сопоставления – путем проведения соревнований. Но необходимость рейтингов в спорте обусловливается тем, что, во-первых, всех собрать на одно глобальное соревнование невозможно, и во-вторых, расстановка по местам дает только ранжировку на данном соревновании, не всегда объективно отражающую реальное соотношение сил среди всех спортсменов. Кроме того, сила спортсмена – очень переменчивый фактор, требующий для оперативного отслеживания его изменения дополнительных методов, и в этом случае прибегают к помощи рейтинг-систем (РС), представляющих собой совокупность математических методов вычисления оценок уровня спортивного мастерства для отдельных спортсменов или команд по результатам их выступления в различных соревнованиях.

Исторически первыми РС в спорте можно считать спортивные классификации по разрядам и званиям. Развитие спорта и рост популярности этой сферы деятельности привели к необходимости введения более точных шкал и, соответственно, методов оценки уровня мастерства. Поистине революционным шагом можно считать разработку профессором А.Эло в 50-х годах XX века новой системы оценки относительной силы шахматистов, которую с тех пор и называют его именем: «рейтинг-система Эло». Большинство современных РС в той или иной степени основываются на идеях, предложенных Арпадом Эло.

Итак, РС нужны для максимально точного отражения соотношения сил, «ранжировки», и динамичного отслеживания изменения этого соотношения, выражаемого в распределении численных значений некоторого условного параметра, когда в той или иной сфере деятельности отсутствуют прямые методы физического измерения оцениваемой величины. Другой не менее важной задачей РС является предсказание будущих результатов, т.е. математически обоснованное прогнозирование, с которой РС типа Эло успешно справляются на протяжении вот уже почти полувековой истории своего существования.


Каковы же основополагающие принципы построения современных РС?

Каждому участнику РС приписывается некоторая условная численная величина – «рейтинг», отражающая уровень мастерства, силу игры, авторитетность или значимость этого члена РС в данной сфере деятельности. Методами математической статистики, как правило, может быть определен доверительный интервал и доверительная вероятность, характеризующие точность РС. Популярно это означает, что оценка с помощью рейтинга имеет вероятностный характер и абсолютно точно указать оцениваемый параметр в принципе невозможно. Например, спортивные классификации имели в вероятностном смысле точность порядка 1-2 разряда (величина доверительного интервала) с доверительной вероятностью порядка 50%. То есть, про спортсмена, например шахматиста 1-го разряда, можно было сказать: «вероятность того, что данный спортсмен соответствует признанному уровню 1-го разряда (не ниже самых слабых перворазрядников и не выше самых сильных) примерно равна 50%". Эта оценка, конечно, грубая и условная. Вполне может быть, что где-то точность была и выше, а где-то и ниже. Для более строгих заключений необходимо анализировать систему присвоения разрядов и статистические данные по всем выступлениям всех спортсменов в соревнованиях.

Ограничимся далее только сферой спорта и рассмотрим, как «работают» РС. Рейтинг изменяется в зависимости от выступления на соревнованиях. Если результат превосходит прогнозируемую величину – рейтинг повышается, в противном случае – понижается. Поправки вычисляются по формулам, обосновываемым с помощью методов матстатистики. Как правило, РС увязываются с существующими традиционными классификациями типа разрядов и званий – в условия выполнения квалификационных требований включаются условия и по рейтингу. Для го обычно стремятся РС увязать с традиционной системой кю-данов, для чего при расчете поправок к рейтингу учитываются и выступления в форовых турнирах, а даны и кю сопоставляются с определенными значениями рейтинга.

Вот, кратко, суть РС, в том числе и РС Эло, без которой сегодня уже трудно представить себе шахматный или го-мир. Шахматная РС выявила в процессе использования ряд отрицательных моментов, главным из которых является снижение рейтинга ведущих шахматистов при включении в РС новых быстро прогрессирующих шахматистов. Для борьбы с этим были разработаны специальные условия входа в РС для молодых мастеров. Были некоторые проблемы и при согласовании национальных рейтингов с рейтингом ФИДЕ, пока не перешли к единой мировой РС. В других видах игр (шашки, го) РС в основном повторяют шахматную, с некоторыми модификациями. Опыт применения РС типа Эло имеют Американская го-ассоциация (АГА), ряд европейских национальных го-федераций, а также Европейская го-федерация (ЕГФ). В целом дисбаланс по национальным РС достигает почти 2 дана (а в области нижних кю, скорее всего, еще больше), что подтверждается статистическими данными, опубликованными на сайте ЕГФ.

Сегодня, в связи с бурным прогрессом информационных технологий, становятся популярными различные состязания через интернет. Существует порядка двух десятков игровых го-серверов. На всех из них применяются РС, как правило согласованные с традиционным форовым принципом. Исключением является, пожалуй, только китайский сервер CTN (другое название – Harmony Go Server), на котором практически не играются форовые партии. В результате, хотя РС и выстраивает всех по ранжиру, ни о каком соответствии данов и кю этого сервера и других РС говорить не приходится, так как известны (и не один) игроки, имеющие подтвержденный 1-3 дан на серверах KGS, NNGS, WING, IGS, LGS и быстро опускающиеся до 4-8 кю на сервере CTN. Не все серверы используют РС типа Эло. Часть серверов применяют РС итерационного типа (KGS, NNGS), в которых текущий рейтинг зависит от почти всей предыстории, т.е. после каждой новой партии проводятся итерации по рейтингу с целью обеспечить максимальное совпадение результата по всем учитываемым партиям с вероятностным прогнозом (без учета возможного изменения силы игры за охватываемый период). В целом наблюдается большой разброс в оценке одних и тех же игроков в различных РС. Неизбежное сползание рейтингов (о механизме этого явления будет сказано отдельно) вынуждает администрацию серверов время от времени производить разовые корректировки рейтингов в сторону увеличения (скорей всего на базе экспертных оценок).

Общие выводы из приведенного обзора таковы. Большинство РС базируется сегодня на принципах, заложенных А.Эло в шахматной РС. Главные проблемы: привязка к традиционным классификациям, эффект сползания рейтингов, несогласованность различных РС, недостаточная обоснованность параметров РС или полное отсутствие таковой в математическом плане.


Какую же РС для Го хотелось бы иметь?

Так что же мы, российские игроки го, ожидаем получить от РС?
  • Во-первых, РС должна достаточно точно отображать расстановку сил во всей шкале уровней игры (при соответствующей доверительной вероятности, желательно поближе к 100%). Прикидки на основе теоретико-вероятностного анализа и методов матстатистики позволяют надеяться получить точность порядка плюс-минус 25 очков рейтинга в среднем в группе данов с достоверностью для стабильных игроков не менее 90%. В группе кю-игроков точность плавно должна снижаться к самому низу в несколько раз (хорошо бы не более чем в 2-3 раза по сравнению с точностью в районе 1-го дана). Это очень приличная точность и мне неизвестна пока РС (из применяемых сейчас), которая имела бы такие хорошие показатели.
  • Во-вторых, РС должна быть устойчивой к различным возмущениям типа быстрого роста или случайных колебаний уровня игры у отдельных нестабильных игроков, ошибок начального присвоения и т.п. РС должна быть защищена от таких нежелательных явлений, как сползание рейтинга отдельных групп стабильных игроков или всей системы в целом. С другой стороны, рейтинг должен достаточно оперативно (за 1-2 турнира) поспевать за динамикой изменения силы игры у быстро прогрессирующих игроков.
  • В-третьих, РС должна быть согласована с традиционной системой кю-данов так, чтобы уровень игры, определяемый присвоенными и подтвержденными официально разрядами (данами) и званиями, соответствовал принятому для этого уровня рейтингу в пределах декларируемой точности. Ну и желательно, чтобы РС была максимально согласована с другими РС, принятыми в международной практике го.

Все формулы и параметры РС должны обосновываться математическими методами и постоянно уточняться по результатам статистического анализа учитываемых рейтинговых партий, включая форовые.

Такая почти идеальная РС пока не создана, но мы будем стремиться максимально приблизиться к ней.


Какова ситуация в российской и других аналогичных РС?

Чтобы принять решение, нужно сначала оглядеться и оценить обстановку. Какова же ситуация с РС сегодня? Проведенный анализ явлений, наблюдаемых в российской, да и в других РС, позволяет утверждать, что точность в среднем в группе данов не превышает плюс-минус 40 очков с достоверностью не выше 80%. Можно дискутировать по поводу этой оценки – 40 или не 40 очков, 80% или нет – суть от этого не изменится: сегодня РС не отвечает тем задачам, которые она должна выполнять. Это касается не только точности РС, а также устойчивости и динамичности. Устойчивость напрямую связана с точностью. Нет точности – и невозможно проконтролировать устойчивость, а общее сползание рейтингов отдельных групп игроков видно почти невооруженным глазом. Динамичность отсутствует: неоднократно замечено, что быстро растущие игроки слишком долго добираются до адекватного уровня рейтинга, если не «повезло» вовремя получить аномальный результат. Подобные явления характерны не только для РС России, но и вообще для РС, не имеющих специальных механизмов стабилизации, коррекции аномального роста, привязки к каким-то «анкерным " отметкам, с недостаточно обоснованными параметрами и формулами.

На первый взгляд РС ЕГФ выглядит вполне соответствующей требованиям. Но это только кажущееся благополучие. Более внимательное изучение статистических данных, опубликованных на сайте ЕГФ, не оставляет иллюзий на этот счет (каждый может сам убедиться, проанализировав эти статистические данные и обратив внимание на дисперсию, отдельные «выбросы» в таблицах частот побед при различных разностях в уровнях партнеров, посмотрев внимательно на таблицу сдвигов национальных рейтигов и т.д.). Украинские специалисты по рейтингу очень высокого мнения о своей РС. Однако они во многом ориентируются на РС ЕГФ и применяют недостаточно обоснованные эмпирические методы коррекции, утверждая в то же время, что их РС уж точно лучше российской, хотя в свое время украинская РС произошла именно из российской. Есть еще РС игровых серверов в интернете, но на них останавливаться не будем, так как известно, что там в основном еще большая нестабильность и недостоверность.

Причин, порождающих отрицательные явления в РС, несколько. Во-первых, это несоответствие принятых формул и параметров, заложенных в РС, тем закономерностям, которые реально наблюдаются в процессе постоянных контактов игроков го друг с другом в турнирах и которые могут быть выявлены на основе современных математических методов, в том числе и методов обработки экспериментальных (статистических) данных. Имеются ввиду и правила входа в РС, и правила пересчета рейтинга, и учет аномальных результатов (который в ЕГФ вообще отсутствует), и вид зависимости функции вероятности от разницы рейтингов (и вообще рейтинга партнеров), и компенсация форы в форовых турнирах и т.д. Во-вторых, в большинстве РС вообще отсутствует понятие достоверности рейтинга или какого-то аналога, а, значит, и необходимый учет влияния этого фактора при пересчете рейтингов. Даже в российской РС этот фактор учитывается только в очень урезанном виде (удвоение коэффициента динамичности для «нестабильных» игроков, коррекция «начального» рейтинга при аномальном результате). Без правильного учета этого фактора вообще теряет смысл выражение: «точность рейтинга», поскольку равномерная, одинаковая точность для всех невозможна ни в одной РС в принципе – сила игры изменяется, причем у каждого игрока по-своему. В-третьих, общий рейтинг в более широких объединениях игроков формировался и формируется на основе использования локальных РС (в европейской РС при включении новых игроков национальный рейтинг зачастую выбирается в качестве начального значения). Эти локальные РС обычно не имеют механизмов взаимокоррекции и взаимопривязки, либо эти механизмы недостаточно эффективны. В результате в объединенную РС вносятся дополнительные существенные ошибки.

Рассмотрим некоторые примеры ошибок и механизмы влияния их на РС. Сползание рейтинга, в основном средней группы данов, в российской РС обусловлено механизмом «оттока» рейтинга к растущим игрокам, причем скорость роста не так важна. Поскольку каждый игрок неизбежно проходит через стадию роста, то суммарный порождаемый этим сдвиг, деформация рейтинга в РС достигают гигантских размеров. Конечно, это явление проявляется не тотчас, а спустя месяцы и годы после введения РС – пока механизм оттока не раскачается. Скорость оттока определяется плотностью растущих игроков и средней скоростью их роста. Наибольшая плотность растущих игроков, вероятно, приходится на интервал от 20 до 1 кю, а максимальную скорость роста трудно оценить, но она тоже, по-видимому, достигается в группе кю, может ближе к верхним разрядам. До введения единого расчета по всей шкале кю и данов был искусственный барьер, препятствующий проникновению «волны оттока» в верхнюю часть рейтинг-листа. После устранения этого барьера волна оттока прошла через среднюю часть данов, мало пока затронув верхние даны. Так, в последние два-три года средняя скорость падения рейтинга среди «стабильных» 2-4 данов составляла около 20 очков в год. Суть механизма оттока заключается в том, что рейтинг растущего игрока в среднем отстает, хотя бы чуть чуть, от уровня игры. Значит и вероятности побед растущего игрока оказываются заниженными, а потери в рейтинге остальных – завышенными. Суммарный вклад в отток конкретного игрока определяется разницей между уровнем стабилизации и входным уровнем (достаточно точно оценивается разницей текущего и начального рейтингов за весь период обсчета игрока), если не было никаких специальных поправок типа коррекции аномальных результатов и т.п. Эта ошибка локально, на отдельной партии, имеет второй порядок малости по сравнению с грубыми разовыми ошибками типа неправильного начального присвоения, но зато она носит массовый характер и большую длительность по времени, чем и берет. Особенно заметен отток на игровых серверах, так как там частота игр на порядки выше, чем в очных соревнованиях. В результате администрация серверов вынуждена время от времени делать массовые поправки в сторону увеличения рейтинга.

Другой причиной частичного сползания рейтинга средней группы данов является существенная зависимость вероятности победы от рейтинга. Как показывает анализ статистики ЕГФ, эта нелинейная зависимость наиболее сильно начинает проявляться в верхней части рейтинг-листа – в группе 5-7 данов. Суть в том, что здесь с ростом уровня игры резко возрастает вероятность победы над младшими по рейтингу, в то время как в российской РС эта вероятность предполагается для всех групп игроков одинаковой. Например, Александр Динерштейн, встречаясь с игроком 5 дана и имея разницу с ним в 200 очков рейтинга (в то время, когда у него самого рейтинг был около 2700), реально имел вероятность победы очень близкую к единице, а в РС эта вероятность предполагалась 80%, т.е. при каждой такой победе Динерштейн получал лишние 2 очка, а соперник, естественно, терял столько же. Неудивительно, что за два-три года рейтинг Динерштейна «задрался» до почти заоблачных небес, а группа соседних данов должна была понизить свой рейтинг, но они видимо в еще больших масштабах (их просто много, а Динерштейн один) компенсировали потери по той же схеме – опять же за счет средних данов. В ЕГФ уже учли частично этот эффект в РС, введенной с ноября 1998 года, и результат налицо: там Динерштейн имеет рейтинг на 116 очков ниже. Кстати, подобный эффект наблюдается и в других областях – в шахматах, например, чемпион мира часто отрывался по рейтингу от близких к нему по уровню гроссмейстеров во многом благодаря описанному эффекту, хотя ничейная специфика и сглаживала это частично. Если есть рост стабильности в игре при росте уровня (а именно стабильность, т.е. более низкая дисперсия ошибок в игре, является главной причиной повышения процента побед) – лидер будет отрываться в рейтинге в любой РС, не учитывающей это явление.

Здесь следует подчеркнуть, что речь не идет о каком-либо сдвиге российской РС по отношению, например, к украинской РС или РС ЕГФ. Деформация шкалы в виде сползания рейтинга каких-то групп игроков по отношению другим – явление внутреннее, характерное не только для российской РС, но вообще для большинства применяемых сегодня РС – как типа Эло, так и итерационных, подобно РС сервера KGS. Более того, анализ статистических данных ЕГФ показывает, что в среднем у российской РС практически отсутствует сдвиг по сравнению с РС ЕГФ. Можно предположить, что в европейской РС также происходит сползание (очень вероятно, но надо статистику по ряду лет проверять). Тогда сдвиг может и не наблюдаться, или его величина может оказаться существенно меньше других несоответствий, вызванных, скажем, деформацией шкалы рейтинга в какой-либо зоне (см. выше пример с Динерштейном) или другими ошибками РС.

Не стоит недооценивать влияния ошибок при задании вероятностей для определения прогнозируемого результата. Хотя в целом эти ошибки не отражаются на правильности ранжировки, но они деформируют всю шкалу рейтинга, затрудняя согласование различных РС и их привязку к единой точке отсчета. Кроме того, нарушается однородность единицы измерения рейтинга. Каков же механизм влияния этих ошибок? Ясно, что главный вклад в такую ошибку вносит неправильное определение наклона кривой вероятностей в точке 0 – т.е. где разница рейтингов равна нулю и соответствующая вероятность равна 0.5 для любой РС, какие бы мы функции ни задавали в алгоритмах пересчета рейтинга. Если мы ошибаемся в наклоне касательной к этой кривой (производной соответствующей функции вероятностей по аргументу «разница рейтингов» в точке 0), то ошибки в пересчете рейтинга будут увеличиваться при увеличении разницы рейтингов, что увеличит амплитуду колебаний рейтинга по всей шкале. С другой стороны, завышенный наклон, например, означает, что вероятность победы более сильного тоже завышается и тем больше, чем больше разница рейтингов. В итоге это вызывает деформацию всей шкалы, как бы сжимая ее – система, как некоторая шкала численных значений, стремится занять такое положение, при котором частота побед совпадает с предписанной формулами РС. При занижении наклона – картина прямо противоположная и шкала растягивается, что и было подтверждено выше при анализе примера с рейтингом А.Динерштейна. Наибольшее влияние на РС эта ошибка оказывает как раз на краях шкалы и, следовательно, существенно влияет на правильную привязку РС к единой точке отсчета (см. Мат. Основы?). Все было бы значительно проще, если бы игрались в достаточном количестве партии на форе – мощный стабилизирующий фактор, так как такие партии при соответствии форы и разницы рейтингов постоянно приводили бы шкалу к соотношению 1 разряд – 100 очков рейтинга. Ошибка в пол-камня, регулярно встречающаяся в практике, и та не имела бы существенного влияния, так как является симметричной и гасится на большой статистике (опять же кроме краев, где симметрия уже невозможна, так как там либо в основном получаешь фору – в начале шкалы, либо даешь – на самом верху). Пока же надо констатировать, что в России практически не играются рейтинг-партии с гандикапом, а в Европе их доля составляет всего около 1/8 от общего числа учитываемых в рейтинге партий. Резюме: деформации российского рейтинга возникли в результате комплексного влияния сразу нескольких факторов.

В целом из анализа статистики ЕГФ получены следующие выводы. Статистические данные ЕГФ позволяют выявить глобальные закономерности и определить основные параметры, которые нужно закладывать в РС. У А.Чипли (автор европейской РС) были допущены методические ошибки, исказившие реальную картину и поэтому он и те, кто ему помогал обрабатывать статистику, почти ничего не увидели и выбрали неправильные значения для параметров РС ЕГФ. Можно подтвердить только вывод Чипли: «Го-Бог» есть, т.е. существует оптимальная стратегия и можно представить себе некоего идеального игрока, вооруженного этой стратегией, который не совершает ошибок и является непобедимым (общая теорема теории антагонистических игр двух лиц с полной информацией). Оказывается можно вычислить, какова должна быть его сила по европейской шкале: 10 дан (3000 очков рейтинга) с точностью до сотых долей процента (у Чипли было найдено значение в 3300 очков, которое неверно из-за допущенных методических ошибок). Полученный результат обосновывается строго научными методами обработки экспериментальных данных. Формулы вероятностей, базирующиеся на логистической кривой распределения вероятностей, являющейся в общем-то экспоненциальной аппроксимацией нормального закона, унаследованные от Эло всеми РС, для Го неверны прежде всего из-за обнаруженной ограниченности рейтинга (3000 очков). То есть дисперсия силы игры так быстро падает при приближении к «Го-Богу», что вероятность выигрыша более сильного игрока при любой конечной разнице рейтингов (пусть даже бесконечно малой) очень быстро становится равной 1. Это главный качественный результат анализа. Подтвердились проценты (66% побед более сильного при разнице в 1 дан), предложенные для РС в 1990 году и используемые в российской РС и по сей день: в статистике ЕГФ для данов при усреднении, в пределах погрешности в 1%, получается практически то же самое число. Это и не удивительно, так как рекомендованные в 1990 году проценты были определены при анализе статистики советских турниров второй половины 80-х, правда значительно более скромной по объему – всего тогда было учтено около 400 партий между партнерами с данами.


О точности рейтинг-систем

Точность рейтинга (формально до сотых долей разряда) – это «видимость». Она недостижима, но для правильного расчета тех самых доверительных интервалов и вероятностей, которые определяют точность РС, нужно сохранять «лишние» цифры в расчетах, иначе ошибки округления уничтожат все достижения в точности. Реальная точность рейтинг-систем с четырехзначным коэффициентом – порядка полразряда при доверительной вероятности порядка 90% (это грубо, далеко не все РС имеют даже такую точность в среднем по всем игрокам).

Точность определения рейтинга (а кто не хотел бы знать его точно?) зависит от многих факторов. В том числе и от систем проведения турниров. Если играть все турниры только по схеме ММ, то форовый принцип полностью игнорируется и перестает влиять на коррекцию шкалы рейтинга в данах и кю, что приводит к явлениям, многократно описанным и на форуме, и в разделе Рейтинг/Система. Самое малое – происходит деформация шкалы рейтинга в районе данов, при которой разница в 1 дан не соответствует увеличению или уменьшению форы на один камень.

Сколько камней даст сегодня А.Динерштейн Илье Шикшину? По соотношению российских рейтингов – три камня как минимум. А Илья выиграл за последнее время (на конец 2004 года) уже дважды на равных! И таких примеров – море. Поэтому, наверное, элита российского го не очень стремится поддерживать форовый принцип. Я не говорю конкретно про Александра – он-то как раз один из самых активных и демократичных в вопросах массового Го.

Любой рейтинг надо воспринимать как значение, соответствующее середине доверительного интервала. По моим оценкам для 4-го дана в РС ЕГФ при постоянном участии в турнирах и стабильности результатов (маленькая дисперсия) предельно достижимая точность составит ±95 пунктов рейтинга при 95% доверительной вероятности. В такой ситуации действительно нет смысла считать больше, чем кю и даны. Как возникла эта оценка? Результат игрока в среднем турнире при 6-ти турах имеет естественную и неустранимую дисперсию, порождаемую схемой Бернулли, и это не зависит ни от РС, ни от игрока (в среднем конечно). Ст. отклонение в очках при этом будет около 1.2 на большой статистике. В очках рейтинга, которые линейно зависят от турнирных очков, это дает примерно 18 очков рейтинга (К = 15). Если бы начальный рейтинг перед каждым турниром не содержал бы ошибку и был абсолютно точным, то уже после первого же турнира появилась бы эта «неуничтожимая» дисперсия. Для того чтобы понять это, рассмотрите гипотетический турнир, в котором все игроки имеют одинаковую силу. После турнира у них будет рассеивание по очкам по биномиальному закону (который асимптотически нормален).

Как же оценить добавку к ошибке схемы Бернулли? Один из способов – предположить, что в начальном рейтинге только она и есть и значит дисперсия (квадрат ст. отклонения) – 1.5 (при 6-ти турах). Суммарная ошибка для независимых случайных величин будет иметь удвоенную дисперсию – 3. Стандартное отклонение – 1.73. Или в очках рейтинга – 26 очков (К = 15). Значит самый «теоретически» достижимый в схеме Бернулли 95% доверительный интервал ±2S = ±52 пункта. Но и это – заниженное значение. Методика Гликмана в применении к нашему случаю дает такое асимптотическое выражение для соотношения коэффициентов динамичности К и дисперсии стабильного игрока: К~(4/d)*(S*S), где S*S – это предельная дисперсия, d – расстояние игрока от 3000, т.е. для 4-го дана это 600 пунктов. Поскольку в РС ЕГФ К = 15, то это выполняется при S = 47.4. Отсюда и получаем предельный 95% доверительный интервал как ±2S = ±95 пунктов. Если взять интервал ±S (±47 пунктов), то для него доверительная вероятность всего 68%.

До перехода на европейскую систему коэффициентов (К = 15 сейчас в РФГ, как и в РС ЕГФ, но не вся РС ЕГФ принята в России) в российской РС были в полтора раза ниже коэффициенты динамичности К. Т.е. для 4-го дана было К = 10 и соответственно предельное значение S = 38.7 – немного, но меньше все же (это примерно ±40 пунктов при 70% доверительной вер-ти, ±77 при 95%). Радикальным решением является переход на РС типа Гликмана, учитывающие индивидуальные доверительные интервалы (в частности, проект РС, предложенный мной, и является такой системой). В этом случае теоретически, если пользоваться хотя бы асимптотическими формулами Гликмана для коэффициентов динамичности, в распределении рейтинг-коэффициентов у стабильных игроков может остаться только дисперсия схемы Бернулли, а коэффициент динамичности у каждого игрока уменьшается без нижнего предела, т.е. нет формального предела для точности, если все игроки имеют стабильный рейтинг и у них происходит равномерное снижение дисперсии.


ВЕБ-рейтинги



Комментарии

Общие комментарии к разделу
Комментарии по темам – в подразделах