ГоБиблиотека: Рейтинг/Система/Комментарии

Дискуссия и комментарии по разделу Рейтинг Система.

Карта корневого разделаРейтингКарта

Оглавление документа

Комментарии

Математические основы РС



Проект РС



Общая дискуссия

Вопросы по рейтингу

SergeiPavlov: Часто возникают вопросы, связанные с недостоверностью рейтинга в форовых турнирах. Вот и сейчас начинается турнир на DGS, и опять возникла та же проблема: рейтинг некоторых участников невозможно пока установить с дастаточной достоверностью.

По поводу рейтинга и системы проведения. Не стоит беспокоиться, если даже рейтинг у кого-то будет определен с ошибкой (что, впрочем, неизбежно, ввиду вероятностного характера самого понятия «рейтинг»). При применении системы Серпова зачета очков в партиях вообще-то рейтинг не так важен, так как зачетные очки вычисляются с учетом вероятностей побед при заданной форе в игре равных по силе партнеров (т.е. зачетные очки не зависят напрямую от рейтинга). Косвенное влияние рейтинга проявляется только в определении форы, но математическая подоплека такова, что каждый игрок набирает такое количество очков, которое соответствует его текущей силе игры (если у всех примерно равные по силе партнеры) независимо от возможной ошибки в рейтинге. В этом одно из преимуществ новой схемы как спортивно-форофой системы проведения турниров. Но так как партнеры выбираются не одинаково для всех (каждый получает их из своей рейтинговой окрестности), то для полного соблюдения спортивного принципа нужно обязательно вводить как в системе ММ? начальное распределение очков в соответствии с рейтингом. В отличие от ММ?, здесь гораздо гибче все это можно делать (не целое очко как за реальную победу – в качестве форы за каждый дан или кю более высокого рейтинга, как в ММ?, а только какая-то часть очка).

Сергей Павлов /04.04.2004 17:18/: В ходе проведения турнира На ДГС обнаружился такой феномен. При слишком большой ошибке в рейтинге игрок с 14 кю может обойти даже игроков с 3 кю. Т.е. нужно начальную фору в очках «за рейтинг» увеличивать. Точную оценку надо аккуратно посчитать.


из ветки форума: http://forum.weiqi.ru/read.php?f=1&i=10136&t=10136

  • ВалерийШикшин, 25/05/04 ...Когда я был на Кубке Одза в г. Амстердаме в марте этого года, то на стенде висел рейтинг лучших игроков го, включая профи и любителей. По-моему А.Динерштейн входил в первую сотню игроков. Попробуйте поискать этот рейтинг на чешских сайтах, или обратиться к Президенту чешского го Хриковой, или в европейскую ассоциацию.

Сергей Павлов, 26/05/04:

Я стал набирать пространный текст на заданную тему... Увы – все пропало из-за кратковременного отключения от сервера (или сервер подвисал?). Теперь кратко:
  1. Алеш Чипли (Ales Cieply), чех и автор европейской РС (1998), делал расчеты рейтингов по своей системе. А.Динерштейн упоминал это, указывая на недостоверность результатов.
  2. В основе расчетов Чипли – модель системы Эло с классическими формулами вероятностей и с уточнением параметров методом наименьших квадратов из статистики европейских турниров (106831 партия).
  3. Чипли допустил методические ошибки: формула взята (гипотеза) без проверки на статистике этой гипотезы; размытость данных, представленных в пересчитанном виде в параметры «нормальной» функции вероятностей, вынудила Чипли искать компромисс в виде авансового – на будущее – предположения о глобальном занижении (отставании) рейтингов всех игроков (по сравнению с ростом уровня игры), что привело к достаточно вольному обращению с параметрами функциональных зависимостей, заложенных в европейскую РС.
  4. В итоге Чипли получил для своей системы оценку уровня идеального игрока ("Го-Бога") в 4100 очков рейтинга (12 камней форы 9-му про-дану). В докладе в Сеуле 2001 года он указал более точную оценку, если строго следовать методу наименьших квадратов, а не «навскидку» по облаку экспериментальных данных проводить рукой кривую – 3300 очков рейтинга (4 камня форы 9-му про-дану).

Эти результаты крайне сомнительны и вот почему.

Я произвел статистическую обработку тех же самых данных, но корректно (без предварительного априори выбора зависимостей). Каковы результаты:
  1. Нормальный закон не подтвердился.
  2. Классическая формула вероятностей Эло оказалась, таким образом, не справедлива, и был выявлен другой закон зависимости вероятности победы от разницы рейтингов и более того – была выявлена зависимость этой вероятности от уровня игроков. Оказалось (неудивительно), что дисперсия ошибок, совершаемых игроками, снижается с ростом уровня игры и вероятность победы ПРИ ФИКСИРОВАННОЙ РАЗНИЦЕ РЕЙТИНГОВ растет обратно пропорционально расстоянию до идеального игрока по шкале рейтинга. А зависимость вероятности от РАЗНИЦЫ РЕЙТИНГОВ – линейная. В итоге была получена формула, заложенная в новый проект российской РС.
  3. Статистическая обработка материала (106831 партия) была проведена с использованием специальных программ для научной обработки данных физических экспериментов. Никаких натяжек не делалось и никакого мифического и хронического отставания всех по рейтингу от своего же уровня игры не было выявлено.
  4. С высокой точностью были выявлены функциональные закономерности, указанные выше в п. 2, и на этой основе был вычислен уровень идеального игрока, оказавшийся равным 3000 очков рейтинга (примерно 10 ама-дан, если считать, что 9 ама и про совпадают, учитывая что вся шкала про-данов укладывается в два камня форы). Точность этой оценки оказалась (совершенно случайно и неожиданно) просто фантастической – сотые доли процента. Если считать, что в один камень вписываются 4 про-дана, то идеальный игрок опережает 9 про-дан примерно на 4 про-дана (или один любительский дан).

Что вытекает из приведенного анализа? Во-первых, недостоверность всех оценок и рейтингов для про-данов, вычисленных А.Чипли. Во-вторых, знание точных зависимостей вероятности от рейтингов позволяет привязать все локальные рейтинг-системы к единой точке отсчета – 3000 очков, причем для оценки локального соответствия общей шкале вовсе необязательно иметь данные по межгрупповым игровым контактам. Более того, можно, на основе корректной обработки статистических данных, используя как гипотезу факт наличия установленных закономерностей, оценить с высокой достоверностью рейтинг любых игроков как настоящего, так и прошлого, для которых имеется достаточный статматериал.


из ветки форума: http://forum.weiqi.ru/read.php?f=1&i=11636&t=11568

  • Владимир Корсак, 21/08/04 ...Честно скажу, нет у нас необходимости в поисках чего-то и совершенствовании. Все работает и все нас устраивает. Причем работает как система. Кстати, как хорошо налаженная. Поэтому, Сергей Владимировач, нас мало интересуют проблемы точности и достоверности, а больше интересует то, а смог ли я хотя бы на очко опередить такого-то чтобы завоевать путевку на ЛЖ.

Сергей Павлов, 22/08/04:

Итак, рейтинг нужен всем. Системы прведения – тоже. И это для того, чтобы некто мог сказать другому: а я тебя сделал (на столько-то очков рейтинга, или мест в турнире)? Такая трактовка задачи ранжировки (а именно так это называется) слишком упрощена.

Давайте наконец договоримся, для чего спорт и такой, в том числе, как игра Го. Или это не спорт и тогда всякие наши разговоры о рейтингах и системах проведения бессмысленны – играйте себе в удовольствие и ни о чем не думайте.

Если мы принимаем важность задачи ранжировки (и более широко – задачи оценки уровня игры с максимально возможной точностью), то тогда рассмотрение вопросов о рейтинг-системе и о системах проведения уже не просто чья-то блажь, игра в арифметику, а необходимое условие принятия правильных решений. Если председатель рейтинг-комиссии считает, что точность или вообще правильность какой-либо системы не важна, лишь бы система работала и вроде-бы по субъективным ощущениям всех и всюду правильно расставляла, то мне сказать нечего. Зачем до сих пор физики все уточняют и уточняют значение гравитационной постоянной? Итак ведь уже до 15-го или какого еще знака замерили? Представьте себе, если бы физик сказал: я знаю первую цифру после запятой и считаю взаимодействия вроде бы правильно (никто не жаловался :), и главное – у меня-то мой прибор работает, все отлажено, зачем менять?

Именно для того, чтобы во множествах объектов с парными сопоставлениями можно было указать оценку каждого объекта (в играх – для каждого игрока), причем добавить: рейтинг объекта лежит... и достоверность при этом такая-то – люди пишут докторские диссертации (Гликман, 1993). Зачем вообще пользоваться рейтингом, если обычные разряды не хуже в принципе? По группам ММ расставить хватает и ладно. А дальше – МакМагон? всех расставит (с коэффициентами Бухгольца только, правда, но ведь расставит!).

Проблема рейтинга как системы ранжирования имеет несколько граней, но две следующие – самые важные: во-первых, правильная локальная ранжировка; во-вторых, возможность правильно сопоставлять игроков из разных регионов, локальные рейтинг-системы которых не пересекаются или имеют слишком скудные межсистемные контакты. И вот тут без корректного учета точности и пр. как локального рейтинга, так и соотношения разных локальных систем – не обойтись. Ну и какие претензии обычно предъявляют украинские игроки, когда вступают в контакт с другой системой? А нас не туда поставили! Ну и т.д. Про российский рейтинг вообще уже не говорю, достаточно сравнить рейтинг Динерштейна в России и в Европе. Почему и как это происходит – вот это я и объясняю. Если кто забыл – милости просим в ГБ, читайте материалы на стр. Рейтинг Система.

Эло – целая революция в оценках уровня. Почти полвека уже. Считают рейтинг даже в бридже. Не было точных оценок, что же мы в итоге получаем. Гликман указал – сделал следующий шаг, предложив обоснованно как надо выбирать коэффициенты в системе типа Эло для логистической функции вероятностей (которая выражается через экспоненту). Я показал, что функция вероятностей в Го имеет другой вид и, используя методику Гликмана, можно дать максимально точные на сегодня оценки всем игрокам, включая и профи. Неужели это никому неинтересно?

Точность и достоверность наиболее актуальны в Го еще и потому, что «туровая длина» стандартного турнира в Го самая маленькая из всех популярных игр такого уровня. В шахматах редко играют меньше 10-ти туров, еще и пол-очка увеличивают «разрешение». В Го уже стало нормой играть 6 туров. Подавляющее число турниров играется с таким регламентом или близким к нему. Поэтому нужно увеличивать разрешение (читай: точность и достоверность) систем: как турнирных, так и рейтинг-систем в целом.

Замечание о вероятностях, пределах совершенства и линейности шкалы.
Из ветки форума Группы Мак-Магона, 31/08/04 11:22

Если внутри рейтинг-системы нет никакого механизма стабилизации, как форовый принцип в го, то принципиально не так важно, какова функция вероятностей – пусть даже она и выходит на 100% только асимптотически, как в РС Эло. Дело в том, что тогда система будет сама стремиться в такое положение, при котором вероятности будут в среднем соответствовать принятой математической модели. Любые несоответствия вероятностей и рейтингов приводят к колебаниям, релаксации, в результате которой система займет наиболее устойчивое положение (правда, при больших несоответствиях будут и большие колебания). В конечном счете ранжировка участников в среднем статистически будет вполне удовлетворительной, но ничего нельзя будет сказать про равномерность шкалы, ее линейность, так как нет никакого «пробного камня». В го таким «пробным камнем» является принцип гандикапа.

Более того, из любой модели с конечным пределом выхода на вероятность в 100% можно получить модель с асимптотическим выходом, применив нелинейное перемасштабирование шкалы (т.е. сделав соответствующую замену переменных в формуле вероятностей). Можно и наоборот, из «асимптотической» модели получить «конечную». Вопрос в том, какая модель более адекватна реальности. Кстати, асимптотическая модель «формально» предполагает, что рейтинг идеального игрока равен бесконечности, что неприемлемо в го, так как очевидно есть предел форы, когда никто не проиграет даже «Го-Богу».

Линейность шкалы в го обеспечивается форовым принципом при «широком» выборе формулы вероятностей (если играются в достаточном количестве партии на форе!). Однако форовый принцип позволяет апостериори оценить соответствие выбранной функции вероятностей статистически, что и было сделано. Вывод всем уже известен. Дело осталось за малым – возродить форовый принцип в России и перейти на новую рейтинг-систему. А рейтинг-система ЕГФ (автор – Алеш Чипли) перейдет в «новый проект» российской РС, если сделать совсем малость: перемасштабировать формулу вероятностей, устранив оттуда экспоненты и перейдя на конечный интервал выхода на 100% вероятность (при этом надо будет скорректировать кое-какие коэффициенты и еще ввести аномалку, но тогда уж лучше сразу взять целиком «новый проект» :)


О рейтинге для профессионалов Алеша Чипли и состоянии с российской программой по расчету рейтинга

  • ПавелСтрибук /26.05.2004 16:22/: Сергей, а Вы не могли бы составить список аналогичный списку Чипли, но рассчитанный по Вашей методике? Было бы очень интересно.
  • SergeiPavlov /26.05.2004 16:50/: Нужна база результатов партий – это не открытая информация, в смысле собранная вместе. Нужна программа, но я пока никак не дождусь ее от Юры Беляева. А так – конечно, это первое, что я хочу сделать и давно, после разработки нового проекта РС. Только не список как у Чипли, а полный рейтинг-лист всех где-либо проявивших себя игроков выше, скажем, 1-го ама-дана. И есть еще нюанс: Чипли закладывает максимальный рейтинг 3300 очков (в Про-го-рейтинге), а у меня – 3000 очков, но у нас разные формулы вероятностей (см. выше).
  • ПавелСтрибук /26.05.2004 18:37/: А насколько большое продвижение у Юрия Беляева в разработке? Может здесь страничку с информацией завести?
  • SergeiPavlov /27.05.2004 07:29/: Программа (первый вариант) написана еще в октябре... Пока не получил новую версию, которая отлажена, для тестирования. И еще – базы по партиям. Панюков передал Юре, но их надо цифровать (это же какой каменный век – все турниры «в бумаге» только! В смысле произвольный почти формат, который надо обрабатывать и переводить в какой-то стандарт для проги).
  • ПавелСтрибук /26.06.2004 12:30/: Надо переводить в формат, который можно будет без проблем использовать в других программах, а не только в этой. Потому что это наверняка пригодится в будущем, как мне кажется.