| Здравствуйте, гость | Правила · Помощь |
Все темы | | | |
| » Статистика и причинно-следственная связь, преферанс, игра, Байкер, Сашун, языки описания | | | |
|
|
|
Это интересно тем, что было такое мнение: "Ладно шахматы, может быть (но, скорее, нет) преферанс, но уж покер - НИКОГДА!" Теперь и эта вершина взята - только и всего, ибо понятно было, что это вопрос лишь времени и затраченных средств.
Цитаты я выделил бы немного другие (мне ближе и "роднее" то, что я сам говорил, пусть и другими словами): – Люди склонны чрезмерно упрощать игру, ведь иначе выучить и успешно применять стратегию невозможно. Боту не нужно искать лёгких путей, и его варианты решения для каждой ситуации ... исключительно сложные. – В этой игре успех очень часто зависит от дисциплины мышления, концентрации, выносливости. Часами противостоять компьютеру, который не сталкивается с подобными проблемами в принципе – очень тяжелая задача. ... перед началом испытания сильнее всего я недооценивал именно его безупречную стабильность. |
|
|
||||
Отнюдь ... Я не утверждаю, что выигрыш зависит от силы карт. Я говорю, что наблюдается прямая корреляция между силой карт и выигрышем. И блеф этому утверждению не противоречит ни в малейшей степени. Возьмем некий абстрактный критерий, называемый "силой руки". Он может меняться по мере вскрытия карт на столе, но это не важно. Важно только то, что мы можем эту силу достаточно просто отранжировать по некоторому синтетическому критерию, включающему прежде всего ранги карт и количество карт одинакового ранга, а так же плотности мастей и разномастных секвенций и пр. Т.е. сила карт достаточно сильно зависит от силы частичных комбинаций и ранга карт в ней. Рассматривая покерные таблицы входа и продолжений можно сразу это заметить. Если мы затем для каждой руки (с учетом карт на столе) построим зависимость среднего выигрыша при оптимальной игре, то такая зависимость будет близка к линейной или, во всяком случае, иметь положительный коэффициент корреляции. Даже если ИИ на слабой карте будет блефовать, это не сильно повлияет на эту зависимость. Ведь на блефе можно выиграть много (а можно и проиграть), но блефовать на слабой руке постоянно нельзя. Поэтому сила руки влияет на частоту блефа. На слабой руке рэйзить тоже можно, но реже. Поэтому и средний выигрыш на слабой руке меньше, чем на сильной. Для преферанса ситуация несколько другая. Вот масть {7 8 9} сильная или нет? А это нельзя сказать вне контекста. Если остальные масти околомизерные, то эта масть добавляет силу руки. А если там одни фигуры, то эта масть добавляет к их силе очень и очень мало. Т.е. для оценки силы руки уже нельзя разбить ее на простые составляющие. Сила масти (одного из компонентов) очень сильно зависит от силы других компонентов. При этом, как в данном случае, уменьшение силы других компонентов может привести сначала к уменьшению силы всей руки, а потом - снова к ее возрастанию. А если бы у нас было не {7 8 9}, а {10 Д}, то такого резкого подъема уже бы не наблюдалось бы. Т.е. зависимость силы руки от силы ее отдельных компонентов (мастей) уже не является прямой. Следовательно, и оценить ожидаемый выигрыш как линейную функцию от сил отдельных карт/мастей уже не получится. На простые компоненты уже не разбить. Приходится брать всю совокупность всех десяти карт! Это, повторю, все решаемо. Но приводит к усложнению структуры ИНС, замедлению обучения и скатыванию в ложные локальные оптимумы. Но после статьи про Плурибус вот какая мысль появилась: Разбить блок оценки руки (до вступления в торговлю) на 2 ИНС. Одна выбирает между пасом и мизером, а другая - между пасом и игрой на взятки. Обучать каждую отдельно, а частоты обучения выбирать в зависимости от соотношения результатов каждой части. Например, Томпсоновским сэмплированием. Это упростит каждую ИНС, но приведет к тому, что обучать придется не одну, а две. Вернее - даже шесть (две за каждого игрока). |
||||
|
|
|
Нда... Совсем замордовали говоруны (читай, незнайки по части алгоритмизации) грамотных по этой части ребят. (
Я утверждаю, что выигрыш зависит от силы карт. Сила карт формализуется что в покере, что в преферансе при любом наборе карт и в масти, и в руке. "Приходится брать всю совокупность всех десяти карт!" - ну, ты, блин, Америку открыл (я любя)! Это же очевидные вещи, что ты как бы извиняешься перед детсадовской группой, что есть таблица умножения? Некоторые детсадовцы по части алгоритмизации до сих пор тут пишут, что заказ при руке 4+4+Т можно без "статистики" оптимизировать... )) И почему на 2 каких-то ИНС алгоритм торговли предлагается разбивать? Почему один некий ИНС блоком оценки руки (до вступления в торговлю) не оценит последствия 3-х заявок (6 пик/Пас/Мизер)? Или наоборот: почему у тебя 3 ИНСа не выдадут результаты оценок для сравнения? ) |
|
|
||
Оценить-то он оценит ... не о том речь. Спроектировать ИНС, которая на входе имеет 32 нейрона, а на выходе 3 - задача не абы какая сложная. Дело тут в другом - в скорости и качестве обучения. Вернее - самообучения. Чем сложнее структура ИНС, тем медленнее она обучается и тем больше у нее локальных оптимумов, в которых она застревает. А, т.к. ее оппонентом является такая же самообучающаяся ИНС, то существует еще и запаздывание - одна ИНС скачком изменила свою манеру играть, а когда еще это дойдет до второй. Ну и смешанные стратегии (на сносе, заказе, перехвате и пр.) простоты не добавляют. Ведь приходится в ряде случаев искать не единственно верное действие, а что-то вроде "с частотой P следует заказывать 6 пик, а с частотой 1-P - 7 пик" - т.е. искать смешанные стратегии. Я по поводу численных методов нахождения смешанных стратегий любопытствовал. В более сложных не разобрался, каюсь. Но есть метод многократного фиктивного разыгрывания Брауна-Робинсон. Он гораздо более простой, но у него есть существенный недостаток - он медленно сходится. Т.е. искомые смешанные стратегии даже двух противников не стремятся монотонно к оптимальным, а начинают колебаться вокруг оптимума, подстраиваясь друг под друга с запаздыванием. А если число противников в моделируемой игре больше двух, то возможно зацикливание, когда колебания не утихают, а продолжают разгонять друг-друга. Сложные ИНС тоже страдают всем этим. Даже без смешанных стратегий. И медленное обучение и локальные оптимумы вместо глобальных ... и автоколебания при самообучении с себе подобными. Поэтому, разделив ИНС на два относительно независимых блока, можно упростить процесс обучения и обойти эти подводные камни. Ведь каждый блок имеет как раз очень сильную корреляцию с силой руки, в отличие от единого блока на все три выбора. Следовательно, потребует меньше скрытых слоев ИНС! Скорость обучения и стабильность каждого блока увеличатся! С другой же стороны, в пограничных ситуациях мизер/6 пик возможно многократная смена приоритетов, что в свою очередь скачкообразно повлияет на настройку ИНС оппонентов. А это в свою очередь с запаздыванием потребует обратной перестройки первой ИНС. Так что, здесь много еще интересного. |
||
|
|
|
Pochemuk, тогда и преферанс не выпадает из группы, где "сила руки" "ощутимо коррелирует с выигрышем". Под "сила руки" в данном случае понимается не только рука на которой можно заказать и выиграть контракт, но и хорошая рука для распаса в определённых ситуациях.
Утром пообщался с одним старым знакомым, покерным профи. Он указал мне на один комментарий при обсуждении темы о Плурибус "Мой комментарий в попытке успокоить особо впечатлительных людей более подробно в ссылке говорит, комментарий сделан понимающим человеком, разработчиком программы для расчёта правильного решения задачи (после игры), которым пользуется половина профи. Это сообщение отредактировал Меф - 24/07/2019, 14:19 |
|
|
||
А как же, а как же Я вот так и знал, что кто-то меня в эту лужу потычет Дело только в том, что ты это пишешь с точки зрения человека, который уже знает, что {7 8 9} на мизере или распасах - это хорошо, а в игре на взятки - далеко не всегда. Но возьмем ИНС в стадии Tabula Rasa. Она не знает еще, что даже представляют из себя заявки "мизер" и "6 пик". Вот обнаружила она, что на руке есть такая масть. Сильная рука это или нет? Ей никто не объяснит этого, тому как учится она без учителя. Ей предстоит только понять, что сила - понятие нелинейное. В одних случаях эта комбинация дает очень хорошую прибавку к силе, а в других - очень слабую. Даже человек теряется, обнаружив, что одно и то же понятие может выражать совершенно разные сути. Для него это бывает сложно! Так и для ИНС, чтобы разобраться в этой разнице нужно иметь сложную структуру. А это влечет за собой замедление и нестабильность обучения такой ИНС. Разделив же оценочный блок на два блока с почти линейной зависимостью от силы карт каждый, мы можем сделать каждый из них гораздо проще. А следовательно - стабильнее и эффективнее обучаемым. |
||
|
|
|
Pochemuk, во-первых, у тебя горе от ума: медленнее она обучается или быстрее - не суть. Суть в том, что если уже сделали алгоритм для покера, то точно можно сделать и для преферанса. Ибо игры очень похожи.
Во-вторых, я знать не знаю, что такое ИНС, но сходу вижу, что если черный ящик на одних исходных данных должен оценить 3 варианта развития событий (получить 3 ответа), то или один этот ящик надо учить оценивать все три варианта (не надо ничего делить вообще), или этот ящик надо делить на 3 части (по числу вариантов). А у тебя почему-то вариантов 3, а ящик делить ты предлагаешь на 2. По мне - фигня какая-то, а так - Бог в помощь, тебе видней. ) |
|
|
||||||||||||||
|
По стартовой теме.
Да, надо было договариваться, согласовывать понятия, которые обсуждаются и вынесены в заголовок. Но тогда было бы очень много букв сразу. Да и жевать сильно не хотелось, ибо потеряли бы часть отписавшихся в теме нынче. Попытаюсь сформулировать сейчас. Кратко. Если что, в дальнейшем будем уточнять, переформулировать, менять или даже отбрасывать формулировки. Причина порождает следствие. Это происходит при неких строгих условиях. В таких случаях, говорят, есть причинно-следственная связь. Причинно-следственная связь конструируется (выдумывается) человеком и делается это только и лишь на основании опыта (этой истине уже столетия), посредством анализа и творческой фантазии. Причина => Следствие. Корреляция, которую выявляет статистика, есть взаимосвязь случайных факторов, которая показывает вероятностную связь, приблизительную и не даёт точных ответов, типа "Причина => Следствие". Допустимо обозвать причинно-следственную связь частным случаем корреляционной. Со статистикой работают ВСЕ, о ком писалось выше - так или иначе с ней работает и индивид, пока накапливает опыт. Сашун, на мой взгляд, написал странные вещи, что он не работал со статистикой никогда. Но! Этот обучающийся на опыте индивид изобретает (конструирует) и закрепляет строгое следование за явлениями, которые он называет в дальнейшем причиной и следствием. Статистика же работает с корреляцией, не в её задачах выявлять причину, где есть строгое следование чего-то после чего-то. Она даёт вероятностную модель. Да, чем больше деталей было учтено статистически, тем точнее будет вывод. Но всегда существует погрешность, не позволяющая дать утверждение со 100% вероятностью. Не знаю, на чём и как основана работа алгоритма Байкера. Он много лет отказывается описать процесс его создания. Могу лишь предполагать. На данный момент полагаю, что он создавался после группировки и анализа большого массива сходных, по каким-то его (Байкера) личным критериям, ситуаций. В любом случае, это не будет единичная, уникальная ситуация, которую рассматривает некий индивид в игре, смотрящий на мир через призму причинно-следственных связей. Всё то, что Юра, Байкер, относит к "психологии" и к "вне преферансным" аспектам игры, некий индивид может и способен использовать для, так сказать, микроанализа ситуации и корректировать принятие решений. При этом Байес и теория вероятности будет за нас, ибо дополнительная информация способна сильно изменить вероятность того, по поводу чего нам следует принять решение. Единственно возможным его делает уже человек, принимая нечто за причину, а что-то за следствие. Не нашёл ряд тем, написанных другими своими клонами в этом форуме, но ниже одна от Меф за 2010 год - на мой взгляд, по теме (цитата ниже, тема по ссылке) -
Это сообщение отредактировал Меф - 24/07/2019, 14:17 |
||||||||||||||
|
|
||
Позвольте с Вами не согласиться, Юрий Суть и еще какая суть! Это если бы у нас были здесь грамотные специалисты по ИНС, способные спроектировать ее оптимальным способом, да еще лишних $150 на облако Тогда можно было бы наплевать на скорость обучения, да и вообще, обучится ли она когда-нибудь чему-нибудь. Пока же что я, не являясь специалистом по ИНС, вижу как можно упростить этот процесс. Чтобы даже самые грубые ошибки в проекте имели шанс не сильно повлиять на обучение. И попутно - ускорить. Почему на две ИНС бить? Да потому что выбор между "мизером" и "не мизером" (назовем это тоже "пасом" для упрощения) более-менее линеен. Во всяком случае он сильно зависит от наличия и числа младших фосок. И выбор между "игрой на взятки" и "не игрой на взятки" (тоже "пасом" назовем) тоже достаточно линеен и зависит во многом от наличия и числа старших фигур. Можно, конечно, сделать еще и выбор между "игрой" и "мизером", но это уже лишнее: Вот есть 2 блока ИНС. Один оценивает выгоднее паснуть или сказать "мизер". Другой оценивает, выгоднее паснуть или сказать "раз". Выходы этих блоков затем объединяются. И вычисляется, что лучше в результате: 1. Пас/пас - пас; 2. Мизер/пас - мизер; 3. Пас/раз - раз; 4. Мизер/раз - нужно сравнить оценку каждой из этих заявок. Как готовить оценку - отдельный разговор. Ясно, что это не совсем МО. МО считается для конкретной руки, а ИНС должна давать некоторую оценку даже для рук, которые ни разу еще не рассматривала. А теперь ... Внимание!!! На самом деле - это не две разные ИНС! Это вся та же одна ИНС для тройственного выбора! Но у нее заранее убрали ряд несущественных связей во внутренних слоях, тем самым упростив ее! Т.е. в процессе обучения придется подстраивать меньше коэффициентов и функций активаций. Следовательно, отсутствующие связи будут меньше влиять и разбалансировать те, которые остались. Вот как-то так ... P.S. Предвкушаю возражение: Какая может быть, мол, линейность, если вторая рука {7 8 9}{7}{7 8 9 10 Т}{9} это больше мизер, чем {7 8 9}{7}{7 8 9 10 В}{9}? Так я и не говорил о точной линейности. Только обращал внимание, что эта оценка после упрощения (разбиения на два блока) станет более линейной. Т.е. ИНС упростится, но к однослойному перцептрону она, конечно, все равно не сведется. Это сообщение отредактировал Pochemuk - 24/07/2019, 15:16 |
||
Все темы | | | |
« Предыдущая тема | Перечень тем | »
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
0 Пользователей:
