AI се научава да изневерява на Q * bert по начин, който никой човек никога не е правил

AI е успял да измами с най-доброто човечество, което може да предложи, след като е открил експлойт в класическата аркадна игра Q * bert и е работил с него.

Докато по-ранните итерации на AI биха играли Q * bert правилно, в даден момент от научаването му за това как играта работи, той открива експлойт, който му позволява да натрупва безумни точки. Естествено, както би направил всеки играч на лов на резултати, той повтаря процеса, за да може да увеличи резултата си по възможно най-ефективния начин.

Можете да видите как AI се справя с платформите във видеото по-долу. Отначало изглежда така, сякаш безцелно скача между платформите. Вместо да види как играта преминава към следващия кръг, Q * bert се забива в цикъл, където всички негови платформи започват да мигат - тук ИИ може след това да продължи с ярост, натрупвайки огромни точки.

ПРОЧЕТЕТЕ СЛЕДВАЩО: Един от най-противоречивите записи на играта най-накрая беше дискредитиран

как да използвам музикален бот в раздор

Как AI спечели Q * bert войната

Разбивайки рекорда за всички времена за заглавието, AI събра невъзможно висок резултат благодарение на алгоритъма си за програмиране на стратегия за еволюция. Еволюционните стратегии (ES) се различават от обичайното засилващо обучение (RL), което традиционният AI използва, тъй като се счита за по-мащабируемо поради своето поколено обучение.

Всеки цикъл на обучение се нарича поколение и той продължава да изпълнява задачите си, докато не бъде изпълнено зададено условие (в този случай висок резултат). С всяко следващо поколение ИИ поглъща знанията от предишното поколение и следователно е по-добър в постигането на същата цел и надминаването ѝ. Продължавайте и ще получите AI, който е абсолютно ненадминат по своята задача. Точно това се случи тук с Q * bert score.

Очертано в хартията , публикувано миналата седмица от изследователи от университета във Фрайбург, Германия, изглежда, че грешката не е била известно количество. Всъщност, макар да не са много изненадани от намирането на грешката, интересно е да се види как AI след това се е научил да го използва всеки път, когато играе, за да увеличи максимално потенциала си за оценка.

ПРОЧЕТЕТЕ СЛЕДВАЩО: Този изкуствен интелект се учи да овладява Super Mario Bros

За да намери грешката, агентът първо трябваше да се научи да изпълнява почти първото ниво - това не беше направено наведнъж, а с помощта на много малки подобрения, обясниха изследователите на Регистърът . Подозираме, че в даден момент от обучението едно от решенията на потомството се е сблъскало с грешката и е получило много по-добър резултат в сравнение със своите братя и сестри, което от своя страна е увеличило приноса му към актуализацията - теглото му е било най-високото в претеглената средна стойност. Това бавно премести решението в пространството, където все повече и повече потомци започнаха да срещат една и съща грешка.

Не знаем точните условия, при които се появява грешката; възможно е той да се появи само ако агентът следва модел, който изглежда неоптимален, [например когато агентът губи време или дори губи живот]. Ако случаят беше такъв, тогава би било изключително трудно за стандартния RL да намери грешката: ако използвате допълнителни награди, ще научите стратегии, които бързо дават някаква награда, вместо стратегии за учене, които не дават много награди за известно време и след това изведнъж спечелете големи.

Вижте свързаните Шампионът на Драгстър Тод Роджърс току-що загуби короната си след 35 години Този изкуствен интелект се учи да овладява Super Mario Bros 1-2 в продължение на 17 дни Гледайте този AI да се научи да шофира в GTA V на Twitch

Въпреки прекрасните резултати на бота обаче, изследователите не казват, че това е случай, за да защити ES обучението над RL. Всъщност и двете системи имат свои собствени проблеми и комбинацията от двете до голяма степен се разглежда като най-добрият вариант за движение напред.

Същият метод на ES в други игри на Atari не доведе до почти еднакви положителни резултати. От друга страна, RL е отговорен за разбиването на рекорди отляво, отдясно и от центъра, включително побеждаването на най-добрия играч в света GO. ES все още има своето място в нещата и всъщност Nvidia изпълнява много от своите AI обучения, тъй като изисква повече изчислителна мощ, но постига по-добри резултати за по-дълъг период от време.

Независимо кой начин ще се превърне в бъдещето за развитието на ИИ, поне този бот изневерява на системата не е толкова лош, колкото този сега опозорен световен шампион по видеоигри .

**AI се научава да изневерява на Q * bert по начин, който никой човек никога не е правил**

Как AI спечели Q * bert войната

Интересни Статии

Как да използвате WhatsApp Web и WhatsApp на вашия компютър

Историите в Instagram не се зареждат и Кръгът се върти - Какво да правим [септември 2020]

Избор На Редактора

Как да увеличите живота на батерията на Samsung Galaxy S9 и S9 Plus

Как да промените вашия акаунт в Netflix на телевизор Vizio

Как да заобиколите „Връзката ви не е частна“ в Chrome

Как да получите безплатни игри на Meta Quest и Quest 2

Можете да използвате филтър за магазин, за да намерите безплатни игри, или да намерите безплатни игри на Quest App Lab, като използвате неофициалния уебсайт sidequestvr.

Как да активирам Active Directory Windows 10

Как да видите всички блокирани номера на вашия iPhone

Как да анулирате абонамента си за Peacock

Тази статия предоставя инструкции стъпка по стъпка как да анулирате абонамента си за Peacock в мрежата или с помощта на устройство iPhone, iPad или Android.