AI е успял да измами с най-доброто човечество, което може да предложи, след като е открил експлойт в класическата аркадна игра Q * bert и е работил с него.
Докато по-ранните итерации на AI биха играли Q * bert правилно, в даден момент от научаването му за това как играта работи, той открива експлойт, който му позволява да натрупва безумни точки. Естествено, както би направил всеки играч на лов на резултати, той повтаря процеса, за да може да увеличи резултата си по възможно най-ефективния начин.
Можете да видите как AI се справя с платформите във видеото по-долу. Отначало изглежда така, сякаш безцелно скача между платформите. Вместо да види как играта преминава към следващия кръг, Q * bert се забива в цикъл, където всички негови платформи започват да мигат - тук ИИ може след това да продължи с ярост, натрупвайки огромни точки.
ПРОЧЕТЕТЕ СЛЕДВАЩО: Един от най-противоречивите записи на играта най-накрая беше дискредитиран
как да използвам музикален бот в раздор
Как AI спечели Q * bert войната
Разбивайки рекорда за всички времена за заглавието, AI събра невъзможно висок резултат благодарение на алгоритъма си за програмиране на стратегия за еволюция. Еволюционните стратегии (ES) се различават от обичайното засилващо обучение (RL), което традиционният AI използва, тъй като се счита за по-мащабируемо поради своето поколено обучение.
Всеки цикъл на обучение се нарича поколение и той продължава да изпълнява задачите си, докато не бъде изпълнено зададено условие (в този случай висок резултат). С всяко следващо поколение ИИ поглъща знанията от предишното поколение и следователно е по-добър в постигането на същата цел и надминаването ѝ. Продължавайте и ще получите AI, който е абсолютно ненадминат по своята задача. Точно това се случи тук с Q * bert score.
Очертано в хартията , публикувано миналата седмица от изследователи от университета във Фрайбург, Германия, изглежда, че грешката не е била известно количество. Всъщност, макар да не са много изненадани от намирането на грешката, интересно е да се види как AI след това се е научил да го използва всеки път, когато играе, за да увеличи максимално потенциала си за оценка.
ПРОЧЕТЕТЕ СЛЕДВАЩО: Този изкуствен интелект се учи да овладява Super Mario Bros
За да намери грешката, агентът първо трябваше да се научи да изпълнява почти първото ниво - това не беше направено наведнъж, а с помощта на много малки подобрения, обясниха изследователите на Регистърът . Подозираме, че в даден момент от обучението едно от решенията на потомството се е сблъскало с грешката и е получило много по-добър резултат в сравнение със своите братя и сестри, което от своя страна е увеличило приноса му към актуализацията - теглото му е било най-високото в претеглената средна стойност. Това бавно премести решението в пространството, където все повече и повече потомци започнаха да срещат една и съща грешка.
Не знаем точните условия, при които се появява грешката; възможно е той да се появи само ако агентът следва модел, който изглежда неоптимален, [например когато агентът губи време или дори губи живот]. Ако случаят беше такъв, тогава би било изключително трудно за стандартния RL да намери грешката: ако използвате допълнителни награди, ще научите стратегии, които бързо дават някаква награда, вместо стратегии за учене, които не дават много награди за известно време и след това изведнъж спечелете големи.
Вижте свързаните Шампионът на Драгстър Тод Роджърс току-що загуби короната си след 35 години Този изкуствен интелект се учи да овладява Super Mario Bros 1-2 в продължение на 17 дни Гледайте този AI да се научи да шофира в GTA V на Twitch
Въпреки прекрасните резултати на бота обаче, изследователите не казват, че това е случай, за да защити ES обучението над RL. Всъщност и двете системи имат свои собствени проблеми и комбинацията от двете до голяма степен се разглежда като най-добрият вариант за движение напред.
Същият метод на ES в други игри на Atari не доведе до почти еднакви положителни резултати. От друга страна, RL е отговорен за разбиването на рекорди отляво, отдясно и от центъра, включително побеждаването на най-добрия играч в света GO. ES все още има своето място в нещата и всъщност Nvidia изпълнява много от своите AI обучения, тъй като изисква повече изчислителна мощ, но постига по-добри резултати за по-дълъг период от време.
Независимо кой начин ще се превърне в бъдещето за развитието на ИИ, поне този бот изневерява на системата не е толкова лош, колкото този сега опозорен световен шампион по видеоигри .