Основен Услуги За Поточно Предаване AI се научава да изневерява на Q * bert по начин, който никой човек никога не е правил

AI се научава да изневерява на Q * bert по начин, който никой човек никога не е правил



AI е успял да измами с най-доброто човечество, което може да предложи, след като е открил експлойт в класическата аркадна игра Q * bert и е работил с него.

Докато по-ранните итерации на AI биха играли Q * bert правилно, в даден момент от научаването му за това как играта работи, той открива експлойт, който му позволява да натрупва безумни точки. Естествено, както би направил всеки играч на лов на резултати, той повтаря процеса, за да може да увеличи резултата си по възможно най-ефективния начин.

Можете да видите как AI се справя с платформите във видеото по-долу. Отначало изглежда така, сякаш безцелно скача между платформите. Вместо да види как играта преминава към следващия кръг, Q * bert се забива в цикъл, където всички негови платформи започват да мигат - тук ИИ може след това да продължи с ярост, натрупвайки огромни точки.

ПРОЧЕТЕТЕ СЛЕДВАЩО: Един от най-противоречивите записи на играта най-накрая беше дискредитиран

как да използвам музикален бот в раздор

Как AI спечели Q * bert войната

Разбивайки рекорда за всички времена за заглавието, AI събра невъзможно висок резултат благодарение на алгоритъма си за програмиране на стратегия за еволюция. Еволюционните стратегии (ES) се различават от обичайното засилващо обучение (RL), което традиционният AI използва, тъй като се счита за по-мащабируемо поради своето поколено обучение.

Всеки цикъл на обучение се нарича поколение и той продължава да изпълнява задачите си, докато не бъде изпълнено зададено условие (в този случай висок резултат). С всяко следващо поколение ИИ поглъща знанията от предишното поколение и следователно е по-добър в постигането на същата цел и надминаването ѝ. Продължавайте и ще получите AI, който е абсолютно ненадминат по своята задача. Точно това се случи тук с Q * bert score.

Очертано в хартията , публикувано миналата седмица от изследователи от университета във Фрайбург, Германия, изглежда, че грешката не е била известно количество. Всъщност, макар да не са много изненадани от намирането на грешката, интересно е да се види как AI след това се е научил да го използва всеки път, когато играе, за да увеличи максимално потенциала си за оценка.

ПРОЧЕТЕТЕ СЛЕДВАЩО: Този изкуствен интелект се учи да овладява Super Mario Bros

За да намери грешката, агентът първо трябваше да се научи да изпълнява почти първото ниво - това не беше направено наведнъж, а с помощта на много малки подобрения, обясниха изследователите на Регистърът . Подозираме, че в даден момент от обучението едно от решенията на потомството се е сблъскало с грешката и е получило много по-добър резултат в сравнение със своите братя и сестри, което от своя страна е увеличило приноса му към актуализацията - теглото му е било най-високото в претеглената средна стойност. Това бавно премести решението в пространството, където все повече и повече потомци започнаха да срещат една и съща грешка.

Не знаем точните условия, при които се появява грешката; възможно е той да се появи само ако агентът следва модел, който изглежда неоптимален, [например когато агентът губи време или дори губи живот]. Ако случаят беше такъв, тогава би било изключително трудно за стандартния RL да намери грешката: ако използвате допълнителни награди, ще научите стратегии, които бързо дават някаква награда, вместо стратегии за учене, които не дават много награди за известно време и след това изведнъж спечелете големи.

Вижте свързаните Шампионът на Драгстър Тод Роджърс току-що загуби короната си след 35 години Този изкуствен интелект се учи да овладява Super Mario Bros 1-2 в продължение на 17 дни Гледайте този AI да се научи да шофира в GTA V на Twitch

Въпреки прекрасните резултати на бота обаче, изследователите не казват, че това е случай, за да защити ES обучението над RL. Всъщност и двете системи имат свои собствени проблеми и комбинацията от двете до голяма степен се разглежда като най-добрият вариант за движение напред.

Същият метод на ES в други игри на Atari не доведе до почти еднакви положителни резултати. От друга страна, RL е отговорен за разбиването на рекорди отляво, отдясно и от центъра, включително побеждаването на най-добрия играч в света GO. ES все още има своето място в нещата и всъщност Nvidia изпълнява много от своите AI обучения, тъй като изисква повече изчислителна мощ, но постига по-добри резултати за по-дълъг период от време.

Независимо кой начин ще се превърне в бъдещето за развитието на ИИ, поне този бот изневерява на системата не е толкова лош, колкото този сега опозорен световен шампион по видеоигри .

Интересни Статии

Избор На Редактора

Как да увеличите живота на батерията на Samsung Galaxy S9 и S9 Plus
Как да увеличите живота на батерията на Samsung Galaxy S9 и S9 Plus
Как да промените вашия акаунт в Netflix на телевизор Vizio
Как да промените вашия акаунт в Netflix на телевизор Vizio
Възможно е да промените потребителските си акаунти за Netflix на вашия Vizio TV. Например, ако сте вземали назаем чужд акаунт и след това сте купили собствения си акаунт в Netflix, можете да премахнете предишния акаунт и да добавите своя
Как да заобиколите „Връзката ви не е частна“ в Chrome
Как да заобиколите „Връзката ви не е частна“ в Chrome
Виждането на съобщение „Връзката ви не е лична“, когато се опитвате да се свържете с уебсайт, може да бъде объркващо и малко тревожно. Защо връзката не е лична? Някой хакна ли компютъра ми? Но добра новина: това
Как да получите безплатни игри на Meta Quest и Quest 2
Как да получите безплатни игри на Meta Quest и Quest 2
Можете да използвате филтър за магазин, за да намерите безплатни игри, или да намерите безплатни игри на Quest App Lab, като използвате неофициалния уебсайт sidequestvr.
Как да активирам Active Directory Windows 10
Как да активирам Active Directory Windows 10
Windows 10 е много повече от обикновена операционна система, създадена за домашни компютри. Въпреки че може да се представи изключително добре в тази роля, неговите издания Enterprise и Professional са пълноценни пакети за корпоративно управление. За да освободите вашия прозорец 10 е пълен
Как да видите всички блокирани номера на вашия iPhone
Как да видите всички блокирани номера на вашия iPhone
Блокирането на номера е много удобен начин да спестите от нежелани обаждания, независимо дали познавате обаждащия се или не. Но понякога числата попадат в списъка с блокове по погрешка. Или може би контактът е във ваше добро
Как да анулирате абонамента си за Peacock
Как да анулирате абонамента си за Peacock
Тази статия предоставя инструкции стъпка по стъпка как да анулирате абонамента си за Peacock в мрежата или с помощта на устройство iPhone, iPad или Android.