Основен Услуги За Поточно Предаване AI се научава да изневерява на Q * bert по начин, който никой човек никога не е правил

AI се научава да изневерява на Q * bert по начин, който никой човек никога не е правил



AI е успял да измами с най-доброто човечество, което може да предложи, след като е открил експлойт в класическата аркадна игра Q * bert и е работил с него.

Докато по-ранните итерации на AI биха играли Q * bert правилно, в даден момент от научаването му за това как играта работи, той открива експлойт, който му позволява да натрупва безумни точки. Естествено, както би направил всеки играч на лов на резултати, той повтаря процеса, за да може да увеличи резултата си по възможно най-ефективния начин.

Можете да видите как AI се справя с платформите във видеото по-долу. Отначало изглежда така, сякаш безцелно скача между платформите. Вместо да види как играта преминава към следващия кръг, Q * bert се забива в цикъл, където всички негови платформи започват да мигат - тук ИИ може след това да продължи с ярост, натрупвайки огромни точки.

ПРОЧЕТЕТЕ СЛЕДВАЩО: Един от най-противоречивите записи на играта най-накрая беше дискредитиран

как да използвам музикален бот в раздор

Как AI спечели Q * bert войната

Разбивайки рекорда за всички времена за заглавието, AI събра невъзможно висок резултат благодарение на алгоритъма си за програмиране на стратегия за еволюция. Еволюционните стратегии (ES) се различават от обичайното засилващо обучение (RL), което традиционният AI използва, тъй като се счита за по-мащабируемо поради своето поколено обучение.

Всеки цикъл на обучение се нарича поколение и той продължава да изпълнява задачите си, докато не бъде изпълнено зададено условие (в този случай висок резултат). С всяко следващо поколение ИИ поглъща знанията от предишното поколение и следователно е по-добър в постигането на същата цел и надминаването ѝ. Продължавайте и ще получите AI, който е абсолютно ненадминат по своята задача. Точно това се случи тук с Q * bert score.

Очертано в хартията , публикувано миналата седмица от изследователи от университета във Фрайбург, Германия, изглежда, че грешката не е била известно количество. Всъщност, макар да не са много изненадани от намирането на грешката, интересно е да се види как AI след това се е научил да го използва всеки път, когато играе, за да увеличи максимално потенциала си за оценка.

ПРОЧЕТЕТЕ СЛЕДВАЩО: Този изкуствен интелект се учи да овладява Super Mario Bros

За да намери грешката, агентът първо трябваше да се научи да изпълнява почти първото ниво - това не беше направено наведнъж, а с помощта на много малки подобрения, обясниха изследователите на Регистърът . Подозираме, че в даден момент от обучението едно от решенията на потомството се е сблъскало с грешката и е получило много по-добър резултат в сравнение със своите братя и сестри, което от своя страна е увеличило приноса му към актуализацията - теглото му е било най-високото в претеглената средна стойност. Това бавно премести решението в пространството, където все повече и повече потомци започнаха да срещат една и съща грешка.

Не знаем точните условия, при които се появява грешката; възможно е той да се появи само ако агентът следва модел, който изглежда неоптимален, [например когато агентът губи време или дори губи живот]. Ако случаят беше такъв, тогава би било изключително трудно за стандартния RL да намери грешката: ако използвате допълнителни награди, ще научите стратегии, които бързо дават някаква награда, вместо стратегии за учене, които не дават много награди за известно време и след това изведнъж спечелете големи.

Вижте свързаните Шампионът на Драгстър Тод Роджърс току-що загуби короната си след 35 години Този изкуствен интелект се учи да овладява Super Mario Bros 1-2 в продължение на 17 дни Гледайте този AI да се научи да шофира в GTA V на Twitch

Въпреки прекрасните резултати на бота обаче, изследователите не казват, че това е случай, за да защити ES обучението над RL. Всъщност и двете системи имат свои собствени проблеми и комбинацията от двете до голяма степен се разглежда като най-добрият вариант за движение напред.

Същият метод на ES в други игри на Atari не доведе до почти еднакви положителни резултати. От друга страна, RL е отговорен за разбиването на рекорди отляво, отдясно и от центъра, включително побеждаването на най-добрия играч в света GO. ES все още има своето място в нещата и всъщност Nvidia изпълнява много от своите AI обучения, тъй като изисква повече изчислителна мощ, но постига по-добри резултати за по-дълъг период от време.

Независимо кой начин ще се превърне в бъдещето за развитието на ИИ, поне този бот изневерява на системата не е толкова лош, колкото този сега опозорен световен шампион по видеоигри .

Интересни Статии

Избор На Редактора

Как да разберете кой е престанал да ви следва в Instagram
Как да разберете кой е престанал да ви следва в Instagram
Въпреки че Instagram ви уведомява всеки път, когато друг потребител ви следва, няма да разберете дали някой е прекратил следването ви, освен ако не проверите профила си. Въпреки че няма пряк начин да разберете кой е преустановил следенето на вашия акаунт поради Instagram
KB4578013 за Windows 8.1 поправя уязвимостта на отдалечения достъп
KB4578013 за Windows 8.1 поправя уязвимостта на отдалечения достъп
Microsoft издаде корекция извън обхвата за Windows 8.1 и Windows Server 2012 R2. Актуализацията разрешава уязвимостта на Remote Access Elevation of Privilege и трябва да бъде инсталирана на всички устройства. Ето някои подробности за уязвимостта. Уязвимост на повишаване на привилегиите съществува, когато отдалеченият достъп на Windows неправилно обработва файлови операции.
Архиви на маркери: Фонове на заключващ екран на Windows 10
Архиви на маркери: Фонове на заключващ екран на Windows 10
Архиви на маркери: Монитор за надеждност на Windows 10
Архиви на маркери: Монитор за надеждност на Windows 10
Как да стартирате нови версии на Opera в частен режим от командния ред или пряк път
Как да стартирате нови версии на Opera в частен режим от командния ред или пряк път
Описва как да стартирате Chromium-базирана Opera в частен режим чрез пряк път или команден ред.
Индийска тема за дивата природа за Windows 10, 8 и 7
Индийска тема за дивата природа за Windows 10, 8 и 7
Темата Garden Glimpses включва 16 страхотни фонови изображения на работния плот с животни, за да украсят вашия работен плот. Този красив тематичен пакет първоначално е създаден за Windows 7, но можете да го използвате в Windows 10, Windows 7 и Windows 8. Тапетите в тази тема включват великолепни птици, тигри, читален елен, бухали и други прекрасни животни, заобиколени от
Каква е разликата между Google Keep и Tasks?
Каква е разликата между Google Keep и Tasks?
Ако сте малко объркани защо Google има повече от едно приложение за задачи, не сте сами. На пръв поглед Google Keep и Google Tasks имат точно същата цел. Но когато вземете предвид факта