AI побеждает в популярной игре Minecraft в конкурсе по машинному обучению

ФУНКЦИЯ НОВОСТЕЙ
Конкурс MineRL побуждает программистов разрабатывать программы, которые учатся на примерах.
Версия PDF

Чтобы увидеть разницу между лучшим искусственным интеллектом и умственными способностями семилетнего ребенка, посмотрите не дальше популярной видеоигры Minecraft . Молодой человек может узнать, как найти в игре редкий алмаз, посмотрев 10-минутную демонстрацию на YouTube. Искусственному интеллекту (ИИ) и близко нет. Но в уникальном компьютерном соревновании, завершающемся в этом месяце, исследователи надеются сократить разрыв между машиной и ребенком — и тем самым помочь уменьшить вычислительную мощность, необходимую для обучения ИИ.

Конкуренты могут принять участие до четырех дней и использовать не более восьми миллионов шагов, чтобы научить свой ИИ находить бриллиант. Это по-прежнему намного дольше, чем требуется ребенку, чтобы научиться, но намного быстрее, чем обычные модели искусственного интеллекта в наши дни.

Конкурс призван стимулировать развитие подхода, называемого имитационным обучением. Это контрастирует с популярной техникой, известной как обучение с подкреплением, при которой программы пробуют тысячи или миллионы случайных действий методом проб и ошибок, чтобы найти лучший процесс. Обучение с подкреплением помогло разработать рекомендации для пользователей Netflix, создать способы обучения роботизированного оружия на заводах и даже превзойти людей в играх. Но это может потребовать много времени и вычислительной мощности. Попытки использовать обучение с подкреплением для создания алгоритмов, которые могут безопасно управлять автомобилем или побеждать в сложных играх, таких как Го, вовлекали сотни или тысячи компьютеров, работающих параллельно, чтобы коллективно запускать моделирование, рассчитанное на сотни лет, — что-то только у самых богатых правительств. и корпорации могут себе это позволить.

Имитационное обучение может повысить эффективность процесса обучения, имитируя, как люди или даже другие алгоритмы ИИ решают эту задачу. А мероприятие по кодированию, известное как Конкурс MineRL (произносится как «минерал»), побуждает участников использовать эту технику, чтобы научить ИИ играть в игру.

У методов обучения с подкреплением не будет ни единого шанса. в этом соревновании самостоятельно, — говорит Уильям Гасс, кандидат наук по теории глубокого обучения в Университете Карнеги-Меллона в Питтсбурге, штат Пенсильвания, и руководитель группы организаторов конкурса MineRL. Работая наугад, ИИ может преуспеть только в том, чтобы срубить одно или два дерева на пределе соревнования в восемь миллионов шагов — и это лишь одно из предварительных условий для создания железной кирки для добычи алмазов в игре. «Разведка — это действительно очень сложно», — говорит Гасс. «Имитационное обучение дает вам хорошее представление об окружающей среде.. ”

Гасс и его коллеги надеются, что конкурс, спонсируемый, в частности, Карнеги-Меллон и Microsoft, может оказать влияние не только на поиск Minecraft , вдохновляя программистов расширять границы имитационного обучения. Такие исследования могут в конечном итоге помочь обучить ИИ, чтобы он мог лучше взаимодействовать с людьми в широком диапазоне ситуаций, а также ориентироваться в средах, наполненных неопределенностью и сложностью. «Имитационное обучение лежит в основе обучения и развития интеллекта», — говорит Ориол Виньялс, научный сотрудник Google DeepMind в Лондоне и член консультативного комитета конкурса MineRL. «Это позволяет нам быстро изучить задачу без необходимости выяснять решение, которое эволюция нашла« с нуля »».

Игра на примере

Организатор конкурса утверждает, что Minecraft особенно хорош как виртуальный полигон. Игроки в игре демонстрируют множество умных поступков. В популярном режиме выживания они должны защищаться от монстров, фуража или фермерской еды, а также постоянно собирать материалы для строительства зданий и создания инструментов. Новые игроки должны изучить версию физики в Minecraft , а также найти рецепты для преобразования материалов в ресурсы или инструменты. Игра прославилась креативностью, которую она раскрывает в своих игроках, которые создают блочные виртуальные версии самых разных вещей: Эйфелеву башню, Диснейленд, траншею Звезды Смерти из «Звездных войн» и даже рабочий компьютер внутри игры.

Для создания тренировочных данных для соревнований организаторы MineRL установили создал общедоступный сервер Minecraft и нанял людей для выполнения задач, призванных продемонстрировать конкретные задачи, например создание различных инструментов. В конечном итоге они зафиксировали 60 миллионов примеров действий, которые можно было бы предпринять в данной ситуации, и примерно 1000 часов записанного поведения, которые можно было передать командам. Записи представляют собой один из первых и крупнейших наборов данных, специально посвященных исследованиям в области имитационного обучения.

Конкурс нацелен на использование имитации для «начальной загрузки» обучения, так что ИИ не нужно тратить так «много времени уделяет изучению окружающей среды, чтобы выяснить, что возможно из первых принципов, и вместо этого использовать знания, накопленные людьми», — говорит Рохин Шах, кандидат компьютерных наук в Калифорнийском университете в Беркли. Рассылка новостей . «Насколько мне известно, другого соревнования по ИИ, посвященного именно этому вопросу, не проводилось».

Под влиянием облачных вычислений и большого количества данных обучение с подкреплением обычно генерирует львиную долю новые исследовательские работы по ИИ. Но интерес к имитационному обучению растет, отчасти потому, что исследователи борются с ограничениями подхода проб и ошибок.. Для обучения таким образом требуются данные обучения, которые могут продемонстрировать все возможности и последствия различных взаимодействий с окружающей средой, — говорит Катя Хофманн, главный исследователь группы Game Intelligence в Microsoft Research в Кембридже, Великобритания, и член оргкомитета конкурса MineRL (Microsoft приобрела разработчика Minecraft за 2,5 миллиарда долларов США в 2014 году). Такие данные может быть трудно получить в сложных реальных средах, в которых непросто или безопасно воспроизвести все последствия неверных решений.

Возьмем, к примеру, беспилотные автомобили. . Для их обучения, в основном, путем обучения с подкреплением, потребуются тысячи или миллионы попыток, чтобы понять разницу между безопасным и безрассудным вождением. Но симуляции вождения не могут включать все возможные условия, которые могут привести к аварии в реальном мире. А позволять беспилотному автомобилю учиться, постоянно врезаясь в дороги общего пользования, было бы совершенно опасно. По словам Хофманна, помимо вопросов безопасности, обучение с подкреплением может стать дорогостоящим, требуя вычислительной мощности в миллионы долларов.

В отличие от чистого обучения с подкреплением с нуля, имитация обучение требует кратчайших путей, получая фору, обучаясь на примерах. Он уже нашел применение наряду с обучением с подкреплением. Некоторые из наиболее известных демонстраций искусственного интеллекта за последние несколько лет, включая нападение алгоритма AlphaGo на людей-мастеров игры в 2017 году, объединили два подхода, начиная с базовой модели, созданной с использованием имитационного обучения.

Имитационное обучение. тоже имеет ограничения. Во-первых, он склонен к решениям, которые уже были продемонстрированы в обучающих примерах. Таким образом, обученный таким образом ИИ может быть негибким. «Если система ИИ делает ошибку или несколько отличается от того, что сделал бы человек, то она попадает в новую обстановку, отличную от того, что она видела в демонстрациях», — говорит Шах. «Поскольку он не видел этой ситуации, он становится еще более запутанным и совершает больше ошибок, которые усугубляются и приводят к довольно серьезным сбоям».

Тем не менее, ряд исследователей видят большой потенциал в технике, особенно когда дело доходит до обучения ИИ для достижения определенных целей. «Самое приятное в имитационном обучении в отличие от обучения с подкреплением — это демонстрация успеха», — говорит Дебадипта Дей, главный исследователь группы адаптивных систем и взаимодействия в Microsoft Research в Редмонде, штат Вашингтон. «Это действительно помогает ускорить обучение».

Чтобы добраться до алмазного сокровища, управляемые ИИ игроки или агенты в соревновании MineRL должны освоить многоступенчатый процесс. Сначала они собирают дерево и железо, чтобы сделать кирки. Затем они строят факелы, чтобы осветить путь. Они также могут нести ведро с водой, чтобы погасить подземные потоки лавы.. Как только все это будет подготовлено, ИИ может начать исследовать шахты и пещеры, а также прокладывать себе путь под землей в поисках алмазной руды.

Участники должны обучать своих ИИ с помощью набора оборудования, состоящего из не более шести ядер центральной обработки и одной видеокарты NVIDIA — это то, что большинство исследовательских лабораторий может себе позволить через службы облачных вычислений. Более 900 команд зарегистрировались для участия в первом раунде конкурса, а 39 в конечном итоге представили агентов ИИ. Десять групп, добившихся наибольшего прогресса в обучении ИИ обнаружению алмазов, прошли во второй и последний раунд. Некоторым из этих ИИ удалось добыть железную руду и построить печь — еще два необходимых условия для изготовления железной кирки. Но Гасс не ожидает, что какой-либо из агентов команд найдет алмаз — по крайней мере, в этом первом соревновании.

Хотя конкурс нацелен на конкретную цель, он может стимулировать более широкие исследования ИИ с помощью Майнкрафт . «Меня особенно интересует Minecraft , потому что это пример среды, в которой люди на самом деле преследуют разные цели — в Minecraft , — говорит Шах. «Это делает его гораздо более подходящим испытательным полигоном для методов, которые пытаются познать человеческие цели».

И даже если графика и правила игры не полностью отражают физическую реальность, разработка более эффективных способов Обучение ИИ в Minecraft может привести к более быстрому обучению ИИ в таких областях, как робототехника. MineRL «может привести к результатам, которые повлияют на реальные области, такие как роботизированная сборка сложных объектов или любая другая область, где требуется обучение сложному поведению», — говорит Джони Паяринен, руководитель исследовательской группы в лаборатории интеллектуальных автономных систем. в Техническом университете Дармштадта в Германии.

После завершения финального раунда конкурса 25 ноября Гасс и другие организаторы рассмотрят заявки, чтобы определить, какой ИИ окажется самым продвинутым охотником за алмазами. Окончательные результаты будут опубликованы 6 декабря, незадолго до конференции NeurIPS (Конференция по системам обработки нейронной информации) в Ванкувере, Канада, куда все десять команд-финалистов будут приглашены представить свои результаты.

Конкурс MineRL становится постоянной традицией, он может стать общедоступным эталоном для отслеживания прогресса в имитационном обучении. «Кажется вполне вероятным, что MineRL будет стимулировать дополнительные исследования в области имитационного обучения», — говорит Шах. «Будет ли имитационное обучение иметь значение для реальных приложений, еще предстоит увидеть, но я настроен оптимистично».

Nature 575 , 583- 584 (2019)

doi: https://doi.org/10. 1038/d41586-019-03630-0

Вакансии от Nature Careers

      • Все вакансии
      • Лаб-Чжан — научный сотрудник

        Институт Вистар

        Филадельфия, Пенсильвания, США

        ЗАПИСЬ НА РАБОТУ
      • Научный сотрудник — Геномика рака легкого и репликация ДНК

        Медицинский центр Лангоне Нью-Йоркского университета (NYULMC)

        Нью-Йорк, Нью-Йорк, США

        ЗАПИСЬ НА РАБОТУ
      • Директор отдела онкологических исследований

        Johnson & Johnson

        Spring House, PA, United States

        ЗАПИСЬ
      • Ученый (развитие и нарушения кровяных клеток)

        St. Детская исследовательская больница Джуда (Сент-Джуд)

        Мемфис, Теннесси, США

        ЗАПИСЬ НА РАБОТУ

Важная сводка научных новостей, мнений и анализов, доставленная вам на почту каждый будний день.

Оцените статью
Gamicon.ru
Добавить комментарий