НИУ ВШЭ, МИСИС и AIRI: Метод обучения с подкреплением для нейросетей, заточенных на ориентацию в пространстве

Продукт

Название базовой системы (платформы):	Искусственный интеллект (ИИ, Artificial intelligence, AI)
Разработчики:	Высшая школа экономики (НИУ ВШЭ), НИТУ МИСиС (Национальный исследовательский технологический университет), Институт Искусственного Интеллекта (AIRI)
Дата премьеры системы:	2024/01/23

СМ. ТАКЖЕ (1)

Основная статья: Нейросети (нейронные сети)

2024: Анонс метода обучения нейросетей с подкреплением

Исследователи из НИУ ВШЭ, НИТУ МИСИС и AIRI нашли способ эффективнее проводить обучение с подкреплением для нейросетей, заточенных на ориентацию в пространстве. С помощью механизма внимания эффективность работы графовой нейросети увеличилась на 15%. Результаты исследования опубликованы в журнале IEEE Access. Об этом 23 января 2024 года сообщили представители НИУ ВШЭ.

Как сообщалось, человечеству пригодились бы роботы, которые могут сами перенести коробку из точки A в точку B, грузовики, умеющие ездить самостоятельно, и дроны-доставщики, способные не врезаться в деревья. Для ориентации в трехмерном пространстве таким устройствам-агентам обязательно нужны нейросети: окружающая среда требует быстрой реакции и возможности реагировать на изменяющиеся условия.

Если мы хотим научить агента работать самостоятельно, то должны оценивать его работу в процессе обучения. Нельзя просто дать ему проблему и наблюдать — практически всегда она будет решена не тем образом и не с тем результатом, которого мы хотим. Поэтому нейросеть получает бонусный квест: при выполнении задачи набрать как можно больше очков. Очки даются за продвижение к оптимальному решению. Это и есть обучение с подкреплением. Пока нейросеть обучается, выполняя одно и то же задание много раз, мы оцениваем ее результаты и либо поощряем "наградой" за движение в нужном направлении, либо признаем результат вредным и уменьшаем количество заработанных "очков".

рассказал Матвей Герасёв, один из авторов статьи, аспирант факультета компьютерных наук НИУ ВШЭ

Ориентирование в пространстве — на январь 2024 года одна из самых сложных задач в мире нейросетей. Проблема в том, что в этой задаче у нейросети зачастую нет полной информации о ее текущем окружении, например глубины или карты местности. Еще меньше нейросеть знает о перспективах награды: вознаграждение выдается не поэтапно, а один раз в конце, после полного выполнения задания. Рынок ИТ-услуг в России: оценки, тренды, крупнейшие участники. Обзор и рейтинг TAdviser 298.7 т

Если представить, что нужно пройти через лес к башне, заинтересовав как можно больше белок. Важно, что они сидят в основном на самом коротком пути (на пути оптимального решения) и, если увидят идущего, пойдут за ним. При этом идущий их не видит, где башня — не знает и количество заинтересовавшихся зверей узнает, только достигнув цели. Такого типа задачи достаются пространственным нейросетям.

Получение награды выражено математически функцией вознаграждения, и нейросеть должна определить ее как можно точнее, чтобы получить большую награду. Хорошая функция помогает сети эффективнее решать задачу и обучаться.

Авторы исследования предложили другой метод формирования функции вознаграждения с учетом специфики однократного получения вознаграждения после полного решения проблемы. Он основывается на дополнительных вторичных вознаграждениях — шейпинге вознаграждения. Ученые применили два способа оптимизации техники, которую в 2020 году предложили канадские ученые из Макгиллского университета. Первый использует продвинутые агрегирующие функции, а второй — механизм внимания. Продвинутые агрегирующие функции учитывают, в каком порядке и что видит нейросеть. В статье ученые указывают на важность подбора агрегирующей функции под архитектуру конкретной нейросети. Механизм внимания позволяет модели сосредоточиться на наиболее важных входных данных при создании прогнозов. Признаки важного, выгодного решения нейросеть находит при сопоставлении последовательных шагов решения задачи.

Исследователи провели серию экспериментов с поэтапным вознаграждением (разреженным вознаграждением, sparse reward). Для них использовали задачи на ориентацию в виртуальных пространствах «4 комнаты» и «Лабиринт».

НИУ ВШЭ

Изображение сред «4 комнаты» и «Лабиринт»

В «4 комнатах» нейросеть должна обнаружить красный ящик, который случайным образом появляется в одной из комнат. Нейросеть может перемещаться только прямо, влево или вправо. Ящик — цель механизма внимания. Нейросеть учится параллельно в 16 таких пространствах, совершая 5 миллионов действий.

В «Лабиринте» помещенный в произвольную точку агент должен найти выход. Сам лабиринт каждый раз генерируется случайным образом, и для успешного обучения модели требуется пройти 20 миллионов шагов.

НИУ ВШЭ

Обученные по методу исследователей ВШЭ нейросети представлены зеленым и оранжевым графиком. X — количество шагов с начала обучения (шт.), Y — среднее вознаграждение, безразмерная шкала (от 0 до 1). Слева — результаты задачи «4 комнаты», справа — «Лабиринта».

Исследование показало, что при формировании функции вознаграждения на основе механизма внимания агент обучается сосредотачиваться на ребрах графа, соответствующих важным переходам в трехмерной среде — тем, при которых цель попадает в поле зрения агента. Это до 15% оптимизирует эффективность работы нейросетей.

Нам важно было оптимизировать процесс обучения именно для графовых нейронных сетей. Граф нельзя наблюдать целиком напрямую, но для эффективного обучения графовой нейронной сети достаточно рассматривать его части. Их можно наблюдать в виде отдельных траекторий перемещения агента. Таким образом, для обучения необязательны все варианты траекторий. Применение механизма внимания — перспективное решение, поскольку оно оптимизирует процесс обучения. Оптимизация происходит за счет учета структуры графа марковского процесса, что недоступно неграфовым нейросетям.

рассказал Илья Макаров, доцент факультета компьютерных наук и приглашенный преподаватель Лаборатории алгоритмов и технологий анализа сетевых структур НИУ ВШЭ в Нижнем Новгороде, руководитель группы «ИИ в промышленности» Института AIRI, директор Центра ИИ МИСИС

В исследовании использовались ресурсы Программы фундаментальных исследований НИУ ВШЭ и вычислительные ресурсы HPC-кластера НИУ ВШЭ.

Источник — «https://gov.tadviser.ru/index.php/%D0%9F%D1%80%D0%BE%D0%B4%D1%83%D0%BA%D1%82:%D0%9D%D0%98%D0%A3_%D0%92%D0%A8%D0%AD,_%D0%9C%D0%98%D0%A1%D0%98%D0%A1_%D0%B8_AIRI:_%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8F_%D1%81_%D0%BF%D0%BE%D0%B4%D0%BA%D1%80%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC_%D0%B4%D0%BB%D1%8F_%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D1%81%D0%B5%D1%82%D0%B5%D0%B9,_%D0%B7%D0%B0%D1%82%D0%BE%D1%87%D0%B5%D0%BD%D0%BD%D1%8B%D1%85_%D0%BD%D0%B0_%D0%BE%D1%80%D0%B8%D0%B5%D0%BD%D1%82%D0%B0%D1%86%D0%B8%D1%8E_%D0%B2_%D0%BF%D1%80%D0%BE%D1%81%D1%82%D1%80%D0%B0%D0%BD%D1%81%D1%82%D0%B2%D0%B5»

СМ. ТАКЖЕ (1)

Править

Read in English | Короткая ссылка