Основные шаги и краткие советы для заказчиков и фрилансеров
Клуб Вулкан
01.07.2017В алгоритмах без способа действий этапы исследования и эксплуатации разделяются. Как правило, оба этапа осуществляются отдельно, и в каждом из них используется собственный способ действий. Способ действий, применяемый на этапе исследования, называется оценочным, а применяемый на этапе эксплуатации — поведенческим. Кратко можно отметить, что от выбранных способов действий существенно зависят качество обучения, а также окончательно выбранная форма поведения.
Инструменты обучения
В алгоритмах, представленных в следующем разделе, используются аналогичные методы, а также общие определения, приведенные выше.
Под итерационным усовершенствованием подразумевается процесс обновления оценки на основе другой оценки. Связанный с этим подход может оказаться полезным во время обучения, поскольку он позволяет со временем улучшать качество оценок. В ходе обучения с подкреплением на vulcanonline-klub.com итерационное усовершенствование может использоваться для оптимизации значений состояния. На интуитивном уровне можно понять, что оценить качество состояния можно на основании предположения о том, насколько качественным является следующее состояние.
В отличие от этого, в методах, не основанных на итерационном усовершенствовании, определение с помощью обучения каждого значения состояния осуществляется отдельно, без использования оценок соседних состояний. Оба эти подхода показали, что они обладают характерными преимуществами, поэтому на основе того и другого разработаны многие алгоритмы (например, обучение по временной разности).
В контексте разработки игровых средств ИИ обучение с подкреплением может стать источником значительных преимуществ, но не лишено и недостатков.
Разработано много разновидностей алгоритмов обучения с подкреплением. Эти алгоритмы в случае необходимости позволяют обойтись без применения моделей мира, а в результате обучения дают возможность определить вероятности переходов или ожидаемые вознаграждения. Но если имеется модель мира, то эти алгоритмы позволяют использовать ее в максимальной степени.
Недостатки
Примитивный подход, в котором для хранения значений действия используется матрица, плохо масштабируется, поскольку требует большого объема памяти. С другой стороны, применение в больших масштабах не обеспечивают и атгоритмы, в которых применяется резервирование на единичную глубину, поскольку их эксплуатация связана с выполнением большого объема вычислений. Сама суть резервирования является таковой, что для передачи вознаграждения в конечном итоге во все состояния требуются многочисленные прямые итерации. Этот недостаток особенно недопустим в динамических вариантах среды.