Методи навчання з підкріпленням (прикладна інформатика)
Тип: На вибір студента
Лекції
Семестр | К-сть годин | Лектор | Група(и) |
9 | 16 | доцент Щербина Ю. М. |
Лабораторні
Семестр | К-сть годин | Група | Викладач(і) |
9 | 16 |
Опис курсу
Мета. Вивчення фундаментальних положень теорії і методів навчання з підкріпленням. Розв’язування задачі навчання з підкріпленням дає змогу інтелектуальному агенту домогтися успіху в невідомому середовищі, використовуючи лише отримані їм результати сприйняття, а іноді також винагороду.
Короткий опис. У курсі вивчаються марковські процеси прийняття рішень, рівняння Беллмана, алгоритм ітерації за значеннями, алгоритм ітерації за стратегіями для обчислення оптимальної стратегії, адаптивне динамічне програмування, навчання з урахуванням часових відмінностей, дослідження середовища.
Завдання. Головним завданням курсу є ознайомлення студентів із формулюванням основних понять такого розділу машинного навчання, як навчання з підкріпленням та вивчення головних типів методів навчання з підкріпленням.
У результаті вивчення даного курсу студент повинен
знати
- формулювання основних положень навчання з підкріпленням;
- методику безпосереднього оцінювання корисності;
- методику адаптивного динамічного програмування;
- методику часових відмінностей.
вміти
- використовувати методи, засновані на безпосередньому оцінюванні корисності;
- використовувати методи, засновані на адаптивному динамічному програмуванні;
- використовувати методи на основі часових відмінностей.