Hiyerarşik başlangıç pozisyonlu derin Q-ağı algoritması ile mobil robot uygulaması
Citation
Erkan, E. (2022). Hiyerarşik başlangıç pozisyonlu derin Q-ağı algoritması ile mobil robot uygulaması. Yayımlanmamış doktora tezi, Dicle Üniversitesi, Diyarbakır.Abstract
Derin öğrenmedeki kayda değer ilerleme pekiştirmeli öğrenmeyi de önemli ölçüde etkilemiştir ve her iki yöntemin birleşimi olan Derin Pekiştirmeli Öğrenme (DPÖ) yöntemini ortaya çıkarmıştır. DPÖ'nün bir veri setine ihtiyaç duymaması ve insan uzmanların performansını aşabilecek potansiyele sahip olması yapay zeka alanında önemli gelişmeler olmasına yol açmaktadır. Ancak bir DPÖ ajanı eğitilirken ortam ile çok sayıda etkileşime girmesi gerektiğinden, doğrudan gerçek ortamda eğitilmesi, uzun eğitim süresi, yüksek maliyet ve oluşabilecek maddi hasarlardan dolayı zordur. Bu sebepten dolayı gerçek dünya uygulamaları için DPÖ ajanlarının eğitiminin büyük bir kısmı ya da tamamı sanal ortamlarda gerçekleştirilmektedir. Yapılan bu çalışmada, seyrek ödüllerin bulunduğu ayrık yapıdaki bir sanal ortamda eğitilen DPÖ ajanının ağ parametreleri kullanılarak bir mobil robotun, gerçek dünya ortamında hedefine ulaşma problemine odaklanılmıştır. DPÖ ajanının eğitimi için Minimalistic Gridworld sanal ortamı kullanılmıştır ve bilindiği kadarıyla bu çalışma Minimalistic Gridworld sanal ortamı için ilk gerçek dünya uygulamasıdır. Ortam genişlediğinde, klasik DQA algoritmasına göre daha yüksek performansa sahip bir DPÖ algoritması oluşturulmuştur. Gerçek dünya uygulamasında kullanılmak üzere düşük maliyetli bir mobil robot tasarlanmıştır. Önerilen tasarımda mobil robot, merkezi bir bilgisayardan uzun menzilli olarak kontrol edilebilir yapıdadır. Sanal ortam ile gerçek ortamı eşleştirebilmek için mobil robot ve hedefin pozisyonunu ile mobil robotun rotasyonunu tespit edebilen algoritmalar oluşturulmuştur. Sanal ortamda eğitilen modelin, gerçek ortamda daha verimli şekilde kullanılması sağlanmıştır. Sonuç olarak, sadece ortamın üstten görüntüsünü kullanan, başlangıç pozisyonu ve rotasyonundan bağımsız olarak hedefine ulaşabilen DPÖ tabanlı bir mobil robot geliştirilmiştir. Bu çalışmanın gerçek ortam deneylerinde DPÖ tabanlı mobil robot, farklı başlangıç koşullarıyla ile başlatılmış ve mobil robot tüm deneylerde hedefe başarılı bir şekilde ulaşabildiği gözlenmiştir. The remarkable progress of deep learning has also significantly affected the reinforcement learning and resulted in deep reinforcement learning (DRL) method, which is a combination of both methods. DRL does not need a data set and has the potential beyond the performance of human experts, resulting in significant developments in the field of artificial intelligence. However, because a DRL agent has to interact with the environment a lot while it is trained, it is difficult to be trained directly in the real environment due to the long training time, high cost, and possible material damage. Therefore, most or all of the training of DRL agents for real-world applications is conducted in virtual environments. In this study, a DRL agent was trained in a discrete virtual environment with sparse rewards and focused on the real-world targeting problem of a mobile robot using these DRL network parameters. The Minimalistic Gridworld virtual environment was used for the training of the DRL agent, and as far as is known, this study is the first real-world application for the Minimalistic Gridworld virtual environment. A DRL algorithm with higher performance than the classical Deep Q-network algorithm was created with the expanded environment. A low-cost mobile robot was designed for use in a real-world application. In the proposed design, the mobile robot can be controlled from a central computer in a long range. To match the virtual environment with the real environment, algorithms that can detect the position of the mobile robot and the target, as well as the rotation of the mobile robot was created. The model trained in the virtual environment was enabled to be used more efficiently in the real environment. As a result, a DRL-based mobile robot was developed which used only the top view of the environment and could reach its target regardless of its initial position and rotation. In the real environment experiments of this study, the DRL-based mobile robot was started with different initial conditions and it was observed that the mobile robot could successfully reach the target in all experiments.