Derin pekiştirmeli öğrenme kullanarak insansı robotlar için itme kurtarma kontrol sisteminin geliştirilmesi
Citation
Aslan, E. (2023). Derin pekiştirmeli öğrenme kullanarak insansı robotlar için itme kurtarma kontrol sisteminin geliştirilmesi. Yayımlanmamış doktora tezi, Dicle Üniversitesi, Diyarbakır.Abstract
Bu tezin amacı, iki ayaklı insansı bir robot için bir insanın eylemlerini taklit edebilecek tamamen bağımsız bir itme-kurtarma kontrol sistemi tasarlamak ve robota uygulamaktır. Bu çalışmada, dış kuvvetlerden ve itmelerden etkilenen iki ayaklı insansı robotların itme-kurtarma problemine odaklanılmıştır. İnsansı robotlar denge açısından yapısal olarak kararsız olduklarından dolayı bu problem robotlarda önemli sorun olarak ortaya çıkmaktadır. Robotlarda, itme-kurtarma kontrolörleri ayak bileği, kalça ve adım olmak üzere 3 stratejiden oluşmaktadır. Bu stratejiler, insanların denge bozukluğu durumlarında gösterdikleri biyomekanik tepkilerdir. Bu tezde, insansı robotların ayakta dururken ya da yürürken dengede kalabilmesi ve dış kuvvetlerden kaynaklanabilecek denge bozukluklarının önlenmesi için aktif bir denge kontrolü sunulmuştur. Buna ilişkin yapılan çalışmada hem simülâsyon hem de gerçek dünya testleri yapılmıştır. Çalışmanın simülâsyon testleri Webots ortamında 3 boyutlu modeller ile gerçekleştirilmiştir. Gerçek dünya testleri ise Robotis-OP2 insansı robot üzerinde yapılmıştır. Robot üzerinde bulunan sensörlerden jiroskop, ivmeölçer ve motor verileri kaydedilip, robota harici itme kuvveti uygulanmıştır. Kaydedilen bu veriler ve ayak bileği stratejisi kullanılarak robotun dengesi sağlanmıştır. Bunun için klasik kontrol yöntemi olarak PD kontrolör ve tahmine dayalı olan Model Öngörülü Kontrol (MÖK) yöntemi ile de robotun kontrolü sağlanmıştır. Bununla birlikte robotun tamamen otonom hale getirilebilmesi için Derin Pekiştirmeli Öğrenme (DPÖ) algoritmalarından Derin Q Ağı (DQA) ve Çift Derin Q Ağı (ÇDQA) yöntemleri uygulanmıştır. Bu uygulamalarda robota hem önden hem arkadan kuvvetler uygulanmıştır. Simülâsyon ortamında yapılan test çalışmalarında robotun her iki durumda da gelen itmelere karşı ayakta kaldığı gözlemlenmiştir. Uygulanan dört farklı kontrol yönteminden en iyi sonuçları, ÇDQA algoritması vermiştir. Gerçek ortam testlerinde alınan sonuçlar simülâsyon sonuçlarına paralellik göstermiştir. The aim of this thesis is to design and implement a completely independent push-and-rescue control system for a bipedal humanoid robot that can imitate the actions of a human. In this study, the thrust-recovery problem of bipedal humanoid robots affected by external forces and thrusts is focused. Since humanoid robots are structurally unstable in terms of balance, this problem emerges as an important problem in robots. In robots, push-rescue controllers consist of 3 strategies: ankle, hip and step. These strategies are biomechanical responses that people show in cases of balance disorder. In this thesis, an active balance control is presented in order to keep the humanoid robots in balance while standing or walking and to prevent balance disorders that may be caused by external forces. In this study, both simulation and real-world tests were conducted. The simulation tests of the study were carried out with 3D models in the Webots environment. Real-world tests were conducted on the Robotis-OP2 humanoid robot. The gyroscope, accelerometer and motor data from the sensors on the robot were recorded and external thrust was applied to the robot. The balance of the robot was ensured by using these recorded data and the ankle strategy. For this, the control of the robot is provided with the PD controller as the classical control method and the Model Predictive Control (MPC) method, which is based on prediction. In addition, Deep Q Network (DQN) and Double Deep Q Network (DDQN) methods from Deep Reinforcement Learning (DRL) algorithms have been applied in order to make the robot fully autonomous. In these applications, both front and rear forces were applied to the robot. In the test studies carried out in the simulation environment, it has been observed that the robot survives the pushes in both cases. The DDQN algorithm gave the best results from the four different control methods applied. The results obtained in the real environment tests showed parallelism with the simulation results.