İnsansız hava aracından çekilen videolar kullanılarak derin öğrenme yaklaşımı ile nesne tespiti
Citation
Usta, A. (2022). İnsansız hava aracından çekilen videolar kullanılarak derin öğrenme yaklaşımı ile nesne tespiti. Yayımlanmamış yüksek lisans tezi, Dicle Üniversitesi, Diyarbakır.Abstract
Günümüzde İnsansız Hava Araçları (İHA) sınır güvenliği, sahil güvenliği, savunma, saldırı başta olmak üzere keşif, arama kurtarma, hava fotoğrafçılığı, lojistik, zirai ilaçlama, yangın söndürme gibi geniş bir kullanım alanına sahiptir. Bununla beraber otonom karar ve aksiyon mekanizması, komuta merkezi ile iletişim anında mesafeden veya başka sebeplerden dolayı oluşabilecek ve sonuçları tolere edilemeyecek gecikmenin yaşanmaması adına üzerinde durulması gereken önemli bir detaydır. Özellikle sınır güvenliği, sahil güvenliği, savunma, saldırı, yangın söndürme gibi durumlarda çok kritiktir. İHA'ların bazı görevleri otonom bir şekilde yerine getirebilmesi ise Bilgisayarlı Görü alanının İHA'lara entegresi ile olur. Bilgisayarlı Görü alanı uygulamalarından biri olan havadan nesne tespiti uygulamaları uzaklık, yakınlık kavramlarına bağlı olarak farklı boyutlardaki nesneleri algılayamama, yavaş algılama, yanlış tahminleme gibi birkaç hata içerir. Bu hatalar, farklı boyuttaki nesneleri, sabitleme kutularını (Anchor Box) kullanarak öğrenen ve maksimum olmayanı önleme (Non-Maximum Suppression) tekniğini kullanarak maksimum güven puanına sahip sınırlayıcı kutu dışındaki sınırlayıcı kutuları silen YOLO algoritması ile en aza indirilir. Çalışmanın kapsamı Derin Öğrenme (DÖ) yöntemlerinden YOLOv3 sinir ağı kullanılarak İHA'dan alınan görüntüdeki araçların ve yayaların tespitidir. Ve bu çalışmada, İHA'dan alınan video, sinir ağına verilmiş ve videodaki araçların ve yayaların tespiti sağlanmıştır. İHA olarak da DJI Mavic 2 Zoom Drone kullanılmıştır. Veri seti olarak VIRAT [50] video veri setinden alınan 500 görüntü eğitim için, Mavic 2 Zoom videolarından alınan 377 görüntü ise yeniden eğitim için kullanılmıştır. Ağ, 500 görüntü ile eğitilmiş, ortalama loss değeri 2.345 ve mAP değeri %79 olacak şekilde bir başarım elde edilmiştir. 377 görüntü ile ağ yeniden eğitilmiş, loss değeri 1'e yaklaşmıştır, bununla beraber mAP değeri önceki değere kıyasla %70.9 a düşmüştür. Eğitim ve test süreci Google Colab Tesla T4 GPU makinesinde gerçekleştirilmiştir. Modelin performansı Loss grafiği ve mAP grafiği ile değerlendirilmiştir. Today, Unmanned Aerial Vehicles (UAV) have a wide range of uses such as border security, coast guard, defense, attack, reconnaissance, search and rescue, aerial photography, logistics, agricultural spraying, fire extinguishing. However the autonomous decision and action mechanism is a very important detail that should be emphasized, in order to avoid any intolerable delay that may occur during communication with the command center due to distance or other reasons. It is especially critical in situations such as border security, coast guard, defense, attack, fire extinguishing. The ability of UAVs to perform some tasks autonomously is can be possible by integrating the Computer Vision field with UAVs. Aerial object detection applications, which are one of the computer vision field applications, contain several errors such as not being able to detect objects of different sizes, slow detection, wrong estimation, depending on the concepts of distance and proximity. These errors are minimized by the YOLO algorithm, which learns objects of different sizes with using "Anchor Boxes" and delete bounding boxes other than the bounding box that with the maximum confidence score with using the "Non-Maximum Suppression" technique. The scope of the study is the detection of vehicles and pedestrians in the image taken from the UAV using the YOLOv3 neural network, one of the Deep Learning (DL) methods. And in this study, the video taken from the UAV was given to the neural network and the vehicles and pedestrians in the video were detected. DJI Mavic 2 Zoom Drone was used as the UAV. As dataset, 500 images taken from VIRAT [50] video datasets were used for training, and 377 images taken from the Mavic 2 Zoom videos were used for retraining the average loss value was 2,345 and the mAP value was 79%. The network was retrained with 377 images, the loss value approached 1, however, the mAP value decreased to 70.9% compared to the previous value. The training and testing process was carried out on the Google Colab Tesla T4 GPU machine. The performance of the model was also evaluated with the loss graph and mAP graph.