İnsansız hava aracından çekilen videolar kullanılarak derin öğrenme yaklaşımı ile nesne tespiti
Citation
Usta, A. ve Arserim, M. A. (2023). İnsansız hava aracından çekilen videolar kullanılarak derin öğrenme yaklaşımı ile nesne tespiti. Dicle Üniversitesi Mühendislik Fakültesi Mühendislik Dergisi, 14(1), 9-15.Abstract
Günümüzde, İnsansız Hava Araçları(İHA) sınır güvenliği, sahil güvenliği, savunma, saldırı başta olmak
üzere arama kurtarma, zirai ilaçlama, yangın söndürme gibi geniş bir kullanım alanına sahiptir. Bununla
beraber İHA’nın bazı görevleri otonom bir şekilde yerine getirebilmesi ise bilgisayarlı görü sisteminin
buna entegresi ile olur. Bu alandaki uygulamalardan biri olan havadan nesne tespiti uygulamaları, uzaklık,
yakınlık kavramlarına bağlı olarak farklı boyutlardaki nesneleri tespit edememe, yavaş tespit, yanlış
tahminleme gibi çeşitli hatalar içerebilir. Derin Öğrenme(DÖ) uygulamaları ile bu hatalar en aza
indirilebilir. Bu çalışmada VRAT[1] video setinden alınan görüntülerle YOLOv3 DÖ ağı eğitilmiş ve daha
sonra DJI Mavic 2 Zoom İHA kamerasından elde edilen görüntülerle tekrar eğitim yapılarak videodaki
araçların ve yayaların tespiti sağlanmıştır. Eğitim ve test süreci Google Colab Tesla T4 GPU makinesinde
gerçekleştirilmiştir. Modelin performansı ilk ve ikinci eğitim için Loss, mAP 2.345, %79 ve 1.171, %70.09
olarak bulunmuştur. Today, Unmanned Aerial Vehicles (UAV) have a wide range of uses such as border security, coast guard,
defense, attack, search and rescue, agricultural spraying, fire extinguishing. However, the ability of the
UAV to perform some tasks autonomously is possible with the integration of the computer vision system.
Aerial object detection applications, which is one of the applications in this field, may contain various
errors such as not being able to detect objects of different sizes, slow detection, wrong estimation,
depending on the concepts of distance and proximity. These errors can be minimized with Deep Learning
(DL) applications. In this study, the YOLOv3 DL network was trained with the images taken from the
VRAT[1] video set, and retrained with the images obtained from the DJI Mavic 2 Zoom UAV camera to
detect the vehicles and pedestrians in the video. The training and testing process was carried out on the
Google Colab Tesla T4 GPU machine. The performance of the model for the first and second training was
found as 2.345, 79% and 1.171, 70.09% for loss, and mAPvalues.