Короткий опис(реферат):
Запропоновано багаторівневу систему виявлення мін за допомогою безпілотного
літального апарата (БПЛА) зі швидкою детекцією YOLOv8n на наземній станції та хмарній семантичній верифікації ChatGPT-4o Vision із проміжною впевненістю. Відео 1080p з Raspberry Pi синхронізується з телеметрією Pixhawk 6C й геоприв‟язується, після чого контейнеризація та повне логування гарантують відтворювання. Запропонована схема прийняття рішень дозволяє зберігати високу повноту на етапі YOLOv8 і скорочувати хибні спрацьовування завдяки семантичній перевірці проблемних ділянок зображення в хмарі без істотного впливу на середню затримку та смугу каналу.
Develop and validate a multilevel edge→ground→cloud decision pipeline for UAV-
based detection of small anti-personnel mines (PFM-1), combining a fast visual detector with on-demand semantic verification. The objective is to maximize recall at a controlled false-alarm rate while preserving low latency, narrow bandwidth, and full temporal/geospatial traceability for audit and reproducibili-ty. Methodology. The edge (Raspberry Pi) records 1080 p video time-aligned with Pixhawk 6C telemetry and forwards segments reliably (store-and-forward). The ground station runs Ultralytics YOLOv8n with frame-level inference, temporal aggregation of con-fidences (sY), and WGS-84 georeferencing. Events with intermediate confidence are escalated to the
cloud, where a vision-language model (ChatGPT-4o Vision) returns a semantic score sC under a con-strained YES/NO prompt. Final decisions use cali-brated fusion Pfinal=λYsY+λCsC with thresholding (generalizing AND/OR and k-of-n rules). All modules are containerized; timestamps, model versions, thre-sholds, and checksums are logged, with a unified GPS/NTP time axis. Field trials at ≈2–3 m altitude over heterogeneous backgrounds with PFM-1 mock-ups yielded Precision 0.957, Recall 1.000, mAP@0.5 0.981, mAP@0.5:0.95 0.688 at ≈36 FPS on a field laptop. Selective escalation of ROI crops reduced false positives with negligible added latency and
bandwidth. Originality. We provide the first reproducible end-to-end architecture that links detector confidence to a semantic VLM signal via an explicit escalation rule and probabilistic calibration (Platt/temperature scaling), under an auditable data plane. The design formalizes timing and bandwidth budgets, remains resilient to link loss, and unifies temporal alignment, georeferencing, and provenance via containerized modules and machine-readable logs. Practical value. The system enables near-real-
time post-flight analysis on commodity hardware, preserves high recall while suppressing clutter-driven false alarms, and reduces operator workload. By transmitting only ROI crops, it lowers communi-cation energy demands and eases deployment in
bandwidth-constrained field settings. The methodology supports governance and evidence through verifiable logs and is readily extensible to multi-class detection and to fusion with a metal detector within the same probabilistic framework, facilitating technology transfer to humanitarian demining workflows.
Суть розробки, основні результати:
Роботько С. П., Луцак Д. Л. Багаторівневий підхід виявлення та розпізнавання небезпечних предметів за допомогою БПЛА із застосуванням комп’ютерного зору = Multilevel approach to uav-based detection of anti-personnel mines using computer vision // Вісник Харківського національного автомобільно-дорожнього університету: зб. наук. праць. Серія: Комп’ютерні науки та інформаційні технології, 2025. № 111. С. 203-210.