Přejít k hlavnímu obsahu

Přihlášení pro studenty

Přihlášení pro zaměstnance

Publikace detail

Estimation of atmospheric visibility by deep learning model using multimodal dataset
Autoři: Kopecká Jitka | Kopecký Dušan | Štursa Dominik | Rácová Zuzana | Krejčí Tomáš | Doležel Petr
Rok: 2025
Druh publikace: článek v odborném periodiku
Název zdroje: Knowledge-Based Systems
Strana od-do: 1-14
Tituly:
Jazyk Název Abstrakt Klíčová slova
cze Odhad atmosférické viditelnosti pomocí multimodálního datasetu a hlubokého učení Přesný odhad atmosférické dohlednosti je klíčový pro řadu bezpečnostně kritických aplikací, zejména v oblasti dopravy. V této studii je zkoumán přístup založený na hlubokém učení s využitím multimodální vstupní reprezentace, která kombinuje RGB snímky z pevně umístěné monitorovací kamery s tabulkovými meteorologickými proměnnými získanými z blízké meteorologické stanice. Meteorologický vstup zahrnuje teplotu, absolutní tlak, relativní vlhkost, rosný bod, teplotu vlhkého teploměru, průměrnou a maximální rychlost větru, množství srážek, sluneční záření a ultrafialový index. Bylo vyvinuto a porovnáno šest neuronových modelů pro odhad dohlednosti: multimodální model využívající obrazový i tabulkový meteorologický vstup; dva ablační modely používající pouze unimodální vstup (obraz nebo meteorologická data); model založený na oblastech zájmu (ROIs), který extrahuje příznaky z předem definovaných podoblastí obrazu; a dva ablační modely, které používají pouze redukovaný počet meteorologických proměnných. Multimodální model používá EfficientNetV2M pro extrakci příznaků a sadu plně propojených neuronových sítí pro integraci obou modalit. Model založený na ROIs rovněž využívá EfficientNetV2M, avšak pouze nad ručně zvolenými referenčními oblastmi scény. Vyhodnocení bylo provedeno na datasetu 1 000 anotovaných snímků, přičemž dohlednost byla stanovena manuálně na základě referenčních bodů ve scéně. Multimodální model dosáhl střední kvadratické chyby 129 716 m², střední absolutní chyby 165,4 m a koeficientu determinace R² = 0,8861, přičemž 84,46 % predikcí spadalo do 10% relativní chyby. Ačkoliv model založený na ROIs v některých regresních metrikách multimodální model mírně překonal, jeho přesnost v rámci tolerančních prahů byla nižší a závislost na ruční anotaci scény omezuje škálovatelnost. Oproti tomu ablační modely prokázaly ve většině hodnocených kritérií jednoznačně horší výkon. Výsledky ukazují, že navržená multimodální vstupní strategie představuje vyvážený a pr Viditelnost; neuronová síť; multimodální dataset; meteorologické veličiny; hluboké učení
eng Estimation of atmospheric visibility by deep learning model using multimodal dataset Accurate estimation of atmospheric visibility is essential for numerous safety-critical applications, particularly in the field of transportation. In this study, a deep learning-based approach is investigated using a multimodal input representation that combines RGB images from a fixed-position surveillance camera with tabular meteorological variables collected from a nearby meteorological station. The meteorological input includes temperature, absolute pressure, relative humidity, dew point, wet bulb temperature, average and maximum wind speed, amount of precipitation, solar radiation, and ultraviolet index. Six neural network models for visibility estimation were developed and compared: a multimodal model utilizing both image and tabular meteorological inputs; two ablation models that use only unimodal input (image or meteorological data); a regions-of-interest (ROIs)-based model that extracts features from predefined image subregions; and two ablation models that use only a reduced number of meteorological variables. The multimodal model uses EfficientNetV2M for feature extraction and a set of fully connected neural networks to integrate the two modalities. The ROIs-based model also uses EfficientNetV2M, but only on manually selected reference regions of the scene. Evaluation was performed on a dataset of 1,000 annotated images, with visibility manually determined based on reference points in the scene. The multimodal model achieved a mean squared error of 129,716 m², a mean absolute error of 165.4 m, and an R² score of 0.8861, with 84.46% of predictions falling within a 10% relative error margin. Although the ROIs-based model slightly outperformed the multimodal model in some regression metrics, its accuracy within tolerance thresholds was lower, and its reliance on manual scene annotation limits scalability. In contrast, the ablation models demonstrated lower performance in almost all evaluated criteria. The results show that the proposed multimodal in Atmospheric visibility; Neural network; Multimodal dataset; Meteorological variables; Deep learning