中国西安科大等团队提出轻量级AI感知模型,推动露天矿无人驾驶跨越复杂环境识别门槛
2026-05-06 15:27
来源:西安科技大学人工智能与计算机学院、中国科学院自动化研究所、中科慧拓(北京)科技有限公司
收藏

当重达百吨的无人矿卡在露天矿坑中高速穿梭时,它需要与行驶中其他车辆、检修人员和散落石块等数十类目标精准保持安全距离。然而露天矿采场并非常规公路——低照度、高粉尘、全天候作业和采掘区多尺度目标带来的复杂多变视觉干扰,正在成为制约无人矿卡规模化安全应用的最大“感知障碍”。

针对这一行业痛点,近日,西安科技大学联合中国科学院自动化研究所、中科慧拓(北京)科技有限公司,在国际知名期刊《工矿自动化》发表重要研究成果。研究团队提出的“轻量级多尺度目标检测模型——改进YOLOv11n模型”,通过一系列算法创新,有效提升了露天矿无人驾驶矿卡在极端工况下的感知准确率和边缘端部署效率。

极端工况,传统模型的“感知困境”

露天矿山采掘现场是一个典型的“视觉挑战”环境:采坑深处光照不足,白天扬尘漫天似沙尘暴,同时矿车需要在数百米行驶范围内识别从近处的石砾、坑道到远处的车辆、人员等多尺度目标。传统的目标检测模型要么在庞大参数量下具备高精度却难以在车载边缘设备上运行,要么经过轻量化压缩后,在同时出现的多尺度目标中频繁漏检。这一核心问题始终是矿山行业内实现从“单点自动驾驶”迈向“数万公里安全运行”的关键制约。

突破桎梏,四大核心模块点亮矿卡“智慧双眼”

为破解低照度、高粉尘干扰以及多尺度目标同时识别带来的准确率下降和参数规模爆炸两大难题,研究团队在标准YOLOv11n网络结构中植入四大创新模块,实现了精度与部署效率的全新平衡。

1. 混合Token(MToken)模块:破解多尺度特征提取障碍

研究团队在主干网络浅层的C3k2模块中引入MToken技术,通过并行多空洞率分支卷积,实现了对不同尺寸目标的精细特征提取能力。面对远处微小的车辆与近处巨大的采掘设备共存时,MToken模块能够同时对大小跨度的多个物体进行更均衡的视觉表征。

2. 多查找表(MuLUT)模块:提升深层语义判别能力

在更深层的C3k2模块中,团队创新性地引入多查找表结构,对多尺度目标进行高级语义建模与判别,进一步强化了对大坡度、遮挡、部分重叠等复杂运行工况中潜在危险目标的识别置信度。

3. 亮度增强自注意力(ILSA)模块:赋予模型“夜视”能力

面对采坑深处典型低照度和非均匀照明场景,研究团队设计了专用的ILSA模块,直接在特征图内部进行全局上下文编码与局部非线性增强,大幅提升了模型在复杂暗光条件下的特征表达质量,让矿卡不再受限于采场昏暗角落的“视野盲区”。

4. E-PST金字塔稀疏变换器:兼顾高效融合与轻量化

在模型颈部特征金字塔结构中,团队提出了增强型金字塔稀疏变换器(E-PST),利用自适应Top‑k选择策略和跨尺度特征增强技术,在对多尺度目标进行高效特征融合的同时,显著降低了计算冗余,保证了模型在车载芯片等端侧设备上的流畅运行。

数据亮出真实力:精度与效率双突破

为了验证模型性能,该团队构建了以Automine数据集为主的露天矿无人驾驶评估基准,将改进模型与传统的SSD、Faster R‑CNN,以及行业现役的主流YOLOv11n、YOLOv12n和YOLOv13n等进行了严苛的对比测试。

精度大幅提升:相较于基准YOLOv11n模型,新模型的mAP@0.5提升3.7%,mAP@0.5-0.95提升5.6%,实现了在轻量化结构下的精度跨越。

模型显著瘦身:模型参数量、计算量、模型大小分别降低26.7%、30.2%和21.8%,参数量降至常规检测模型的三分之二以内。

边缘高效部署:将改进模型部署于Jeston AGX Xavier边缘端设备进行实测,推理速度稳定达27.6帧/s,模型最终体积仅为2.673 MiB,人员与车辆识别准确且稳定,完全满足矿卡快速、紧凑的感知运算需求。

轻量模型驱动智慧矿山新航向

这项研究的核心价值在于为露天矿无人驾驶的环境感知提供了“轻量、高精度、易部署”的工程化路径。该改进模型具备高识别率、低参数量和低算力消耗的三重优势,尤其适合需要直接部署在矿用车载芯片上的AI决策系统。在全球范围内,露天矿无人驾驶正从技术试点逐步走向规模化商业运行。随着我国矿山行业对高精度、全天候感知需求的爆发,该轻量级多尺度目标检测模型不仅可用于无人矿车的自主感知,还可以推广至矿山自主巡检无人机、现场安全监控等多场景,大幅降低矿山事故发生率并提升采运全链条的运行效率。

本文来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告之,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com