交通

卓视智通的交通AI实践

3月5日，在第十五届（2026）智能交通市场年会主论坛2026年智能交通市场经济管理论坛（暨智能交通产业领袖论坛）上，北京卓视智通科技有限责任公司董事长&CEO吴柯维现场发表《多模态AI重塑交通数智化新时代》主题演讲，深度剖析多模态AI对交通数字化转型的重塑价值。

吴柯维分享了卓视智通基于多模态AI能力赋能打造产品体系，打通交通感知全天候、全要素、全态势的全维度场景，解锁端边云全链路赋能交通数智化的全新路径，并结合卓视智通在交通感知、智慧停车、高速运营等领域的实战案例，对技术内核、场景应用与落地实践进行全方位拆解。

1. 当下AI趋势

过去一年，AI领域涌现出诸多重大突破，多模态能力实现大幅提升。春晚的舞台更是让豆包实现了广泛普及，达到了老少皆宜、人人会用的程度；同样登上春晚的具身人形机器人也取得快速发展；视频生成领域的Seedance近期热度极高，AI智能体也凭借“小龙虾”相关应用的爆红，让大众切实感受到了其发展潜力。

“AI一天，人间一年”，这句话或许略显夸张，但对于交通产业而言，用“AI一天，交通行业忙一年”来形容却十分贴切。AI已从曾经科学家的专属领域，走入大众生活，实现了真正的科技平权，不仅人人都能使用豆包这类工具，各类AI工具也让所有企业都有机会参与其中，彻底改变了人类获取信息的方式。

我认为2026年AI领域有两个绕不开的关键词，一是多模态，二是智能体。OpenClaw的爆火也带来了重要启示，它可作为数字助理，调取电脑中的各类文件、执行相关程序，而智能交通系统本身就是一个包含众多坐席的复杂系统。未来，交通行业的所有应用软件，都应预留接口给智能体，让智能体能够直接执行操作、调取相关内容。

多模态AI将为行业带来巨大变革，2024年赛文交通网曾有文章探讨“交通大模型什么时候能走出对话框”，而如今多模态处理能力的提升，已然能让AI真正走出对话框。行业内普遍将其称作“多模态大模型”，而我更愿意称其为“多模态AI”，因为“模态（model）”有着多重含义：

第一重含义是输入类型的多元化，从最初的文本，到图片，如今已拓展至视频、声音、激光点云、雷达回波，甚至重力加速度、触觉、力反馈等，各类数据都能通过多模态技术进行处理。

第二重含义是部署方式的多样化，以往豆包这类大模型多为云端部署，而交通行业更倾向于私有化、本地化部署，今年我们也看到了大量边缘部署的大模型，不少国产大模型企业推出的边缘计算芯片，兼具小模型与大模型的推理能力，为行业发展提供了优质解决方案。

此外，多模态还体现在应用场景的多元化上。卓视智通深耕视频检测领域多年，以往的数据源多来自固定摄像头，后续也逐步延伸至球机、云台。而到了今年，无人机机载摄像头、移动车载摄像头，甚至卫星星载摄像头所采集的数据，都能成为识别与处理的数据源。

从参数规格来看，以往的AI模型有大、小之分，如今空间智能大模型以及3D高斯、4D高斯技术，在交通行业的应用场景也不断增多，而世界模型更是成为了自动驾驶行业的标配。

2. AI与交通的契合之处

我常常思考AI与交通行业的关联，发现国内做大模型的企业和高速公路业主单位有着相似性，二者均有着数百亿级的投入，且都能让相关主体在其搭建的体系中运行。AI的本质是对信息与数据的加工，是Byte与Token的重组；而交通的本质是人与物的移动，是原子级别的搬运。

细究来看，当下热议的一人公司、0人公司模式，在交通行业中其实早有体现，一名货车司机便能独立完成一套商业运作流程。而快递和物流公司的运作逻辑，与AI行业的智能体更是高度相似，从中能找到诸多可对照的契合点。

关于数智化，交通部对相关表述的调整，让其与信息化形成了本质区别。信息化的核心是获取信息，比如摄像头所采集的内容，主要是供人查看分析；而数智化所产生的信息，更多是为机器决策提供支撑。过去二十年，行业发展更侧重信息化，而未来的发展方向，是让机器自主完成决策。

在我看来，交通数字化发展存在两大核心痛点，可总结为“感知不准”与“感受不强”八个字。“感知不准”针对的是甲方与业主单位，核心是感知数据的准确性不足，这一点也被多位专家提及；“感受不强”则针对出行者与私家用户，指大众未能切实感受到交通数字化建设的成效。

交通部近期提出的“手机+”理念，正是为了解决“感受不强”的问题，让民众能切实体会到交通数字化投入带来的改变。而多模态AI的发展，势必会重塑整个交通数字化时代，从企业内部数字化、公路数字化、交管数字化，到车路云一体化、“手机+”、智慧停车等各个领域，都将因此迎来诸多变革。

3. 多模态AI赋能交通感知

目前行业内已基本形成共识，大模型与小模型相结合的方式，是兼顾检测效果与成本的最优解。

卓视智通深耕视频检测领域十几年，近年来通过融入大模型技术，检测准确率实现了大幅提升，针对交通事故、道路抛洒物等诸多长尾场景的识别精度，也有了显著提高。目前，系统可精准识别交通事故、山体滑坡、道路积水等20多种交通事件，以及10余种交通流量数据。

系统能对检测目标进行3D检测，实现道路标志标线的自动分割与道路实况的实时分析；还可识别超100种维度特征，这对“手机+”体系中车辆身份的辨识有着重要作用，同时能支持38种以上交通违法取证行为。在众多实测项目中，卓视智通的检测准确率已超99%，剩余1%的提升空间，未来希望联合更多行业客户共同解决，通过补充更多数据来持续优化大模型性能。

其次，借助多模态技术，交通感知正真正迈入全天候、全要素、全态势的发展阶段。过去的交通视频检测技术，在夜间的检测效果往往不佳，这与摄像头的夜间图像质量相关，海康、大华、高信等企业也都在这一领域持续发力。

对此，卓视智通另辟蹊径，将可见光、热成像与毫米波雷达技术相融合，研发出一款全新检测设备，实现了白天与夜间的全天候精准检测。白天时，可见光摄像头能呈现极佳的检测效果；到了夜间，热成像技术能提供比可见光更清晰的检测画面，同时结合毫米波雷达的远距离检测能力，通过三种数据的融合感知，实现了远超单一技术的检测效果。

多模态AI同样能赋能车载端的交通感知，以往车载端多是加装摄像头，受预算影响也多应用于小场景、小产品。

卓视智通此前研发了一款搭载在铁骑上的云缉移动执法抓拍设备，可实现实时识别与应用，目前已在全国20多个城市大规模落地。当下无人车发展迅速，全国已有一百多个城市为其开放路权，卓视智通与新石器展开合作，将检测设备搭载在无人车上，打造出移动抓拍无人车，不仅能让交警免于骑行巡检，也为路侧停车管理提供了全新解决方案。

同时，多模态AI还能推动交通感知向低空延伸，助力低空经济产业落地。

卓视智通曾在广西融福高速的建设过程中，部署了10台无人机，每台覆盖约10公里范围，通过无人机的实时巡检，结合自动感知、AR叠加、道路检测等技术，将高速建设进度、安全隐患等情况实时反馈给建设方，让建设者能精准掌握工程状态。

无人机也能赋能高速公路的运营监测，山东高速、河北交投等企业均已大量部署，卓视智通则为无人机提供算法支持，助力其精准识别道路抛洒物、拥堵、异常停车等情况。

无人机在高速公路应急处置中更是最优解，卓视智通此前还研发过隧道机器人用于隧道场景应急处置，而在高速场景中，一旦发生交通事件，系统可自动联动无人机开展现场驱离、语音喊话等操作，这一方案也已在国内某高速公路实现实际应用，卓视智通为该项目提供了全套软硬件支持。

4. 多模态AI落地交通数智化

此前更多围绕感知层面展开介绍，而交通数字化的第一性原理，始终是为出行者服务，要从出行者的视角思考问题，注重提升出行体验，这也是行业内的共识。

首先从甲方与业主单位的体验出发，多模态AI能让交通行业软件的交互体验变得如豆包一般简单。过去行业内开发的诸多软件，动辄拥有数百个功能，但实际常用的仅有10个左右，其余功能形同虚设，而大模型技术能有效改变这一现状。

去年“智通卓识”大模型2.0版本发布，可实现交通事件二次审核、路况态势全域感知以及智能问数、报表自动生成等功能，今年其升级至3.0版本，融合大模型数字人、语音识别处理等技术，打造出一套私有化部署的智能交互系统，真正实现将类豆包的优质体验落地到交通行业（我们要知道的是，豆包虽体验优异，但作为互联网服务暂不支持私有化部署，字节跳动短期内也暂无相关部署计划）。

多模态AI还能赋能交通枢纽与智慧停车领域，卓视智通有多个落地案例可以参考。

在智慧服务区方面，通过摄像头与车辆3D目标检测技术，实现车辆停靠与车位状态的精准检测，该方案成本低廉，还能识别充电区域车辆、自动检测危化品车辆，目前已在全国数百个服务区成功应用。

在室内停车场领域，卓视智通将隧道机器人应用于巡检工作，南京南站P5停车场便已落地该方案。同时，子公司南京交控积图为南京南站搭建了全套网约车管控引导系统，用户可通过手机实时查询网约车位置，体验效果良好，这一方案也是向杭州东站学习打造的。

车辆身份识别是行业关注的关键问题，不少客户都提出过能否实现100%识别的需求。我认为结合多种技术手段，这一目标有望进一步接近，除车牌外，车辆的车脸、车型、三维结构等微特征，乃至非机动车的相关特征，都能成为识别依据。借助多模态大模型，车辆身份识别的精度能再上一个台阶，进而赋能高速公路高精度识别及当下热门的“手机+”业务。

在该领域，卓视智通推出了多项核心技术：高精度车牌识别技术，全天候识别精度可达99%以上；车型和轴型识别产品，目前已在国内超一万个车道落地应用，全天候车型识别精度能达到99.5%以上。同时支持多维特征识别，对于无法直接识别的车辆，会为其构建虚拟号牌，通过多维特征实现车辆标识，以此对那难以识别的1%车辆进行特征比对，这部分车辆的实际数量其实极少。