
3月5日,在第十五届(2026)智能交通市场年会主论坛2026年智能交通市场经济管理论坛(暨智能交通产业领袖论坛)上,北京卓视智通科技有限责任公司董事长&CEO吴柯维现场发表《多模态AI重塑交通数智化新时代》主题演讲,深度剖析多模态AI对交通数字化转型的重塑价值。
吴柯维分享了卓视智通基于多模态AI能力赋能打造产品体系,打通交通感知全天候、全要素、全态势的全维度场景,解锁端边云全链路赋能交通数智化的全新路径,并结合卓视智通在交通感知、智慧停车、高速运营等领域的实战案例,对技术内核、场景应用与落地实践进行全方位拆解。
1. 当下AI趋势
过去一年,AI领域涌现出诸多重大突破,多模态能力实现大幅提升。春晚的舞台更是让豆包实现了广泛普及,达到了老少皆宜、人人会用的程度;同样登上春晚的具身人形机器人也取得快速发展;视频生成领域的Seedance近期热度极高,AI智能体也凭借“小龙虾”相关应用的爆红,让大众切实感受到了其发展潜力。
“AI一天,人间一年”,这句话或许略显夸张,但对于交通产业而言,用“AI一天,交通行业忙一年”来形容却十分贴切。AI已从曾经科学家的专属领域,走入大众生活,实现了真正的科技平权,不仅人人都能使用豆包这类工具,各类AI工具也让所有企业都有机会参与其中,彻底改变了人类获取信息的方式。
我认为2026年AI领域有两个绕不开的关键词,一是多模态,二是智能体。OpenClaw的爆火也带来了重要启示,它可作为数字助理,调取电脑中的各类文件、执行相关程序,而智能交通系统本身就是一个包含众多坐席的复杂系统。未来,交通行业的所有应用软件,都应预留接口给智能体,让智能体能够直接执行操作、调取相关内容。
多模态AI将为行业带来巨大变革,2024年赛文交通网曾有文章探讨“交通大模型什么时候能走出对话框”,而如今多模态处理能力的提升,已然能让AI真正走出对话框。行业内普遍将其称作“多模态大模型”,而我更愿意称其为“多模态AI”,因为“模态(model)”有着多重含义:
第一重含义是输入类型的多元化,从最初的文本,到图片,如今已拓展至视频、声音、激光点云、雷达回波,甚至重力加速度、触觉、力反馈等,各类数据都能通过多模态技术进行处理。
第二重含义是部署方式的多样化,以往豆包这类大模型多为云端部署,而交通行业更倾向于私有化、本地化部署,今年我们也看到了大量边缘部署的大模型,不少国产大模型企业推出的边缘计算芯片,兼具小模型与大模型的推理能力,为行业发展提供了优质解决方案。
此外,多模态还体现在应用场景的多元化上。卓视智通深耕视频检测领域多年,以往的数据源多来自固定摄像头,后续也逐步延伸至球机、云台。而到了今年,无人机机载摄像头、移动车载摄像头,甚至卫星星载摄像头所采集的数据,都能成为识别与处理的数据源。
从参数规格来看,以往的AI模型有大、小之分,如今空间智能大模型以及3D高斯、4D高斯技术,在交通行业的应用场景也不断增多,而世界模型更是成为了自动驾驶行业的标配。
2. AI与交通的契合之处
我常常思考AI与交通行业的关联,发现国内做大模型的企业和高速公路业主单位有着相似性,二者均有着数百亿级的投入,且都能让相关主体在其搭建的体系中运行。AI的本质是对信息与数据的加工,是Byte与Token的重组;而交通的本质是人与物的移动,是原子级别的搬运。
细究来看,当下热议的一人公司、0人公司模式,在交通行业中其实早有体现,一名货车司机便能独立完成一套商业运作流程。而快递和物流公司的运作逻辑,与AI行业的智能体更是高度相似,从中能找到诸多可对照的契合点。
关于数智化,交通部对相关表述的调整,让其与信息化形成了本质区别。信息化的核心是获取信息,比如摄像头所采集的内容,主要是供人查看分析;而数智化所产生的信息,更多是为机器决策提供支撑。过去二十年,行业发展更侧重信息化,而未来的发展方向,是让机器自主完成决策。

在我看来,交通数字化发展存在两大核心痛点,可总结为“感知不准”与“感受不强”八个字。“感知不准”针对的是甲方与业主单位,核心是感知数据的准确性不足,这一点也被多位专家提及;“感受不强”则针对出行者与私家用户,指大众未能切实感受到交通数字化建设的成效。
交通部近期提出的“手机+”理念,正是为了解决“感受不强”的问题,让民众能切实体会到交通数字化投入带来的改变。而多模态AI的发展,势必会重塑整个交通数字化时代,从企业内部数字化、公路数字化、交管数字化,到车路云一体化、“手机+”、智慧停车等各个领域,都将因此迎来诸多变革。
3. 多模态AI赋能交通感知
目前行业内已基本形成共识,大模型与小模型相结合的方式,是兼顾检测效果与成本的最优解。
卓视智通深耕视频检测领域十几年,近年来通过融入大模型技术,检测准确率实现了大幅提升,针对交通事故、道路抛洒物等诸多长尾场景的识别精度,也有了显著提高。目前,系统可精准识别交通事故、山体滑坡、道路积水等20多种交通事件,以及10余种交通流量数据。
系统能对检测目标进行3D检测,实现道路标志标线的自动分割与道路实况的实时分析;还可识别超100种维度特征,这对“手机+”体系中车辆身份的辨识有着重要作用,同时能支持38种以上交通违法取证行为。在众多实测项目中,卓视智通的检测准确率已超99%,剩余1%的提升空间,未来希望联合更多行业客户共同解决,通过补充更多数据来持续优化大模型性能。
其次,借助多模态技术,交通感知正真正迈入全天候、全要素、全态势的发展阶段。过去的交通视频检测技术,在夜间的检测效果往往不佳,这与摄像头的夜间图像质量相关,海康、大华、高信等企业也都在这一领域持续发力。
对此,卓视智通另辟蹊径,将可见光、热成像与毫米波雷达技术相融合,研发出一款全新检测设备,实现了白天与夜间的全天候精准检测。白天时,可见光摄像头能呈现极佳的检测效果;到了夜间,热成像技术能提供比可见光更清晰的检测画面,同时结合毫米波雷达的远距离检测能力,通过三种数据的融合感知,实现了远超单一技术的检测效果。
多模态AI同样能赋能车载端的交通感知,以往车载端多是加装摄像头,受预算影响也多应用于小场景、小产品。
卓视智通此前研发了一款搭载在铁骑上的云缉移动执法抓拍设备,可实现实时识别与应用,目前已在全国20多个城市大规模落地。当下无人车发展迅速,全国已有一百多个城市为其开放路权,卓视智通与新石器展开合作,将检测设备搭载在无人车上,打造出移动抓拍无人车,不仅能让交警免于骑行巡检,也为路侧停车管理提供了全新解决方案。
同时,多模态AI还能推动交通感知向低空延伸,助力低空经济产业落地。
卓视智通曾在广西融福高速的建设过程中,部署了10台无人机,每台覆盖约10公里范围,通过无人机的实时巡检,结合自动感知、AR叠加、道路检测等技术,将高速建设进度、安全隐患等情况实时反馈给建设方,让建设者能精准掌握工程状态。
无人机也能赋能高速公路的运营监测,山东高速、河北交投等企业均已大量部署,卓视智通则为无人机提供算法支持,助力其精准识别道路抛洒物、拥堵、异常停车等情况。
无人机在高速公路应急处置中更是最优解,卓视智通此前还研发过隧道机器人用于隧道场景应急处置,而在高速场景中,一旦发生交通事件,系统可自动联动无人机开展现场驱离、语音喊话等操作,这一方案也已在国内某高速公路实现实际应用,卓视智通为该项目提供了全套软硬件支持。
4. 多模态AI落地交通数智化
此前更多围绕感知层面展开介绍,而交通数字化的第一性原理,始终是为出行者服务,要从出行者的视角思考问题,注重提升出行体验,这也是行业内的共识。
首先从甲方与业主单位的体验出发,多模态AI能让交通行业软件的交互体验变得如豆包一般简单。过去行业内开发的诸多软件,动辄拥有数百个功能,但实际常用的仅有10个左右,其余功能形同虚设,而大模型技术能有效改变这一现状。
去年“智通卓识”大模型2.0版本发布,可实现交通事件二次审核、路况态势全域感知以及智能问数、报表自动生成等功能,今年其升级至3.0版本,融合大模型数字人、语音识别处理等技术,打造出一套私有化部署的智能交互系统,真正实现将类豆包的优质体验落地到交通行业(我们要知道的是,豆包虽体验优异,但作为互联网服务暂不支持私有化部署,字节跳动短期内也暂无相关部署计划)。
多模态AI还能赋能交通枢纽与智慧停车领域,卓视智通有多个落地案例可以参考。
在智慧服务区方面,通过摄像头与车辆3D目标检测技术,实现车辆停靠与车位状态的精准检测,该方案成本低廉,还能识别充电区域车辆、自动检测危化品车辆,目前已在全国数百个服务区成功应用。
在室内停车场领域,卓视智通将隧道机器人应用于巡检工作,南京南站P5停车场便已落地该方案。同时,子公司南京交控积图为南京南站搭建了全套网约车管控引导系统,用户可通过手机实时查询网约车位置,体验效果良好,这一方案也是向杭州东站学习打造的。
车辆身份识别是行业关注的关键问题,不少客户都提出过能否实现100%识别的需求。我认为结合多种技术手段,这一目标有望进一步接近,除车牌外,车辆的车脸、车型、三维结构等微特征,乃至非机动车的相关特征,都能成为识别依据。借助多模态大模型,车辆身份识别的精度能再上一个台阶,进而赋能高速公路高精度识别及当下热门的“手机+”业务。
在该领域,卓视智通推出了多项核心技术:高精度车牌识别技术,全天候识别精度可达99%以上;车型和轴型识别产品,目前已在国内超一万个车道落地应用,全天候车型识别精度能达到99.5%以上。同时支持多维特征识别,对于无法直接识别的车辆,会为其构建虚拟号牌,通过多维特征实现车辆标识,以此对那难以识别的1%车辆进行特征比对,这部分车辆的实际数量其实极少。
卓视智通还为众多客户搭建了以图搜图引擎,提供配套工具支持,也参与了多个孪生收费站项目,为收费站构建数字孪生系统,将车道及车辆的还原精度提升至95%以上。
通过多种技术手段,卓视智通实现了对“手机+”业务的全面赋能。其实早在2015年,卓视智通就搭建了整套“车牌付”系统,只是当时国家大力推广ETC,该系统未能大规模落地,而如今行业发展时机再次到来,也为视频识别企业带来了新的发展机遇。
卓视智通为高速公路提供全场景赋能,实现全态势、全要素感知,围绕公路数字化转型的十大任务,打造了丰富的产品体系,还构建了人工智能+交通的全场景图谱。从图谱中能清晰看到,在收费站、隧道、干线公路、城市交通、路口以及交管大数据平台等场景,均能提供全场景解决方案。
针对交管领域资金相对有限的特点,卓视智通制定了专属发展思路:首先在中心端实现AI+升级,将大模型能力嫁接至云瞳大数据平台,进一步提升原有平台的使用体验;其次通过边缘终端充分利旧,借助自研硬件盒子对接摄像头,将单路摄像头的硬件成本降至300元左右。
在路口场景,通过阿瞳目多光谱雷视一体机,实现不同环境下的全域感知;在路上,卓视智通为无人机赋能各类算法,实现无人机自动全过程抓拍;在路侧,打造了太阳能哨兵设备“交安哨卫”,该产品为自主研发生产,年出货量达数千套,可有效识别城郊结合部等交通安全隐患高发场景的各类问题。
同时,卓视智通也为警务终端进行大模型赋能,开发了智能头盔产品,近期还与智能眼镜企业展开合作,计划研发面向交警的智能眼镜;在车载端,卓视智通的云缉产品能为交警工作降本增效。

微信咨询