我叫沈砚舟,做制造业数字化项目十多年,近两年被问得最多的就是同一句:我们工厂到底能不能做“制造人工智能”?我的回答通常很直接:能做,但别把它当成“买一套大模型就起飞”。在制造现场,AI更像一套可交付的工程体系——数据要能用、流程要能接、产线要能跑、责任要能落。只要目标选对、边界划清,半年内做出可量化收益的场景并不稀奇;难的是把它做成长期稳定的能力。
我下面按“从0到1能走通”的方式讲:怎么选场景、怎么搭数据与模型、怎么上线与验收,以及最容易踩的坑。你不需要先变成算法专家,但需要用制造的语言把AI做成产品。
很多团队一上来就想“全厂智能化”,结果项目变成PPT马拉松。我在工厂里更愿意用三个问题筛场景:有没有稳定闭环?能不能快速验证?收益能不能被财务或生产认可?
1)质量:缺陷检测与根因追溯视觉质检、尺寸偏差预警、工艺参数与不良的关联分析,往往是最先出成果的。原因很简单:缺陷有标签、返修报废有成本、产线节拍有压力。

- 前段做“拦截”:宁愿先把漏检降下来,再谈误检优化
- 后段做“解释”:把可疑区域、关联批次、关键参数列出来,让工艺和质量能追溯
2)设备:预测性维护与异常诊断设备故障不是“有没有”,而是“什么时候”。振动、电流、温度、润滑等信号叠起来,AI更擅长做异常发现与风险评分。但我会提醒:预测性维护不等于“预测准确率越高越好”,更重要的是维修策略能落地,比如:
- 预警后能否安排停机窗口
- 备件是否提前到位
- 维修工单是否能自动触发并记录结果(不然模型永远学不到闭环)
3)计划与能耗:排产辅助、能耗优化、良率爬坡这类场景经常被低估。很多工厂数据不完美,但排产的约束和规则很清晰,先用规则+优化,再叠加学习型模型,常见收益点是减少换线损失、降低峰值用电、缩短爬坡时间。我更建议从“建议系统”做起:AI给出推荐方案,计划员确认后执行,逐步积累信任,而不是一开始就“全自动排产”。
“制造人工智能”项目失败,十有八九卡在数据上,不是没数据,而是数据不能用:时间对不上、工序对不上、批次对不上、同名变量含义不一致。
我在现场通常先做两件事:把数据“对齐”,把责任“对齐”。
关键动作:一张“生产事件时间轴”别急着谈特征工程,我会先逼着项目组回答:
- 同一件产品(或同一批)从投料到出站,有没有唯一标识?
- 每道工序的开始/结束时间能不能落到同一时间基准(NTP/PLC/系统时钟)?
- 设备信号与工艺参数、质检结果能不能在同一个“事件时间轴”上关联?
没有这张时间轴,所谓的“根因分析”很容易变成巧合。时间对齐后,很多问题反而变简单:你能清楚看到异常发生前后的工艺波动、设备状态变化和人员操作记录。
数据最常见的三种坑(我见过太多次)- 采集粒度不匹配:设备秒级数据,质检是班次级,硬凑会制造假相关
- 标签不可用:不良原因靠手填,字段长期“其他”,模型学不动
- 系统孤岛:MES、QMS、SCADA、ERP各说各话,接口一拖就三个月处理方式不一定是“大改系统”。很多厂先从中间层做起:建立数据字典、统一编码、打通最小闭环接口,先让一个场景跑起来,再扩展。
现在最容易被营销带偏的就是“上大模型”。在制造现场,我更关心四个指标:可解释、可维护、可复现、可验收。
视觉质检:从传统CV到大模型的组合拳不少缺陷并不需要大模型,传统检测+轻量学习就能达标。大模型更适合两类事情:
- 小样本/长尾缺陷:少量标注也能起步,但仍要做数据增强与难例回采
- 多品种快速切换:用提示词/少样本微调降低换型成本策略上我更偏向“分层”:前端用稳定模型跑节拍,后端用更强模型做复核与学习,既控成本也控风险。
预测维护:异常检测先行,分类诊断随后很多工厂没有足够的“故障标签”,一上来训练分类器会很痛苦。我更常用:
- 先做无监督/半监督异常检测,形成健康度曲线
- 再把维修记录结构化,逐步补齐“故障类型”这样能先把预警价值跑出来,再慢慢提高诊断精度。
工艺优化:别把模型当“黑箱指挥官”工艺参数往往受物料、设备、环境、人员影响。我的做法是让模型输出“建议区间”而不是单点值,并提供约束:安全上下限、设备能力边界、工艺规程红线。制造里最怕的不是“没提升”,而是“一次离谱的建议”把信任摔碎。
“制造人工智能”能不能持续,取决于上线后谁来盯、怎么报警、怎么回滚、怎么复盘。交付不只是一段代码,而是生产系统的一部分。
我通常会要求项目在验收前就写清三件事:
- 验收口径:良率提升算哪条产线、哪个产品族、是否剔除工艺变更期
- 在线监控:数据缺失、分布漂移、模型输出异常要能报警
- 回退机制:模型出问题时,能不能一键切回人工规则或旧版本
权限与合规别忽略。涉及图像、人员操作记录、供应商数据时,要按企业制度做访问控制与留痕。对于高风险决策(比如安全相关的设备联锁),不要把AI输出直接接到执行端,至少要有审批或双通道校验。
很多老板关心ROI,但ROI不是靠一句“提升X%”来证明的,而是靠“投入项清清楚楚、收益项可被对账”来站住脚。
这里给你一个更现实的成本清单思路:
- 数据侧:采集改造、标签成本、接口开发、存储与计算
- 业务侧:现场配合工时、停线窗口、SOP调整与培训
- 运维侧:监控、迭代、版本管理、模型退化后的再训练
至于AI能力的发展趋势,建议直接看权威机构的长期跟踪数据。比如国际能源署(IEA)对数据中心用电与AI带来的电力需求有持续更新(来源网站:iea.org),对制造企业评估算力与能耗成本很有参考意义;NIST对AI风险管理框架(AI RMF)也提供了可落地的治理思路(来源网站:nist.gov),适合用来定义“哪些场景必须有人在环、哪些输出需要审计”。
我不在文章里硬塞“2026年某某市场规模”这类数字,因为不同报告口径差异大,拿来做决策容易被误导。真正有用的是:把你的场景、数据、节拍、风险级别放进同一套算账与治理框架里。
如果你准备启动,我会建议把第一期目标压到足够小:选一个产线、一个痛点、一个可验收指标,让数据—模型—执行—反馈跑成闭环。等闭环跑顺,再复制到相邻工序或相近产品族。
“制造人工智能”不是一次性采购,它更像你在工厂里新增了一条“学习回路”。只要你愿意把数据当原材料、把模型当工装夹具、把上线当设备验收,你会发现这件事并不玄学——它只是制造工程的另一种形态。