论文阅读:焊接
1. Derivation of physical equations for high-speed laser welding using large language models
2026.1.20
多模态融合, 语言模型, 激光焊接
一、研究问题
高速激光焊接中的隆起(humping)缺陷机理复杂、数据稀疏。
传统做法依赖大量实验数据与经验公式/量纲分析,成本高、跨材料迁移差。
本文目标:在稀疏数据条件下,用文献知识 + LLM 推导可解释的物理方程,并用于隆起发生预测与工艺优化。
二、核心思路
提出 T2EGPT(Text-to-Equation Generation Transformer)框架:
把“文本里的领域知识”(来自筛选后的私有文献库)与“稀疏实验数据”连接起来,自动生成候选方程,并通过规则化评分筛选最优方程。
关键点:
- 先建一个私有数据库:文献按预定义主题标准筛选(面向隆起缺陷相关机理/参数)。
- 输入一组与隆起相关的物理参数(例如:最大融化速度、熔池长度、热导率、密度、比热、表面张力系数等)。
- LLM 先生成“相关性报告”:对变量关系按“类型/形式/效果”分类。
- 再把这些关系用于候选方程生成与打分筛选(结合模式搜索/评分量表 rubric)。
三、方法论
传统经验方程发展(数据驱动/量纲分析)
- 输入:Humping Data(稀疏数据)
- 构建输入维度矩阵
- 搜索无量纲空间(dimensionless space)
- 评估打分
- 从拟合结果选最优方程
本文方法(LLM + 文献知识驱动)
- 输入:Literature Domain Knowledge(私有文献库)
- 相关性结果(Correlation results)
- 直接/间接相关分析
- 线性/非线性关系分析
- Rubric 评分(可由人定义标准)
- Positive / Negative / Not significant
- 从 LLM 推导出的候选方程中选最优方程
- 相关性结果(Correlation results)
四、结论
隆起是一种不平衡状态:
- 惯性效应主导于毛细稳定性。
隆起来源于:惯性驱动的后向熔融回流 与 毛细力驱动的表面稳定之间的竞争。
- 惯性力促使熔融金属向后流动
- 毛细力抵抗表面形变,抑制隆起
- 在不锈钢、铝、钛合金之间表现出高预测准确性与可迁移性(跨材料泛化)。
- 在有限数据场景下,比传统纯数据驱动方法更稳健。
- 生成的物理方程具备可解释性,可用于指导工艺优化(不只是“黑盒预测”)。
五、创新
- 文本 + 数据 + LLM联合:推动“物理法则/经验方程”的自动发现。
- 用 LLM 建私有知识库并自动抽取关系、构造候选方程,减少人工整理与文献格式不统一的痛点。
- 候选方程通过固定评分规则评估,形成“可控”的方程筛选链路,而非完全自由生成。
六、缺陷
- LLM 幻觉是潜在风险。
- 缓解思路:提示模型输出支持结论的原始文本片段,并由研究者结合领域知识做校验(人机协作闭环)。
2. Multimodal data fusion for welding defect detection using ensemble deep learning
2026.1.20
多模态融合,深度学习,缺陷检测,电阻点焊,模型解释
一、研究问题
焊接作为复杂热力学过程,易出现裂纹、气孔、夹渣、未熔合、不完全穿透、切口等缺陷;诱因包括材料变化、参数波动、环境因素、操作误差等。
传统机器学习/单模态深度学习存在局限:
- 效率与鲁棒性不足:对缺陷形状/分布变化、噪声干扰敏感;小样本与类别不平衡下性能不稳。
- 信息不完备:单一模态只能提供局部特征,缺乏全局完整性与冗余校验。
- 工业可用性不足:缺少可解释的定量指标,难以支撑质量控制决策与传感器布局优化。
本研究目标:
- 在有限且不平衡数据下,实现高准确率、稳健的缺陷分类;
- 降低计算复杂性,支持多模态数据流高效处理;
- 提供定量可解释性指标,增强决策可信度并指导传感器优化。
二、核心思路
构建三个子分类器,分别从红外图像、RGB图像、焊接参数提取信息;通过 Dempster–Shafer(DS)证据理论进行多模态融合形成集成框架。
其中图像子网络采用 ResNet-based 权重共享的双输入结构(多视角双图像),并引入 FPN增强(F-ResNet / DF-ResNet)提升多尺度特征表达。
解释性方面结合:
- MM-SHAP:量化各模态对最终分类的贡献;
- Grad-CAM:可视化图像网络关注区域(尤其是DF-ResNet在图像处理中的显著区域)。
三、方法论
整体流程(三步):
- 采集与预处理:红外图像、RGB图像、焊接参数(含处理多重共线性);并处理数据不平衡(增强)。
- 单模态预训练 + DS融合:分别训练各模态基础分类器,再用DS证据理论融合输出。
- 可解释性分析:MM-SHAP 量化模态贡献 + Grad-CAM 可视化注意区域,形成“定量 + 定性”解释闭环。
3.1 网络结构
ResNet-18 两类残差结构: (a) 维持特征图大小;(b) 改变特征图大小

Two types of residual structures in ResNet-18: (a) Maintaining feature map size, and (b) Changing feature map size.FPN增强 ResNet:F-ResNet

FPN-enhanced Resnet (F-ResNet) network architecture.双输入 FPN增强 ResNet:DF-ResNet(并使用权重共享)

Dual-input FPN-enhanced ResNet (DF-ResNet) network architecture.
评价指标:Accuracy / Precision / Recall / F1-score
- MM-SHAP 计算过程

MM-SHAP calculation process.
3.2 焊接参数定义表(Welding parameters)
| Type | Variable | 描述 | Unit | Range |
|---|---|---|---|---|
| Input | Pressure(压力) | 气动缸上的压力 | PSI | {35, 60, 80, 95} |
| Input | Welding time(焊接时间) | 焊接过程时间 | ms | 200–1500 |
| Input | Electrode angle(电极角度) | 电极之间的角度 | Deg | {0, 15} |
| Input | Electrode force(电极力) | 施加在电极上的力 | N | 0–133.53 |
| Input | Welding current(焊接电流) | 电流通过金属板 | A | 639.81–5009.43 |
| Input | Material thickness A(材料厚度A) | 材料A厚度 | mm | 0.61–1.057 |
| Input | Material thickness B(材料厚度B) | 材料B厚度 | mm | 0.608–1.01 |
| Output | Pull test force(拉力测试力) | 焊接接头机械强度 | N | 1410.3–5806.5 |
| Output | Nugget diameter(颗粒直径) | 焊接点直径 | mm | 1.9–4.72 |
3.3 多重共线性处理(VIF,逐步处理)
| Variable | Step 1 | Step 2 | Step 3 | Step 4 | Step 5 |
|---|---|---|---|---|---|
| Pressure(压力) | 15.76 | 15.40 | 15.16 | 15.15 | / |
| Welding time(焊接时间) | 7.76 | 7.76 | 7.61 | 5.75 | 5.45 |
| Electrode angle(电极角度) | 3.67 | 3.67 | 3.54 | 2.82 | 2.74 |
| Electrode force(电极力) | 15.46 | 14.94 | 13.07 | 10.00 | 8.12 |
| Welding current(焊接电流) | 13.60 | 13.54 | 10.64 | 9.85 | 9.71 |
| Material thickness A(厚度A) | 603.48 | / | / | / | / |
| Material thickness B(厚度B) | 602.69 | 30.95 | 28.03 | 13.45 | 4.93 |
| Pull test force(拉力测试力) | 59.84 | 59.84 | 40.69 | / | / |
| Nugget diameter(颗粒直径) | 76.83 | 76.66 | / | / | / |
3.4 数据增强前后样本分布
| Category | Original Train | Original Test | Original Total | Augmented Train | Augmented Test | Augmented Total |
|---|---|---|---|---|---|---|
| Good(好) | 309 | 134 | 443 | 309 | 134 | 443 |
| Bad(坏) | 15 | 6 | 21 | 300 | 120 | 420 |
| Explode(爆炸) | 22 | 9 | 31 | 308 | 126 | 434 |
| Total | 346 | 149 | 495 | 917 | 380 | 1297 |
3.5 超参数设置
| Hyper Parameter | Value |
|---|---|
| Batch size | 64 |
| Learning rate | 0.0005 |
| Epochs | 100 |
| Optimizer | SGD |
| Weight decay | 5 × 10⁻⁵ |
| Loss function | Cross-Entropy Loss |
| Early stopping | No early stopping |
| Evaluation metric | Accuracy / Precision / Recall / F1-score |
四、结论
- 在多种缺陷场景下,实现 91.6% 整体准确率;
- 双输入 + 权重共享使分类准确率提升 7.87%,并增强小样本场景鲁棒性;
- 在识别不良样本时,模型更依赖红外图像信息(由解释结果支持)。
4.1 消融实验(组件贡献)
| Model | FPN | Double input(双输入) | Weight sharing(权重共享) | Accuracy | Precision | Recall | F1 |
|---|---|---|---|---|---|---|---|
| ResNet | 0.788 | 0.804 | 0.790 | 0.787 | |||
| D-ResNet | √ | √ | 0.816 | 0.824 | 0.818 | 0.818 | |
| F-ResNet | √ | 0.792 | 0.797 | 0.796 | 0.794 | ||
| DF-ResNet(不共享权重) | √ | √ | 0.821 | 0.842 | 0.822 | 0.818 | |
| DF-ResNet | √ | √ | √ | 0.850 | 0.851 | 0.854 | 0.852 |
4.2 不同模型指标对比
| Model | Accuracy | Precision | Recall | F1 |
|---|---|---|---|---|
| IrNet | 0.787 | 0.784 | 0.793 | 0.785 |
| DF-ResNet | 0.850 | 0.851 | 0.854 | 0.852 |
| ANN | 0.855 | 0.858 | 0.860 | 0.857 |
| EMMDL(本文) | 0.916 | 0.926 | 0.920 | 0.917 |
4.3 不同主干对比(Backbone)
| Backbone | Accuracy | Precision | Recall | F1 |
|---|---|---|---|---|
| AlexNet | 0.524 | 0.388 | 0.537 | 0.432 |
| VggNet | 0.611 | 0.645 | 0.610 | 0.602 |
| GoogleNet | 0.761 | 0.819 | 0.771 | 0.743 |
| MobileNetv2 | 0.734 | 0.740 | 0.739 | 0.738 |
| SqueezeNet | 0.789 | 0.802 | 0.795 | 0.792 |
| Vision Transformer | 0.703 | 0.727 | 0.703 | 0.702 |
| ResNet | 0.816 | 0.824 | 0.818 | 0.818 |
| F-ResNet | 0.850 | 0.851 | 0.854 | 0.852 |
五、创新
- 双输入 + 权重共享 + 集成学习:提升缺陷分类准确率与小样本鲁棒性。
- DS证据理论融合:以“证据融合”方式整合多模态输出,增强抗噪与互补性利用。
- 可解释性闭环(Grad-CAM + MM-SHAP):既能可视化图像关注区域,又能定量比较模态贡献,支持质量控制与传感器布局优化。
- 在材料变化、环境干扰等工业典型扰动下,较单模态框架更不易失效,具备更强工程落地潜力。
六、缺陷
- 融合策略偏后期决策融合:DS融合主要作用于分类证据层,可能未充分利用模态间的细粒度交互(特征级互补);对复杂缺陷的时空演化信息利用有限。
- 泛化边界未完全明确:任务是电阻点焊缺陷分类,是否能跨材料牌号、不同设备、不同工装/光照/热辐射条件保持稳定,需要更多域外测试。
- 可解释性仍是“相关性解释”:Grad-CAM/MM-SHAP提供的是注意/贡献线索,但不等价于因果解释;对工艺优化的指导需要结合物理与工艺约束进一步验证。
3. Deep multimodal fusion of spectral and visual data for laser welding defect classification
2026.1.20
多模态融合,激光焊接,光谱-视觉,交叉注意力,缺陷分类,通道选择
一、研究问题
激光焊接缺陷检测需要准确解读异构信号,其中焊缝图像(表面/几何/飞溅等)与光谱时间序列(等离子体/热/材料状态等)提供互补信息,但二者在数据形态、噪声与对齐方式上差异大,有效融合仍具挑战性。
二、核心思路
构建面向汽车电池母线焊接的多模态数据集,并提出基于交叉注意力(cross-attention)的视觉-光谱融合框架:
- 先对焊缝图像做分割以抑制背景干扰;
- 对光谱做相关性分析,筛选信息更丰富的通道以降维;
- 使用反向光谱嵌入(inverted spectral embedding)
- 视觉到光谱的交叉注意力(vision-to-spectrum cross-attention)建模细粒度跨模态交互。
三、方法论
3.1 数据采集与工况设置
数据集包含 7 种焊接工况
| Welding status(状态) | Definition(定义) |
|---|---|
| Baseline(基线) | 激光设备默认设置,工件未处理 |
| Low Power(低功率) | 焊接功率低于基线 |
| Low Gap(间隙过小) | 工件间隙 < 0.5mm |
| Defocus(失焦) | 失焦量为 4mm 与 6mm |
| Water Treatment(水处理) | 焊接前用水清洗工件 |
| Oil Treatment(油处理) | 焊接前除油清洗工件 |
| Cold Weld(冷焊) | 焊后未能正确结合 |
3.2 预处理与输入构建
- 焊缝图像分割:用 U-Net 分割焊缝区域,降低背景噪声对特征提取的影响。
- 光谱通道选择(通道维压缩):对光谱信号做相关性分析(Pearson correlation),筛选信息通道以降维、降计算。
- 对齐策略(焊缝-光谱配对):将输入图像裁剪为两条独立焊缝,并对第一条焊缝垂直翻转;每条焊缝与其对应光谱配对进入模型(保证对齐)。
- 光谱时间长度:将光谱时间序列长度设置为 560 time steps(用于捕捉时间变化)。
3.3 模型结构
- 视觉编码器:MobileNetV2(强调效率,面向实时工业场景)。
- 光谱嵌入:MLP 将原始光谱序列投影到高维;采用反向嵌入以更好捕捉通道间依赖。
- 融合模块:可学习的交叉注意力,实现视觉特征与光谱表征的显式交互(比简单拼接/相加更能建模跨模态依赖)。
- 检测头:对融合后的 token 做自注意力(MHSA)聚合全局上下文,再输出焊接状态类别。
- 损失函数:Focal Loss(缓解类别不平衡,强调困难样本)。

四、结论
4.1 不同融合方式对比(逐类指标)
逐元素相加、按通道拼接、交叉注意力
| Defect type | Add: Pre | Add: Rec | Add: F1 | Add: AUC | Concat: Pre | Concat: Rec | Concat: F1 | Concat: AUC | CrossAttn: Pre | CrossAttn: Rec | CrossAttn: F1 | CrossAttn: AUC |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Baseline | 100.0 | 91.0 | 95.2 | 95.6 | 95.2 | 90.9 | 93.0 | 95.0 | 100.0 | 95.6 | 97.8 | 97.7 |
| Low power | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 95.2 | 97.6 | 97.6 | 100.0 | 100.0 | 100.0 | 100.0 |
| Low gap | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
| Defocus | 95.2 | 100.0 | 97.6 | 98.8 | 95.2 | 100.0 | 97.6 | 98.8 | 100.0 | 100.0 | 100.0 | 100.0 |
| Water treatment | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 80.0 | 100.0 | 88.9 | 99.6 |
| Oil treatment | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
| Cold weld | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
4.2 与单模态模型对比(加权指标)
| Metrics | Vision-only(VGG16) | Vision-only(MobileNetV2) | Vision-only(GoogleNet) | Vision-only(ResNet50) | Vision-only(ViT-B/16) | Spectrum-only(Informer) | Spectrum-only(DLinear) | Ours(Cross attention Fusion) |
|---|---|---|---|---|---|---|---|---|
| Weighted Pre. (%) | 97.7 | 97.5 | 98.5 | 97.9 | 83.2 | 93.8 | 93.1 | 99.4 |
| Weighted Rec. (%) | 97.6 | 97.6 | 98.4 | 97.6 | 82.9 | 93.5 | 92.7 | 99.2 |
| Weighted F1. (%) | 97.6 | 97.5 | 98.4 | 97.6 | 83.0 | 93.5 | 92.6 | 99.2 |
4.3 复杂度-性能权衡(消融/变体)
| Model variant | Fusion module | Cross-attention | Params | FLOPs | Weighted F1 (%) |
|---|---|---|---|---|---|
| Image only(仅图像) | ✗ | ✗ | 5.6M | 8.5G | 97.5 |
| + Spectrum branch(+光谱分支) | ✓ | ✗ | 15.9M | 12.6G | 98.4 |
| + Cross-attention fusion(本文) | ✓ | ✓ | 25.9M | 18.5G | 99.2 |
总体结论:
- 方法整体准确率达到 99.2%,提升光谱嵌入维度后可进一步提升到 100.0%;消融验证了分割、通道选择、嵌入/融合设计的收益。
- 论文也强调其在其他工业缺陷数据集(NEU、DAGM)上验证了泛化能力。
五、创新
- 交叉注意力用于视觉-光谱融合:显式建模跨模态依赖,实现动态交互(区别于简单拼接/相加)。
- “分割 + 通道选择”式输入净化:U-Net 抑制背景;Pearson 相关性筛通道,兼顾性能与效率。
- 反向光谱嵌入 + 视觉到光谱注意力:面向“光谱是时间序列且通道相关强”的特性做结构化建模。
- 工程可用性倾向:使用 MobileNetV2 等轻量视觉骨干,并在文中强调计算效率与实时部署潜力。
六、缺陷
- 融合模块偏“注意力对齐”但缺少物理约束:交叉注意力提升效果显著,但其对焊接物理过程的可解释性(哪些波段/哪些纹理对应哪些缺陷机理)需要更多验证(如波段重要性/注意力与物理量关联)。
- 数据对齐策略存在潜在偏差:将两条焊缝裁剪并对第一条翻转的做法,可能引入形态先验;若未来换相机视角/焊缝形态变化,泛化边界需要额外验证。
- 性能接近满分时,更需要“域外测试”:99%+ 的结果容易受到数据集划分、同工件泄漏、增强/采样策略等影响;建议关注跨批次、跨设备、跨材料、跨日期的外部验证设置。
4. An effective penetration depth and width prediction method in pulsed GTA welding based on multimodal transformer-serial fusion network
2026.1.21
多模态融合, 熔深预测, 脉冲GTAW, 变压器融合网络
一、研究问题
P-GTAW(脉冲钨极氩弧焊)过程中熔池行为高度动态且复杂,尽管深度学习在焊接质量管理(WQM)中潜力显著,但在此类场景下的适用性仍需进一步验证。
同时,多传感器融合的机制仍缺乏可解释性:
- 不同模态信息在模型中如何被挖掘与融合不清晰;
- “直接互补性”与“各模态贡献边界”缺少明确说明。
二、核心思路
提出 AM-TSFNet(Attention-based Multimodal Transformer-Serial Fusion Network): 利用 熔池图像 + 弧声信号 + 红外热像 的多模态输入,进行实时回归预测,输出:
- 背面焊缝宽度(back-bead width)
- 穿透深度(penetration depth)
目标是构建一个更准确、对噪声更鲁棒、并更“可解释”的焊接质量预测模型。
三、方法论
3.1 框架概述(AM-TSFNet 总链路)
AM-TSFNet 由三部分构成:
- 多模态输入处理与同步:熔池图像 / 声学信号 / 红外热像对齐后输入。
- 高频与低频特征提取:通过共享特征提取器提取特征,并引入 STSL 抑制冗余低频、增强有效高频。
- 跨模态融合与回归预测:通过注意力机制(Q/K/V 投影的自注意力结构)建模跨模态交互,最终进入回归头同时预测宽度与熔深。
关键设计点:
- 权重共享(weight sharing):三种模态的特征提取器共享参数,以保证一致性并降低模型复杂度。
- STSL(Soft Thresholding Shrinkage Layer):自适应抑制近零激活(通常对应噪声/非焊接区域/低显著频率成分),增强信噪分离。
- 正则化策略:FC层 Dropout=0.5;L2 正则(weight decay=1e-4);Early stopping(patience=10)。
提出的 AM-TSFNet 架构
Architecture of proposed AM-TSFNet
3.2 特征提取器(TSFPC)
提出 TSFPC(Transformer-Serial Fusion Partial Convolution) 特征提取器:
- 先用 Transformer 模块在空间与时频域提取局部特征;
- 再用 CNN 建模长程依赖;
- 为提升效率,引入 PConv(Partial Convolution) 替代标准卷积:只对部分通道卷积,其余通道直连,以平衡效率与表达能力;
- 将 Transformer 的局部特征与 PConv 的全局特征进行串行融合(serial fusion)以增强表达;
- 结合 STSL 提升抗噪与泛化,并增强可解释性。
提出的 TSFPC 特征提取器架构 (a) 整体框架 (b) PCIR 块框架 (c) PCMV 块框架
Architecture of proposed TSFPC feature extractor (a) Overall framework (b) PCIR block framework (c) PCMV block framework
3.3 TSFPC 层级配置表(以图像分支为例)
| Layer(层) | Output size(输出大小) | Kernel(卷积核) | Stride(步幅) | Padding(填充) | Output Channels(输出通道) |
|---|---|---|---|---|---|
| RGB Image(输入) | 256×256 | – | – | – | 3 |
| Conv1 | 128×128 | 3×3 | 2 | 1 | 16 |
| PCIR Block | 64×64 | – | – | – | 24 |
| PCIR + PCMV Block1 | 32×32 | – | – | – | 48 |
| PCIR + PCMV Block2 | 16×16 | – | – | – | 64 |
| PCIR + PCMV Block3 | 8×8 | – | – | – | 80 |
| Conv2 | 8×8 | 1×1 | 1 | 0 | 320 |
| Adaptive GAP | 1×1 | – | – | – | 320 |
| Fully Connected | – | – | – | – | 256 |
3.4 STSL(软阈值收缩层)
STSL 作用于所有模态的特征图(视觉 / 声学 / 红外):
- 将接近 0 的激活视为噪声或低显著成分;
- 通过软阈值抑制这些响应,同时保留物理上有意义的负响应;
- 目的:提升特征空间的信噪分离,从而提升宽度与熔深回归性能。
软阈值收缩层(STSL)的架构
Architecture of the Soft Thresholding Shrinkage Layer (STSL)
四、结论
整体效果:多模态网络取得更高的 (R^2)(最高约 0.97)与更低 MSE(平均约 0.16),优于单传感器预测方法;STSL 与多模态融合均带来稳定增益。
4.1 消融:输入模态 × 融合 × STSL
| Exp | img | audio | ir | Feature Fusion | STSL | Width MSE | Width R² | Depth MSE | Depth R² | Avg MSE | Avg R² |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | √ | – | ✗ | 0.98 | 0.92 | 0.22 | 0.82 | 0.60 | 0.87 | ||
| 1 | √ | – | ✓ | 0.76 | 0.94 | 0.18 | 0.86 | 0.47 | 0.90 | ||
| 2 | √ | – | ✗ | 1.10 | 0.91 | 0.32 | 0.77 | 0.71 | 0.84 | ||
| 2 | √ | – | ✓ | 1.05 | 0.92 | 0.23 | 0.82 | 0.64 | 0.87 | ||
| 3 | √ | – | ✗ | 1.61 | 0.87 | 0.31 | 0.77 | 0.96 | 0.82 | ||
| 3 | √ | – | ✓ | 1.31 | 0.91 | 0.29 | 0.79 | 0.80 | 0.85 | ||
| 4 | √ | √ | √ | ✗ | 0.63 | 0.94 | 0.23 | 0.86 | 0.43 | 0.90 | |
| 4 | √ | √ | √ | ✓ | 0.61 | 0.95 | 0.15 | 0.89 | 0.38 | 0.92 | |
| 5 | √ | √ | √ | ✗ | 0.71 | 0.94 | 0.21 | 0.84 | 0.46 | 0.89 | |
| 5 | √ | √ | √ | ✓ | 0.46 | 0.96 | 0.16 | 0.88 | 0.31 | 0.92 | |
| 6 | √ | √ | √ | ✗ | 1.37 | 0.89 | 0.23 | 0.83 | 0.80 | 0.86 | |
| 6 | √ | √ | √ | ✓ | 0.66 | 0.94 | 0.22 | 0.84 | 0.44 | 0.89 | |
| 7 | √ | √ | √ | – | ✗ | 0.59 | 0.96 | 0.17 | 0.88 | 0.38 | 0.92 |
| 7 | √ | √ | √ | – | ✓ | 0.38 | 0.97 | 0.12 | 0.91 | 0.25 | 0.94 |
| 8 | √ | √ | √ | √ | ✗ | 0.30 | 0.97 | 0.10 | 0.93 | 0.20 | 0.95 |
| 8 | √ | √ | √ | √ | ✓ | 0.25 | 0.98 | 0.07 | 0.96 | 0.16 | 0.97 |
4.2 与基线模型对比(回归性能)
| Model | Width MSE | Width R² | Depth MSE | Depth R² | Avg MSE | Avg R² |
|---|---|---|---|---|---|---|
| AF-FTTSnet | 1.18 | 0.91 | 0.24 | 0.83 | 0.71 | 0.87 |
| ViT + Cross-attention | 1.12 | 0.92 | 0.32 | 0.76 | 0.72 | 0.84 |
| ResNet18 + Cross-attention | 0.83 | 0.93 | 0.23 | 0.83 | 0.53 | 0.88 |
| MobileViT + Cross-attention | 0.42 | 0.97 | 0.15 | 0.89 | 0.29 | 0.93 |
| ViT + FFM | 0.75 | 0.94 | 0.19 | 0.86 | 0.47 | 0.90 |
| ResNet18 + FFM | 0.59 | 0.96 | 0.17 | 0.88 | 0.38 | 0.92 |
| MobileViT + FFM | 0.41 | 0.97 | 0.11 | 0.93 | 0.26 | 0.95 |
| Ours(AM-TSFNet) | 0.25 | 0.98 | 0.07 | 0.96 | 0.16 | 0.97 |
五、创新
- AM-TSFNet 混合架构:将 Transformer 与 PConv 串行融合,兼顾局部结构信息与全局上下文建模,面向动态焊接过程增强表征能力。
- STSL 抗噪机制:自适应抑制噪声相关特征、突出信息性特征,提升高噪声条件下鲁棒性,并提升“特征可解释性”(更偏向“噪声抑制解释”)。
- 注意力式跨模态融合:用基于 Q/K/V 的注意力机制选择性整合图像/声学/红外互补信息,促进模态间信息交换。
- 系统性验证:多场景数据集 + 消融 + 多基线对比,验证 STSL 与融合模块对宽度/熔深回归的增益。
六、缺陷
- “权重共享”可能压制模态特异性:三种模态共享同一特征提取器有利于降参,但图像/声谱/热像统计特性差异大;共享是否牺牲了某些模态的最优表征,需要更细致对比(共享 vs 部分共享 vs 独立)。
5. Online penetration prediction based on multimodal continuous signals fusion of CMT for full penetration
2026.1.22
音频-视觉信号, 渗透状态, 深度学习, CMT, 在线预测
一、研究问题
复杂对接焊接的在线渗透监测面临挑战,主要原因是钢板槽口不稳定与焊接热变形导致的过程波动,使得仅依赖单一信号难以稳定、准确地判别渗透状态与渗透深度。
二、核心思路
本研究提出一种混合方法,结合深度学习、计算机视觉与声信号处理,实现全渗透条件下槽口焊接渗透的实时监测。
提出多模态连续信号特征强化网络(MCRNet):通过 3D 卷积捕捉时空信息,结合多尺度 2D 卷积与通道注意力提升轻量网络的特征提取能力,并设计相似性损失来约束视觉与声学特征在“同一渗透状态”上的一致性,实现多模态连续序列数据融合回归熔池渗透深度。
三、方法论
MCRNet 在有限深度结构内高效提取熔池连续信号特征。整体由 3D 卷积块、多尺度特征筛选模块(MFS)与融合模块组成,并通过相似性损失强化跨模态一致性。

MCRNet framework
3.1 3Dcov 块
对多帧图像,选取三个连续帧并整合到不同通道,构成尺寸为 3 × 256 × 256 的输入。采用 3D 卷积以捕捉连续视频帧中的时空信息,使空间与时间特征可以在卷积运算中统一建模。
三维卷积也有助于保持特征一致性。相邻帧通常共享相似模式,3D 卷积可利用这种一致性降低模型复杂度、提升计算效率,并在一定程度上缓解过拟合风险。
3.2 MFS 模块
多特征筛选(MFS)模块由多特征提取(MFE)块与挤压激励(SE)块组成。MFE 块包含五个分支以提取多样特征,并将分支输出进行协调形成模块输出。
为增强网络对复杂空间细节的捕捉能力,引入 1 × 3 与 3 × 1 的非对称卷积以加强水平与垂直方向的表征;同时融合 1 × 1 卷积以增强非线性处理能力。SE 块用于通道注意力加权,实现对有效特征的筛选与强化。
3.3 融合模块
融合模块通过线性层与批量归一化(BN)层,将视频与声音模态映射到匹配维度的特征图空间,再进行融合表示学习。
考虑到视频特征与声音特征共同表征同一渗透状态,设计额外损失约束二者在特征空间保持相似,从而提升融合稳定性与一致性。

Fusion module structure
3.4 相似性损失
引入损失项 ,基于两个特征集之间的余弦相似性度量跨模态一致性:
四、结论
相较单模态输入,多模态方法整体效果至少提升 18%;实验显示 MCRNet 的 MSE 相比主流深度学习框架提升 44%(误差更低),在多模态输入下推理速度达到 57 FPS,实现熔池在线渗透深度的准确预测。
| Network 网络 | MAE (mm) 平均绝对误差 (mm) | MSE (mm) 均方误差 (mm) |
|---|---|---|
| MCRNet | 0.2538 | 0.1190 |
| MCRNet-Video only MCRNet-仅视频 | 0.2833 | 0.1555 |
| MCRNet-Sound only MCRNet-仅声音 | 0.2893 | 0.1796 |
| Without 没有(原文此处为某模块/策略占位) | 0.2754 | 0.1314 |
| Without 3Dcov block 没有 3Dcov 块 | 0.2876 | 0.1514 |
| Without MFE block 没有 MFE 块 | 0.3565 | 0.2041 |
| Without SE block 没有 SE 块 | 0.2984 | 0.1833 |
| Network 网络 | Time (ms) 时间(毫秒) |
|---|---|
| MCRNet | 17.4 |
| MCRNet- without reparameterization MCRNet-无重参数化 | 24.3 |

MCRNet vs. other network of comparison experiments
五、创新
- 提出面向全渗透槽口对接焊在线监测的多模态连续信号融合框架,将视频序列与声学信号联合建模,实现渗透深度实时回归预测。
- 设计轻量高效的 MCRNet 结构,将 3D 卷积(时空建模)、多尺度 2D 卷积(多分支特征提取)与通道注意力(SE)组合,在有限网络深度下提升特征强化与筛选能力。
- 提出跨模态相似性损失 ,以“同一渗透状态”一致性为约束,提升视觉与声学特征在融合前的对齐程度与融合稳定性。
六、缺陷
- 相似性损失假设两模态特征应高度一致,但在实际焊接中视觉与声学的敏感性可能对不同扰动源具有差异,过强一致性约束可能在某些工况下抑制“互补性特征”,需要进一步讨论权重系数与适用边界。
- 视频采用三帧输入(3 × 256 × 256)对更长时间尺度的动态变化建模能力有限;对热变形引起的慢变化、以及突发扰动的持续影响,是否需要更长序列或显式时序建模模块仍需验证。
6. Construction of a CNN-SK weld penetration recognition model based on the Mel spectrum of a CMT arc sound signal
2026.1.22
音频信号, Mel谱, CMT, 穿透状态识别, 轻量CNN, SKNet注意力
一、研究问题
弧声信号在焊接过程中易受工况波动与噪声影响,稳定性不理想;传统特征提取方法往往流程繁琐、效率偏低。与此同时,弧声在穿透状态判别中的信息价值常被低估或未被充分利用,因此需要一种更高效、能自适应提取有效特征的识别方法。
二、核心思路
提出一种紧凑的卷积神经网络(CNN)用于自适应提取弧声特征,并用于焊接穿透状态识别。
输入侧以弧声信号经 STFT 得到的 Mel 谱图(含 Mel 滤波器组转换步骤)作为网络输入表征。为提升识别能力,将动态选择核网络(SKNet)中的选择性核机制引入 CNN,形成 CNN-SK 模型,使网络能够在不同卷积核尺度之间进行动态选择,从而更有效地捕捉穿透状态相关的声学特征。
三、方法论
3.1 定制轻量级 CNN 网络
网络由以下组件组成:
- 6 个卷积层(Conv):用于特征提取
- 6 个归一化层:用于稳定训练、缓解梯度问题
- 1 个平均池化层:用于参数近似与降维
- 1 个全连接层(FC):用于最终分类

3.2 动态选择核网络(SKNet / SKAttention)
SKAttention 通过动态选择卷积核来强化关键信息提取。其核心是选择性核(SK)构建块:包含多个不同核大小的分支,并在融合后通过 SoftMax 完成信息选择与权重分配。
SKNet 的关键操作可概括为:
- Split(分裂):多分支不同尺度卷积并行提取
- Fuse(融合):聚合分支信息形成全局表征
- Select(选择):计算注意力权重,对不同尺度特征进行选择性重标定

3.3 定制 CNN-SK 模型结构
总体流程(按你笔记描述整理):
- 输入特征先经过 4 种不同核大小的并行特征提取,得到 4 个特征映射;
- 将 4 个特征映射组合得到全局综合表示,用于后续权重选择;
- 为降低计算量,对聚合特征进行下采样;
- 生成的特征向量分别与 4 个注意力系数向量进行卷积,形成不同角度的特征重聚合;
- 通过 Softmax 计算各分支特征权重,并将加权结果传递到后续卷积层。

四、结论
CNN-SK 在三种穿透状态识别任务上取得最高准确率,并在计算资源不显著浪费的前提下优于多种对比模型。对比结论包括:LeNet 虽然训练更快、占用更小、FLOPs 更低,但精度明显不及 CNN-SK;VGG 与 AlexNet 等更复杂网络在多项指标上也不如 CNN-SK,说明引入动态核选择机制能够以较高性价比提升识别性能。
对比结果(按你笔记给出的数值汇总):
| Model | Accuracy(%) | 备注 |
|---|---|---|
| CNN-SK | 98.83 | 最优 |
| LeNet | 92.33 | 更轻量但精度低 |
| VGG | 94.17 | 复杂但不占优 |
| AlexNet | 95.50 | 复杂但不占优 |
| TF-CNN | 98.20(100 epochs) | 接近但低于 CNN-SK |
| VGG-SE | 98.25(100 epochs) | 接近但低于 CNN-SK |
五、创新
- 将弧声信号以 Mel 谱图形式输入深度网络,利用 Mel 滤波器对低频更敏感的特性突出弧声关键模式,尤其适配 CMT 场景下弧声主要能量集中于 0–2 kHz 的现象。
- 构建 6 层轻量 CNN,面向工程应用保持较低复杂度,并通过引入动态选择核机制弥补轻量网络表达能力不足的风险。
- 将 SKNet 选择机制集成到 CNN 架构形成 CNN-SK,使模型能在不同卷积尺度间自适应选择,提升对穿透状态差异的辨识能力。
- 通过实验观察指出:SK 机制集成在早期卷积层(第 1 层或第 2 层)效果更显著,为“注意力插入位置”提供了经验性指导。
六、缺陷
- Mel 表征可能丢失高频信息:强调 0–2 kHz 低频合理,但若某些缺陷或工况变化在更高频段有诊断信息,Mel 压缩可能削弱可分性;需要讨论频带选择的充分性。
- 解释性仍有限:SK 的动态选择体现“不同尺度的重要性”,但仍不足以解释“哪些频带/哪些时段”驱动决策;若能补充频带贡献可视化或对关键时频区域的定位,会更利于工程可信度与传感器优化。
7. Prediction of penetration based on infrared thermal and visual images during pulsed GTAW process
2026.1.23
穿透状态识别快速, R-CNN, 卷积描述符选择红外热像, GTAW
一、研究问题
脉冲 GTAW 过程中,穿透状态(penetration state的在线识别需要同时满足:
- 高准确率与鲁棒性(抗电弧闪烁、背景热辐射干扰)
- 工业现场可部署(工控机算力/显存受限,要求推理快、模型轻、训练周期短)
论文针对“双模态(IR 热像 + CCD 可见光)”条件下,如何在 不依赖复杂预处理/分割的前提下实现快速准确识别提出模型方案。
二、核心思路
构建 双输入 Dual-input Faster R-CNN:输入为原始 IR 热像与原始 CCD 图像。 通过三类关键设计提升实用性:
- 同步特征提取与融合:降低电弧闪烁对 CCD 的负面影响,并利用 IR 的温度场信息补足视觉缺失信息
- 卷积描述符选择(Convolutional Descriptor Selection):抑制 IR 特征图中的背景无关热辐射干扰
- 共享 RPN 与 ROI Pooling + 标签集成层(Label-integrated Layer):在保证精度的同时降低计算负担与存储占用
三、方法论
3.1 Faster R-CNN 基本结构
Faster R-CNN 由四部分构成:
- 特征提取器 Backbone:对输入图像提取卷积特征图
- RPN(Region Proposal Network):在特征图上生成候选区域 proposals(含锚框生成与筛选)
- ROI Pooling:将 proposals 映射回特征图并池化到固定尺寸
- 分类与回归头:输出类别标签与边界框回归结果

Faster R-CNN 的结构图
RPN 的作用是对特征图生成区域建议(proposals),为后续 ROI Pooling + 分类回归提供候选区域。

Structure diagram of RPN
3.2 双输入 Dual-input Faster R-CNN 结构设计
为验证“共享哪些模块更优”,构建了 四种双输入 Faster R-CNN(DFR-1~DFR-4)结构变体,用于比较不同共享策略(例如共享 RPN、共享 ROI Pooling 等)对精度与速度的影响。

Structure diagrams of Dual-input Faster R-CNN models
同时提出两类增强模型:
- SSCD-DFR:对 IR 分支特征图引入“卷积描述符选择”,以抑制背景无关热辐射
- DSCD-DFR:在更深层对 IR 与 CCD 两路特征共同进行描述符选择/融合(你笔记里写作 DDSC-DFR,正文建议统一为 DSCD-DFR 或以原文为准)
整体流程可概括为:
- 生成激活图(activation maps)
- 获取掩膜图(mask maps)
- 选择原始特征图的描述符(descriptor selection),得到更“干净”的 IR/融合特征用于识别
论文明确强调:采用原始 IR/CCD 作为输入,减少数据集制作与预处理误差,并通过同步特征提取 + 描述符选择提升抗干扰能力。
3.3 训练超参数
| Hyperparameter 超参数 | Value 值 | Hyperparameter 超参数 | Value 值 |
|---|---|---|---|
| Anchor ratios 锚点比例 | [0.5, 1, 1.5] | Feature Extractor backbone 主干 | ResNet18 |
| Anchor scales 锚尺度 | [8, 16, 32] | Epoch 轮次 | 40 |
| Trainnumbefore_NMS (pre-NMS) | 12000 | Learning rate 学习率 | 初始 1e−4; |
| Trainnumafter_NMS (post-NMS) | 2000 | StepLR(step=1, γ=0.95) | |
| Testnumbefore_NMS (pre-NMS) | 3000 | Optimizer 优化器 | Adam |
| Testnumafter_NMS (post-NMS) | 300 | L2 regularization: 5e−4 |
四、结论(你笔记整理版)
论文结论强调“双输入 + 结构共享 + 描述符选择”的综合收益:
- 识别准确率 >95%
- 每对 IR&CCD 图像识别时间 <270 ms
你记录的对比结果如下(建议直接保留为性能对照表):
| Model name 模型名称 | Accuracy 准确率 | Recognition time (per frame) 识别时间(每帧) | Training time (Epoch=40) 训练时间 | Storage occupation 存储占用 |
|---|---|---|---|---|
| DFR-1 | 95.58% | 230 ms | 1 h 45 min 35 s | 94.98 MB |
| DFR-2 | 93.69% | 243 ms | 1 h 23 min 3 s | 52.63 MB |
| DFR-3 | 92.34% | 256 ms | 1 h 20 min 46 s | 53.43 MB |
| DFR-4 | 94.47% | 246 ms | 1 h 22 min 20 s | 52.60 MB |
| SSCD-DFR | 95.87% | 264 ms | 2 h 2 min 23 s | 52.60 MB |
| DSCD-DFR | 96.10% | 320 ms | 3 h 12 min 14 s | 52.60 MB |
| FR-IR | 90.84% | 138 ms | 46 min 55 s | 47.43 MB |
| FR-CCD | 91.57% | 182 ms | 47 min 10 s | 47.43 MB |
五、创新
- 双输入 Faster R-CNN 用于焊接穿透状态识别:同时利用 IR 温度场与 CCD 视觉信息的互补性,提高识别鲁棒性。
- 共享 RPN 与 ROI Pooling 的轻量化思路:在保证精度的同时降低计算/存储负担,面向工控机部署。
- 卷积描述符选择(尤其针对 IR 特征图):显式抑制背景无关热辐射干扰,提升抗干扰能力。
- 标签集成层(Label-integrated Layer):在融合后的决策阶段加强稳定输出,使整体更贴近“快速、准、轻”的工业约束目标。
六、缺陷
- 任务形式偏“状态识别/分类”:更多是判别穿透状态,而不是直接给出连续熔深/背宽等可控量;用于闭环控制时可能还需要回归模型或额外映射。
- 对时序信息利用有限:以逐帧/图像对为主,未显式建模焊接过程的时间动态(脉冲节拍、热惯性),在工况快速切换或短暂扰动下可能不如时序模型稳定。
- 工程依赖与泛化风险:双相机(IR+CCD)同步、标定、视角一致性会影响可迁移性;跨设备/镜头/滤光/发射率变化时可能需要重新训练或域适配。
8. Multi-sensing signals diagnosis and CNN-based detection of porosity defect during Al alloys laser welding
2026.1.23
铝合金激光焊接, 多传感信号诊断, 孔隙缺陷检测, 钥孔三维形态特征, 时频光谱图, 卷积神经网络
一、研究问题
孔隙(porosity)是铝合金激光焊接中常见且危害显著的内部缺陷。在线监测的关键难点在于:
- 孔隙形成与钥孔(keyhole)动态失稳/塌陷强相关,但这种动态行为难以用单一传感信号稳定表征。
- 传统人工特征(频域/时域统计量等)在复杂焊接动态下易失效,且难以实现在线定位。
二、核心思路
搭建多传感平台,用钥孔的三维形态特征来“机理驱动”地锁定孔隙发生区间,再把该区间的动态形态变化转成可供 CNN 识别的时频(TF)谱图,实现在线孔隙检测与定位。
多传感/多信号分工(论文符号)
| 信号/模态 | 缩写 | 获取方式 | 作用定位 |
|---|---|---|---|
| 钥孔深度 | KD | 相干光测量系统(coherent light measurement) | 用于诊断孔隙发生区域(塌陷→KD突变) |
| 钥孔开口图像 | KO images | 高速相机获取钥孔开口序列 | 提取形态特征序列(不稳定/高频振荡→孔隙) |
| 钥孔开口形态特征 | KO morphological signals | 从 KO 图像处理得到 | 转为 TF 谱图后交给 CNN 分类 |
三、方法论
3.1 总体流程(诊断 + 检测)
| 阶段 | 输入 | 关键处理 | 输出 | 目的 |
|---|---|---|---|---|
| 3.1.1 诊断(找“疑似孔隙区间”) | KD 连续信号 | EEMD 分解与重构 + 阈值判定 | 孔隙候选区间(porosity region) | 利用“塌陷→KD锐减/异常”锁定区间 |
| 3.1.2 特征构造(把动态变成谱图) | KO 图像序列 | 图像预处理→提取 KO 形态特征序列;滑窗扫描;WPT 转 TF 谱图 | TF spectrum graphs(谱图) | 把 1D 形态序列变成 2D“图像特征”供 CNN 识别 |
| 3.1.3 CNN 检测(分类+定位) | TF 谱图序列 | CNN 二分类(孔隙/无孔隙);滑窗回映射到焊缝位置 | 孔隙标签 + 位置 | 在线识别与定位(更偏向“大孔隙”可靠) |
3.2 KD 信号诊断孔隙区间(EEMD)
- 对相干光系统测得的 KD 信号进行 EEMD 处理后重构;
- 发现孔隙往往出现在重构信号超过特定阈值的区间;其物理解释是:钥孔塌陷形成孔隙,会导致 KD 出现“ sharp decrease ” 的突变行为。
(这一部分是整篇“机理分析”的核心:先用 KD 把“可能出孔隙”的位置圈出来,再对该位置的 KO 形态做细粒度检测。)
3.3 KO 图像处理与形态特征序列(KO signals)
对 KO images 的处理目标:尽量抑制飞溅/噪声影响,稳定提取钥孔开口的几何量。论文给出的典型步骤包括:ROI 提取、形态学操作去飞溅、滤波、二值化、保留最大连通域等。
提取的 KO 形态特征在论文中用于构建后续 TF 谱图,代表性几何量包含:
- Area(面积)
- Perimeter(周长)
- Length(长度)
- Width(宽度) (论文将这些作为“钥孔开口形态特征信号”进入滑窗+WPT流程)
3.4 滑动窗口 + WPT 生成 TF 谱图
- 在 KO 形态特征序列上做滑动窗口扫描(论文示例:窗口 size=20、step=20 的设置出现在流程描述中)。 ([ScienceDirect][2])
- 对每个窗口片段做 WPT(Wavelet Packet Transform),生成对应的 TF spectrum graph。
- 观察规律:孔隙对应位置往往呈现“messy TF spectrum graphs”,指示 KO 在该处出现更强的高频不稳定振荡。
3.5 CNN 二分类模型
模型结构(论文给的关键点):深度 6(6 个卷积层),每个卷积层后接池化层,顶部 2 个全连接层 + softmax 二分类。

The architecture of the constructed CNN model
训练设置与环境:
- batch size = 64
- learning rate γ = 0.001
- training iterations = 4000(10 epochs,每个 epoch 400 iterations)
- dropout = 0.5(用于降低过拟合风险)
- 软件硬件:TensorFlow 1.14 / Python 3.7 / RTX 3080Ti(等)
数据增强与划分(Experiment #1)
表 3:增强后两类谱图数量(Experiment #1)
| 状态 | Label | 谱图数量 |
|---|---|---|
| No porosity | 0 | 1976 |
| Porosity | 1 | 848 |
表 4:训练集/测试集划分(Experiment #1)
| 状态 | Label | Total | Train | Test |
|---|---|---|---|---|
| No porosity | 0 | 1976 | 1500 | 476 |
| Porosity | 1 | 848 | 600 | 248 |
(论文解释:对“no porosity”的纯谱图做水平翻转;对“porosity”的 messy 谱图做水平+垂直翻转,以缓解数据偏斜。)
四、结论
4.1 机理层面的对应关系
- KD 经 EEMD 重构后,孔隙倾向出现在重构值超过阈值的区间;原因是钥孔塌陷形成孔隙伴随 KD 的突变下降。
- KO 形态特征序列经滑窗+WPT 后,孔隙发生位置对应 messy TF spectrum graphs,反映 KO 在该处高频剧烈振荡。
- 构建的 CNN 对包含不同 TF 特征的谱图具有较高识别能力,可在线检测孔隙并定位“大尺寸孔隙”的位置。
4.2 模型性能与在线检测效果
- Experiment #1:CNN 在测试集上给出平均分类准确率 96.13%(孔隙/无孔隙二分类)。
- Experiment #2:对整条焊缝扫描并在线检测孔隙:成功检测 33 个孔,整体检测准确率 82.5%;对“孔隙状态(0/1)”分类准确率 95.67%。
- 大孔与小孔差异:以 100 μm 为阈值时,CNN 对“大孔隙”检测更可靠(文中示例:large ≈ 90.32%,small ≈ 55.56%)。
五、创新
- 多传感机理诊断 + 深度学习检测的组合:先用 KD(相干光)把孔隙候选区域圈定,再用 KO 形态 TF 谱图做 CNN 识别,实现“诊断—检测”闭环。
- 将 KO 的 area/perimeter/length/width 等形态序列通过 WPT 转为 TF 谱图,形成一种可迁移的“2D 维度无关特征表示”,增强了方法的可移植性。
- 在线定位:通过滑窗扫描把谱图分类结果回映射到焊缝位置,实现孔隙位置的在线指示(尤其对大孔隙更有效)。
六、缺陷
- 对小孔隙敏感性不足:小孔对应的 TF 特征不够“messy/显著”,导致检测准确率明显低于大孔。
- 阈值/流程依赖较强:KD 的 EEMD 重构与阈值判定决定了候选区间,若阈值随材料/工况漂移,可能带来漏检或误检(需要跨工况校准策略)。
- 多阶段流水线误差累积:KO 图像处理(去飞溅/二值化/连通域)→形态量→WPT→CNN,各环节的噪声会层层放大;对实际工业现场光照、飞溅更强场景,鲁棒性需要额外验证。
9. Optical coherence measurement-based penetration depth monitoring of stainless steel sheets in laser lap welding using long short-term memory network
2026.1.26
激光焊接, 不锈钢板, 穿透深度监测, 光学相干测量, 长短期记忆网络
一、研究问题
激光搭接焊接薄不锈钢板的工业现场对穿透深度的绝对水平与波动稳定性提出严格要求,因此需要可靠的在线监测方法。 已有传感监测通常通过“间接特征→熔深”建立映射,但在噪声干扰下相关性不稳定、误差较大;本文聚焦于:如何利用相干光测得的钥孔深度(KD)信号实现更准确的穿透深度曲线监测。
二、核心思路
提出基于光学相干测量(coherent light / OCM)+ 时序网络的穿透深度监测框架:
- 用相干光束获取焊接过程中的钥孔深度 KD 原始信号。
- 通过经验模态分解(EMD)重建 KD 的低频趋势,发现其与穿透深度曲线存在显著关联,但仍存在“监测误差”。
- 结合互相关分析与数值模拟,解释误差来源(底部熔化层厚度、滞后特性、多次反射)。
- 用 LSTM 记忆 KD 的历史信息,自适应上述误差,从而预测每一时刻的穿透深度。
三、方法论
3.1 实验与测量系统
- 场景:不锈钢薄板激光搭接焊
- 设备与配置(节选):IPG YLS-10000 光纤激光器(1060 nm),IPG 焊接头,聚焦后光斑约 0.5 mm;KUKA 六轴机器人(重复定位精度 ±0.05 mm);监测系统采用 IPG 相干测量系统获取 KD。
3.2 信号处理:KD 重建与误差机理分析
- KD 信号重建:对相干测量得到的 KD 原始序列做 EMD,提取更贴近穿透深度变化的趋势项(重建 KD)。
误差来源(论文给出的机制解释)
- bottom melt layer thickness(底部熔化层厚度)
- hysteresis property(滞后特性)
- multiple reflections(多次反射)
3.3 穿透深度预测模型:LSTM 回归

The typical architecture of LSTM
- 思路:把“重建 KD 序列”作为输入序列,利用 LSTM 的记忆能力预测每一时刻穿透深度(逐点回归)。
| Iterations 迭代次数 | Learning rate 学习率 | Batch size 批量大小 | Dropout 丢弃率 | Optimizer 优化器 | Hidden neurons 隐藏层神经元数 |
|---|---|---|---|---|---|
| 500 | 0.005 | 32 | 0.5 | Adam | 12 |
四、结论
- 论文结论层面:LSTM 预测模型表现出高精度与良好泛化,可实现穿透深度的有效在线监测。
你笔记里记录的“模型对比误差”可用表格固化为:
| 模型 | 误差指标1 | 误差指标2 |
|---|---|---|
| LSTM | 77.31 μm | 23.14 μm |
| RNN | 80.94 μm | 27.16 μm |
| DBN | 83.69 μm | 29.95 μm |
| ANFIS | 88.13 μm | 32.52 μm |
五、创新
- 测量—机理—学习闭环:不仅用 KD 预测熔深,还用互相关 + 数值模拟解释“KD→熔深”误差的物理来源(底部熔化层厚度/滞后/多次反射),把黑盒回归变成“可解释的误差建模问题”。
- 用时序记忆去吸收系统性误差:把“KD 与熔深不一致”视为带滞后与扰动的动态映射,LSTM 通过历史信息对误差进行自适应补偿,而不是仅做静态拟合。
- 面向工业需求的定位明确:强调薄板搭接焊对“熔深水平 + 波动稳定性”的要求,直接对准在线监测落地场景。
六、缺陷
- 模型侧创新有限:网络结构以基础 LSTM 为主,更多贡献在“信号重建 + 误差机理解释 + 时序补偿”的系统方案;若写进综述/论文现状,建议明确它是“监测链路设计”贡献,而非“新网络结构”。
- 泛化边界可能较窄:材料(不锈钢)、工况(搭接/薄板)与具体相干测量系统的耦合较强;迁移到铝/镀锌钢/深熔模式时,多次反射与等离子体/蒸汽影响可能改变误差机理,需要再验证。
10. Real-time porosity monitoring during laser welding of aluminum alloys based on keyhole 3D morphology characteristics
2026.1.26
铝合金,激光焊接,孔隙率监测,多传感信号,钥匙孔三维形态特征,滑动窗口扫描,EEMD,PCA,反馈-遗传算法优化 ANN
一、研究问题
孔隙(尤其是钥匙孔诱发孔隙 keyhole-induced pores)及其孔隙率在工业现场仍严重依赖焊后离线检测;而在线监测内部缺陷更难。文中指出:基于光谱(SE)的方法更适合监测“冶金孔”(如低沸点元素相关孔隙),但对钥匙孔诱发孔隙不适用,且等离子体/金属蒸汽的剧烈周期性会干扰 SE。
因此,本文目标是:在铝合金激光焊接中,建立一种可在线预测当前焊接位置局部孔隙率(local porosity)的实时方法。
二、核心思路
搭建 CVM(计算机视觉测量)+ OCT(光学相干技术) 的多传感平台,用“钥匙孔开口(外部)+ 钥匙孔深度(内部)”联合表征钥匙孔三维形态;再用滑动窗口量化钥匙孔波动程度(每窗求 STD),构造“钥匙孔三维形态 STD 特征”。
在建模上,采用 反馈机制 + GA(遗传算法)优化的 ANN(Feedback-GA-ANN),考虑焊接热历史带来的时序/滞后影响,实现局部孔隙率的在线跟踪与预测。
三、方法论
3.1 实验与数据来源
| 项目 | 内容 |
|---|---|
| 焊接装备 | 光纤激光器 IPG YLS-30000(最大功率 30 kW,波长 1070 nm),光斑直径 0.5 mm |
| 材料 | Al 6061(8 mm、10 mm)与 Al 7075(10 mm) |
| 传感平台 | CVM 获取钥匙孔开口图像 + OCT 测量钥匙孔深度(用于形成“3D 形态特征”) |
| 监测目标 | 焊缝沿程的局部孔隙率在线预测 |
3.2 关键特征构造:滑动窗口 + STD(波动量化)
| 步骤 | 输入 | 操作 | 输出 |
|---|---|---|---|
| 1 | 多传感得到的钥匙孔 3D 形态序列 | 沿焊接方向做滑动窗口扫描 | 窗序列 |
| 2 | 每个窗口内的形态数据 | 计算 STD(标准差) | 3D 形态 STD 特征 |
直觉对应:钥匙孔诱发孔隙与“钥匙孔剧烈不稳定波动”相关,STD 用来把这种不稳定程度量化。
3.3 局部特征提取与降维:EEMD + PCA
| 模块 | 目的 | 方法 |
|---|---|---|
| EEMD | 从时序/波动信号中提取与“局部孔隙”对应的局部特征 | EEMD(集合经验模态分解),常用于时频分析 |
| PCA | 压缩特征维度、提取主成分 | PCA 主成分特征作为模型输入之一 |
3.4 预测模型:Feedback-GA-ANN(考虑热历史的反馈 ANN + GA 优化)
| 组件 | 作用 | 说明 |
|---|---|---|
| 反馈机制(Feedback) | 让模型显式利用焊接热历史(滞后/记忆效应) | 区别于“一次前向”的传统 ANN |
| GA 优化 | 自动优化 ANN 参数 | 采用经典遗传算法搜索最优参数组合 |
| 在线应用方式 | 先离线建模,再在线逐点预测 | “离线学到 3D-STD 特征→孔隙率映射”,在线根据当前特征输出局部孔隙率 |
四、结论
- 构建了基于 CVM+OCT 的钥匙孔三维形态特征监测框架,相比仅用 2D 形态更丰富。
- 提出了基于滑动窗口 STD的钥匙孔实时波动量化,并将其与局部孔隙率建立映射。
- 通过 Feedback-GA-ANN 实现焊缝沿程的局部孔隙率在线跟踪与预测(文中示例提到用实验 #1 的末 200 个局部孔隙率点作为测试片段进行预测展示)。
五、创新
- 传感层面:将成熟 CVM 与新兴 OCT 结合,实现钥匙孔外形开口 + 内部深度的 3D 形态特征测量,用于孔隙率监测。
- 特征层面:提出“滑动窗口扫描 + STD”的实时波动量化范式,把钥匙孔不稳定性转为可学习特征。
- 建模层面:在 ANN 中引入“反馈机制”显式编码热历史,再用 GA 做参数优化,形成可落地的在线预测链路。
- 机理联系:强调并揭示“孔隙率 ↔ 钥匙孔 3D 形态波动”的对应关系,使模型更接近过程机理而非纯黑箱。
六、缺陷
- 硬件门槛与工程复杂度高:方法依赖 CVM+OCT 的同步测量与标定;一旦现场有强弧光、飞溅、烟尘、反射率变化,OCT/视觉信号质量可能显著波动,系统维护成本较高。
- 反馈 ANN 的时序表达能力有限:反馈机制用于热历史是亮点,但与 LSTM/TCN/Transformer 等端到端时序模型相比,表达上限可能受限(尤其在工况跨度更大时)。
11. Intelligent detection method for aluminum alloy TIG welding quality by fusing multimodal data features
2026.1.27
TIG, 焊接, 多模态数据融合, 深度学习, 质量监测
一、研究问题
铝合金 TIG 焊接过程中存在多源扰动(工况波动、环境干扰、操作变化等),会引发细微但关键的质量变化;仅依赖单一传感器/单一模态的传统在线方法难以捕捉这类变化,也难以建立更准确的隐含关联来融合异构数据。
二、核心思路
提出 Resnet-Transformer 模型(RTM) 做多模态特征级融合:
- 模态:焊接熔池图像 + 焊接电流 + 焊接速度
- 任务:识别 TIG 焊接的 6 种焊接状态
- 融合:采用 MFB(Multi-modal Factorized Bilinear) 融合图像与时间序列特征
- 配套:设计“熔池图像自动分割/裁剪/增强”算法,去除钨电极等冗余特征,提高输入质量与模型鲁棒性(文中报告准确率提升 8.6%)
三、方法论
3.1 整体流程
| 阶段 | 输入 | 关键处理 | 输出 | 目的 |
|---|---|---|---|---|
| 3.1.1 数据输入 | 熔池图像;电流序列;速度序列 | 图像尺寸 224×224;时序长度 1280(电流/速度) | 两路输入张量 | 形成“图像 + 时序”双塔输入 |
| 3.1.2 图像增强 | 原始熔池图像 | 自动分割/裁剪 + 增强(去冗余、提边缘与细节) | Enhanced pool images | 减少钨电极干扰、提高学习效率 |
| 3.1.3 特征提取 | 图像;时序 | 图像塔:RAT(ResNet50-Attention);时序塔:Transformer 编码器 | 图像特征、时序特征 | 分别提取空间与时间表征 |
| 3.1.4 特征融合 | 两路特征 | MFB 融合(降维→扩展→逐元素乘→池化→归一化) | 融合特征 | 建立跨模态隐含关联 |
| 3.1.5 分类 | 融合特征 | 分类头(CrossEntropy) | 6 类焊接状态 | 完成质量状态识别 |
3.2 图像增强处理(自动分割/裁剪/增强)
“可复现步骤表”:
| 步骤 | 操作要点 | 目的 |
|---|---|---|
| 1 | 二值化获取钨电极轮廓,取轮廓点 y 最大值 (y{max}),裁掉 (y{max}) 以下区域,仅保留熔池区域 | 去除电极冗余与干扰 |
| 2 | Sobel 计算梯度幅值与方向 | 强化边缘/细节 |
| 3 | 双阈值(强/弱边缘)+ 边缘连接(弱边缘需与强边缘连通) | 获得更完整边缘 |
| 4 | 获取熔池轮廓的 x/y 极值,确定裁剪范围 | 聚焦熔池区域 |
| 5 | 直方图均衡化 + 以 Sobel 为核的 2D 卷积滤波 | 增强对比度与细节、稳定纹理表征 |
论文动机:钨电极在不同图像中轮廓与灰度高度一致,属于冗余特征;其灰度又与熔池差异显著,会干扰图像优化与模型学习。
3.3 RTM(Resnet-Transformer)与 MFB 融合
- 双塔/双分支特征级融合:一塔处理图像,一塔处理时序(电流+速度)。
图像特征提取:RAT(Resnet50-Attention)
- 用 Transformer 的多头自注意力思想改造 ResNet50:在 E 层残差块中用注意力机制替换部分 3×3 卷积(论文表述为对 ResNet50 的 attention 改进)。
融合:MFB(Multi-modal Factorized Bilinear)
- 两路特征先全连接降维,再扩展维度;
- 逐元素相乘;dropout;求和池化;
- 幂归一化 + L2 归一化;得到融合表征用于分类。

3.4 训练设置
| 参数 | 值 |
|---|---|
| Number of training iterations(训练迭代次数) | 300 |
| Optimization algorithm(优化算法) | Adam |
| Learning rate(学习率) | 1e-6 |
| Batch size(批量大小) | 32 |
| Loss function(损失函数) | CrossEntropyLoss |
四、结论
- RTM 完成 6 类焊接状态分类,整体准确率 98.94%。
- 文中强调:相较仅基于图像的 RAT,RTM(多模态融合)在案例中有明显提升(摘要中给出“相对 RAT 提升 16.13%”的描述)。
你整理的分类指标可直接用 Markdown 表固化:
表:RTM 的分类指标(Precision / Recall / F1)
| 类别 | Precision | Recall | F1 |
|---|---|---|---|
| Good welding(良好) | 0.985 | 0.950 | 0.987 |
| Burn through(烧穿) | 1.000 | 0.995 | 1.000 |
| Contamination(污染) | 0.956 | 0.994 | 0.985 |
| Lack fusion(缺乏熔合) | 1.000 | 1.000 | 0.997 |
| Misalignment(错位) | 0.975 | 0.980 | 0.975 |
| Lack penetration(缺乏穿透) | 0.989 | 0.990 | 0.994 |
表:RTM vs HYC 的分类指标对比
| 类别 | Precision RTM | Precision HYC | Recall RTM | Recall HYC | F1 RTM | F1 HYC |
|---|---|---|---|---|---|---|
| Good welding(良好) | 1.000 | 0.931 | 0.975 | 0.875 | 0.987 | 0.902 |
| Burn through(烧穿) | 0.976 | 0.979 | 1.000 | 0.950 | 1.000 | 0.964 |
| Contamination(污染) | 0.976 | 0.930 | 1.000 | 0.925 | 0.988 | 0.927 |
| Lack fusion(缺乏熔合) | 1.000 | 0.985 | 0.995 | 0.995 | 0.997 | 0.993 |
| Misalignment(错位) | 0.985 | 0.899 | 0.985 | 0.930 | 0.985 | 0.914 |
| Lack penetration(缺乏穿透) | 0.995 | 0.923 | 1.000 | 0.965 | 0.998 | 0.944 |
五、创新
- 多模态特征级融合落地到 TIG 质量监测:融合熔池图像 + 电流 + 速度,以 MFB 建立异构数据的隐含关联,提升状态识别性能。
- Resnet + Transformer 编码器的组合式建模:利用 ResNet 的局部表征能力与 Transformer 的全局建模能力,在图像与时序两路分别提特征后再融合。
- 熔池图像自动分割/裁剪增强:去除钨电极等冗余特征,提升数据质量与泛化鲁棒性;论文报告该预处理带来 8.6% 的准确率增益。
六、缺陷(建议写进笔记的“可批判点”)
- 融合可解释性不足:MFB 能提升性能,但“哪一模态在何种缺陷起主导作用、为何提升”若缺少可解释分析(如 Grad-CAM / SHAP / 注意力可视化),很难直接指导传感器布局与工艺诊断。
12. Cross-attention-based multi-sensing signals fusion for penetration state monitoring during laser welding of aluminum alloy
2026.1.27
穿透状态监测,激光焊接,交叉注意力,多传感信号融合,深度学习
一、研究问题
随着产品与工艺复杂度提升,单一传感器难以全面表征激光焊接过程中的穿透状态波动,亟需更精确的多传感监测策略。 现有多传感方案常依赖手工预处理或时频分析,且不同传感器特征往往“各做各的”,导致跨模态高层信息未能联合利用,从而影响鲁棒性与精度。
二、核心思路
采用光电传感器(photodiode)与声学传感器(microphone)同步采集铝合金激光焊接过程的一维时间序列信号;依据焊缝顶部与背面形貌将数据划分为 3 类穿透状态。 提出交叉注意力融合网络 CAFNet,直接在原始时域信号上交互式融合光电与声学信息,实现穿透状态分类,避免事先进行时频分析与特征工程。
三、方法论
3.1 数据与任务定义
| 项目 | 内容 |
|---|---|
| 传感器 | photodiode + microphone(光电 + 声学) |
| 数据形式 | 两路原始一维时间序列(时域信号) |
| 标签 | 按顶部/背面形貌划分为 3 类穿透状态 |
| 核心目标 | 穿透状态分类(无需时频图/手工特征) |
3.2 CAFNet 总体结构
CAFNet 由“两分支 1D-CNN + 交叉注意力(CA)块”组成:两路信号分别提取特征,再通过 CA 模块实现跨模态交互融合。

Network architecture of the proposed CAFNet
3.3 1D-CNN 分支(两路同构)
每个 1D-CNN 分支包含 4 个 Conv 块;每个 Conv 块由以下层组成:
| 模块 | 结构 |
|---|---|
| Conv block(×4) | Conv(3×1, L filters) → BN → LReLU(negative slope=0.001) → MaxPool(2×1) |
其中 BN 用于缓解内部协变量偏移并加速收敛;LReLU 用于激活归一化后的特征图。
3.4 交叉注意力(CA)融合
核心贡献是把 Transformer 的注意力思想用于“光电-声学”两路时域特征的交互式提取与融合;论文在 Highlights 中强调其为“modified self-attention mechanism”以实现 photoacoustic 特征的交互提取。 同时强调模型可直接处理原始时域信号、在不平衡/小样本训练比率下表现更稳健。
四、结论
论文在摘要中给出两条关键结论:
- 完整数据设置下,CAFNet 达到 mean testing accuracy = 99.73%、std = 0.37%,优于对比 DL 方法。
- 在“有限且不平衡数据”条件下,CAFNet 达到最高 average testing accuracy = 94.34%,体现更强鲁棒性。
| 方法 | 10% | 20% | 30% | 40% | 50% | Average(Mean %) |
|---|---|---|---|---|---|---|
| 1D-CNN-A | 67.45 ± 1.04 | 71.55 ± 1.68 | 74.28 ± 0.72 | 77.54 ± 0.93 | 79.09 ± 1.37 | 73.98 |
| 1D-CNN-P | 66.96 ± 1.74 | 70.92 ± 1.10 | 74.10 ± 1.06 | 76.31 ± 1.17 | 77.76 ± 1.77 | 73.21 |
| ResCNN-A | 79.67 ± 5.97 | 88.39 ± 1.90 | 91.50 ± 1.31 | 94.58 ± 1.24 | 95.05 ± 1.17 | 89.84 |
| ResCNN-P | 46.27 ± 5.70 | 58.05 ± 7.23 | 68.45 ± 8.09 | 80.80 ± 2.90 | 86.71 ± 1.55 | 68.06 |
| 1D-CNN-AP | 78.77 ± 1.12 | 84.28 ± 0.64 | 87.74 ± 1.48 | 89.62 ± 1.41 | 90.27 ± 1.70 | 86.14 |
| ResCNN-AP | 76.62 ± 3.19 | 83.52 ± 2.48 | 88.88 ± 1.86 | 93.73 ± 1.15 | 94.47 ± 1.40 | 87.44 |
| CAFNet | 86.70 ± 0.46 | 91.67 ± 0.57 | 96.89 ± 0.41 | 97.94 ± 0.36 | 98.49 ± 0.39 | 94.34 |
五、创新
- 交叉注意力用于多传感时域信号融合:用 CA 在特征层进行跨模态交互式提取 photoacoustic 信息,而不是简单拼接/相加。
- 无需时频分析与手工特征:直接对原始时域信号建模,降低特征工程依赖与系统复杂度,更贴近在线监测落地。
- 小样本/不平衡鲁棒性:在训练数据比例受限时仍保持较高平均准确率(表中 CAFNet 的 Average=94.34%,并被论文摘要强调为“stronger robustness”)。
六、缺陷
- 可解释性仍偏弱:提出了交叉注意力,但若缺少“注意力权重/重要时间片段/跨模态贡献”的可视化与定量解释,难以直接指导传感器布置与闭环控制策略(尤其是工业端更关心“为什么判成 LP/PP/FP”)。
- 对同步与采样稳定性的依赖:跨模态注意力本质依赖两路信号的时间对齐质量;现场采样时钟漂移、传感器安装位置变化、噪声源变化可能导致分布漂移,需额外的对齐/校准策略才能稳健部署。