论文分享 | SSLExtraction:兼具查询优化与水印移除的自监督特征分散查询的水印模型窃取攻击

发布者:杨奕彤发布时间:2025-12-19浏览次数:10

图片

随着深度神经网络在各类任务中广泛部署,黑盒水印成为保护模型知识产权的关键手段。然而,现有模型提取攻击不仅需要大量查询才能逼近原模型性能,而且往往无法清除水印,从而仍会触发所有权验证。在本研究中,我们提出了一种全新的自监督驱动模型提取框架——SSLExtraction。我们首先利用自监督学习获取输入的语义特征表示,并在此基础上将查询选择建模为特征空间中的最大分散优化问题。通过设计贪心加高维随机游走的算法,我们构建出覆盖全面且冗余最小的查询集合,使水印触发样本在特征空间中自然显现为离群点,从而在提取过程中被有效规避。实验表明(见表1、图2),SSLExtraction 在仅使用极少查询的情况下即可逼近原模型精度,并显著降低水印成功率,在各种水印方案和预算条件下均取得当前最优的水印移除与提取效率表现。

图1  SSLExtraction算法流程

图片

表1  SSLExtraction 在不同水印方案下准确度和水印准确度结果

图2  SSLExtraction 在不同询问次数下准确度和水印准确度结果

论文信息

相关论文已被Network and Distributed System Security Symposium (NDSS 2026) 录用。作者系复旦大学大数据研究院内生安全实验室的栾昊、谭学,山东大学李智亨,伍斯特理工戴军(通讯作者)、孙晓燕(通讯作者),复旦大学陈平(通讯作者)

Hao Luan, Xue Tan, Zhiheng Li, Jun Dai, Xiaoyan Sun and Ping Chen. Dataset Reduction and Watermark Removal via Self-supervised Learning for Model Extraction Attack. Network and Distributed System Security Symposium (NDSS-2026)