大型语言模型内容检测算法和绕过机制研究

TP181; 近年来,大型语言模型(large language model,LLM)技术兴起,类似ChatGPT这样的AI机器人,虽然其内部设置了大量的安全对抗机制,攻击者依然可以精心设计问答,绕过这些AI机器人的安全机制,在其帮助下自动化生产钓鱼邮件,进行网络攻击.这种情形下,如何鉴别AI生成的文本也成为一个热门的问题.为了开展LLM生成内容检测实验,从互联网某社交平台和ChatGPT收集了一定数量的问答数据样本,依据AI文本可获得条件的不同,研究提出了一系列检测策略,包含基于在线可获取AI对照样本的文本相似度分析、基于离线条件下使用统计差异性的文本数据挖掘分析、基于无法获得AI样本条件下...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:信息安全研究 2023, Vol.9 (6), p.524-532
Hauptverfasser: 叶露晨, 范渊, 王欣, 阮文波
Format: Artikel
Sprache:chi
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:TP181; 近年来,大型语言模型(large language model,LLM)技术兴起,类似ChatGPT这样的AI机器人,虽然其内部设置了大量的安全对抗机制,攻击者依然可以精心设计问答,绕过这些AI机器人的安全机制,在其帮助下自动化生产钓鱼邮件,进行网络攻击.这种情形下,如何鉴别AI生成的文本也成为一个热门的问题.为了开展LLM生成内容检测实验,从互联网某社交平台和ChatGPT收集了一定数量的问答数据样本,依据AI文本可获得条件的不同,研究提出了一系列检测策略,包含基于在线可获取AI对照样本的文本相似度分析、基于离线条件下使用统计差异性的文本数据挖掘分析、基于无法获得AI样本条件下的LLM生成方式对抗分析以及基于通过微调目标LLM模型本身构建分类器的AI模型分析,计算并比较了每种情况下分析引擎的检测能力.另一方面,从网络攻防的角度,针对检测策略的特点,给出了一些对抗AI文本检测引擎的免杀技巧.
ISSN:2096-1057
DOI:10.12379/j.issn.2096-1057.2023.06.04