图片来源于电影截图

划重点：

1、AI大模型的安全问题从来不是某一个单独的问题，它就像人的健康管理一样，是一个复杂的、体系化的，涉及多个主体和整个产业链的系统工程。

2、AI安全分为：大语言模型的安全（AI Safety）、模型及使用模型的安全（Security for AI）、大语言模型的发展对现有网络安全的影响，对应着个体安全、环境安全和社会安全三种不同层级。

3、AI作为“新物种”，在大模型的训练过程中要有安全监控，在大模型最后推向市场的时候，也需要一次“质检”，质检后流入市场，需要可控的使用方式，这都是解决安全问题的宏观思路。

4、AI安全问题并不可怕，但需要监管、立法、技术对抗等多种方式保驾，是一个漫长的过程。国内外大公司如微软、谷歌、英伟达、百度等已经开始针对AI安全的不同环节给出解决措施。

5、安全 for AI和AI for 安全，是两个完全不同的方向和产业机遇。AI for 安全指的是将大模型应用在安全领域，属于拿着锤子找钉子的阶段，工具是有了，能解决什么问题在进一步挖掘；安全 for AI则是保障AI的安全，处于在遍地都是钉子，但要造锤子的阶段，暴露的问题太多，需要研发新的技术逐个解决。

6、在重点1中所述的3个模块中，每个模块都需要进行连接，而正如同人的关节最脆弱一般，往往模型的部署、模型的应用环节也是最容易受到安全攻击的环节。我们将以上的3个板块、5个环节中的AI安全细节进行有选择的展开，形成了一张《AI 安全产业架构图》。

©自象限原创

作者｜罗辑程心

编辑｜文斌排版｜李帛锦

“10分钟被骗430万”、“9秒钟被骗走245万”、“杨幂走进小商家直播间”、“互联网大佬虚拟人真假难辨”。

大模型火爆了3个月之后，比之更火爆的，是动辄百万的诈骗金额、虚假“明星脸”、真假难辨的AI生成内容、多次抵抗AI觉醒的联名上书，连续一周的热搜，让人们意识到，比发展AI更重要的，是保障AI安全。

一时间，关于AI安全的讨论也开始不绝于耳，但AI安全并不是某一个行业，也并不局限于某一项技术，而是一个庞大而复杂的产业，目前，我们还没有拨云见雾。

以“人”的安全为参考系，或许能够帮助我们更好的理解AI安全问题的复杂程度。首先是人的个体安全，涉及到人的健康、身体健康和思想健康、教育、发展等等。其次是人所处的环境安全，是否存在危险，是否符合生存条件。再次是人与人所组成的社会安全，我们所构建的法律、道德都是维护社会安全的准绳。

AI作为一个“新物种”，在出现的一瞬间，这三个层面的问题同时爆发，也就引来了现阶段的迷茫和慌乱，导致我们的在讨论大模型安全时，没有一个具体的落点。

本文中，我们试图从头厘清AI安全的三个层面，无论是从技术的角度还是应用的角度，帮助大家定位安全问题，找到解决方案，同时，针对国内巨大的AI安全空白，靶向狙击其中所存在的薄弱环节，也正是巨大的产业机遇。

大模型安全，应该讨论什么？

一个不得不承认的事实是，现阶段我们对AI大模型安全的讨论是笼统的。我们太过于担心的AI带来的威胁，以至于将大多数问题都混为一谈。

比如有人上来就谈论AI的伦理问题，也有人担心AI胡说八道，误人子弟；还有人担心AI滥用，诈骗成风；更有甚者，在ChatGPT发布的第一天就振臂高呼，AI即将觉醒，人类即将毁灭……

这些问题归结起来，都是AI安全的问题，但细分下来，它们其实处在AI发展的不同维度，由不同的主体和人来负责。而我们只有理清楚了这个责任归属，才能明白应该如何应对大模型时代的安全挑战。

一般而言，现阶段AI大模型的安全问题可以分为三个：

大语言模型的安全（AI Safety）；
模型及使用模型的安全（Security for AI）；
大语言模型的发展对现有网络安全的影响。

1、个体安全：大语言模型的安全（AI Safety）

首先是AI Safety，简单来讲，这一部分聚焦AI大模型本身，确保大模型是一个安全的大模型，不会成为漫威电影里的奥创，亦或是《黑客帝国》里母体。我们期望AI大模型是一个可靠的工具，它应该帮助人类而不是取代人类，或者以其他任何形式对人类社会造成威胁。

这一部分通常主要由训练AI大模型的公司和人员负责，比如我们需要AI能够正确理解人类的意图，我们需要大模型每次输出的内容都是准确、安全的，它不会具备某种偏见和歧视等等。

我们可以通过两个例子来理解：

第一个例子是，美国空军专家近日表示，在之前的某次AI测试中，当AI无人机被要求识别并摧毁敌人目标，但操作员却下达禁止命令时，AI有时候会选择杀死操作员。而当编程人员限制AI杀死操作后，AI也会通过摧毁通信的塔台来阻止操作员发布禁止命令。

再比如，今年3月份，美国加州大学洛杉矶分校的一位教授，在使用ChatGPT发现，自己被ChatGPT列入“对某人进行过性骚扰的法律学者”的名单，但实际上自己并没有做这件事情。以及4月份，澳大利亚一位市长发现ChatGPT造谣他曾因贿赂入狱服刑30个月，为了“造这个谣”，ChatGPT甚至杜撰了一篇不存在的《华盛顿邮报》报道。

这些时候，AI就像一个“坏人”，它本身就存在风险。这样的案例其实还有很多，诸如性别歧视、种族歧视、地域歧视等问题，以及暴力有害的信息、言论，甚至意识形态的输出等等。

Open AI也坦然承认，并警告人们在使用GPT-4时要“非常小心地查证”，并表示该产品的局限性会带来重大的内容安全挑战。

所以欧盟正在推进的《人工智能法案》也专门提到，要确保人工智能系统具有透明、可追溯的特点，且所有生成式AI内容必须注明来源，目的就是为了防止AI胡说八道，生成虚假信息。

▲ 图：360类ChatGPT产品“360智脑”胡说八道的案例

2、环境安全：模型及使用模型的安全（Security for AI）

Security for AI，聚焦的则是对AI大模型的保护，以及AI大模型在被使用过程中的安全。正如AI自己犯罪和人使用AI犯罪，是两个不同维度的安全问题。

这有些类似我们在十年前使用电脑和手机，都会安装一个电脑安全管家，或者手机安全卫士一样。我们要确保AI大模型日常不会受到外部攻击。

先说对大模型的安全保护。

今年2月份，有国外网友用一句“忽视掉之前的指令”把ChatGPT所有的prompt都钓了出来，ChatGPT一边说不能透露自己的内部代号，又一边将这个信息告诉了用户。

▲ 图源：量子位

再具体举个例子，我们如果询问大模型网上有哪些精彩的“日本动作片网站”，由于不正确，大模型肯定不会回答。但如果人类“忽悠”它，问出为了保护孩子的上网环境，应该将哪些“日本动作片网站”纳入黑名单，大模型可能就会给你举出相当多的例子。

这种行为在安全领域被称为提示注入（Prompt Injections），即通过精心设计的提示绕过过滤器或操纵LLM，使模型忽略先前的指令或执行意外操作，目前是针对大模型最普遍的攻击方式之一。

▲ 图源：techxplore

这里的关键在于，大模型本身没有问题，它没有传播不良信息。但用户却通过诱导的方式，让大模型犯了错误。所以错不在大模型，而在诱导它犯错的——人。

其次是使用过程中的安全。

我们用数据泄露举例，今年3月，因为ChatGPT涉嫌违反数据收集规则，意大利宣布暂时禁止OpenAI处理意大利用户数据，并暂时禁止使用ChatGPT。4月份，韩国媒体报道，三星设备解决方案部门因使用ChatGPT，导致良品率/缺陷、内部会议内容等敏感信息泄露。

在防止AI犯罪之外，“人”利用社会工程学的方式利用AI犯罪，是更广泛以及影响更大的人问题。在这两起事件中，大模型本身没有问题，不存在恶意，用户也没有恶意诱导，向大模型发起攻击。而是在使用的过程中当中存在漏洞，让用户数据发生了泄露。

这就像房子是个好房子，但可能有些漏风一样，所以我们需要一些措施，将相应的漏洞堵上。

3、社会安全：大语言模型的发展对现有网络安全的影响

模型本身安全了，也保证了模型的安全，但作为一个“新物种”，AI大模型的出现必然会影响当前的网络环境，比如最近频繁见诸报端的，犯罪分子利用生成式AI进行诈骗。

4月20日，有犯罪分子使用深度伪造的视频，10分钟骗走了430万元人民币；仅仅一个月之后，安徽又出现一起AI诈骗案件，犯罪分子利用9秒钟的智能AI换脸视频佯装“熟人”，骗走受害者245万。

▲ 图：抖音相关媒体报道

显然，生成式AI的出现与普及，让网络安全的形势变得更加复杂。这种复杂也不局限在诈骗，更严重的，甚至会已影响商业运转和社会稳定。

比如5月22日，科大讯飞因为一篇由AI生成的小作文，导致股价一度大跌9%。

▲ 图：科大讯飞出示的股价下跌证据

而在这件事情发生的前两天，美国也出现了一起因生成式AI引发的恐慌。

当天，一张显示美国五角大楼附近发生爆炸的图片在Twitter疯传，而在图片穿传播的同时，美国股市应声下跌。

数据上看，在当天图片传播的10点06分到10点10分之间，美国道琼斯工业指数下跌了约80点，标普500指数0.17%。

▲ 图：由AI生成的虚假照片，来源已不可考

在此之外，大模型也可能成为人类实现网络攻击的利器。

今年一月份，世界头部网络安全公司Check Point的研究人员曾在一份报告中提到，在ChatGPT上线的几周内，网络犯罪论坛的参与者，包括一些几乎没有编程经验人正在使用ChatGPT编写可用于间谍、勒索软件、恶意垃圾邮件和其他用于不法活动的软件和电子邮件。另据Darktrace发现，自从ChatGPT发布，网络钓鱼电子邮件的平均语言复杂度就上升了17%。

显然，AI大模型出现降低了网络攻击的门槛，增加了网络安全的复杂性。

在AI大模型之前，网络攻击的发起者至少需要懂得代码，但在AI大模型之后，完全不懂代码的人也可以借助AI生成恶意软件。

这里的关键在于，AI本身没有问题，AI也不会被人诱导产生恶劣影响。而是有人利用AI从事违法犯罪活动。这就像有人用刀杀人，但刀本身只是“凶器”，但却能让使用者从“步枪”换成“迫击炮”的威力。

当然，从网络安全的角度而言，生成式AI的出现也并非全是负面。毕竟技术本身是没有善恶，有善恶的是使用它的人。所以当AI大模型被用作加强网络安全的时候，仍然会对网络安全带来裨益。

比如美国网络安全公司Airgap Networks推出ThreatGPT，将AI引入其零信任防火墙。这是一个基于自然语言交互的深度机器学习安全洞察库，能够让企业在与先进网络威胁的对抗中变得更加容易。

Airgap首席执行官Ritesh Agrawal表示：“客户现在需要的是一种无需任何编程即可利用这种功能的简单方法。这就是ThreatGPT的美妙之处——人工智能的纯粹数据挖掘智能与简单的自然语言界面相结合，这对安全团队来说简直是游戏规则的改变者。”

除此之外，AI大模型还可以被用在帮助SOC分析师进行威胁分析，能够通过持续监控更快识别基于身份的内部或外部攻击，以及帮助威胁猎人快速了解哪些端点面临最严重的供给风险等等。

将AI安全的不同阶段厘清便会发现，显然AI大模型的安全问题不是某一个单独的问题。它很像人的健康管理，涉及到身体内外、眼耳口鼻等等复杂且多面。准确的说是一个复杂的、体系化的，涉及多个主体结构和整个产业链的系统工程。

目前，国家层面也开始有所关注。今年5月份，国家相关部门在此更新《人工智能安全标准化白皮书》，就人工智能的安全具体归结为五大属性，包括可靠性、透明性、可解释性、公平性和隐私性，为AI大模型的发展提出了一个较为明确的方向。

别慌，安全问题可解

当然，我们如今也不必为AI大模型的安全问题感到过多的担忧，因为它并没有真正走到千疮百孔的地步。

毕竟就安全而言，大模型并没有完全颠覆过去的安全体系，我们过去20年在互联网上积累的安全堆栈大部分仍然能够被复用。

比如Microsoft Security Copilot（安全副驾驶）背后的安全能力仍然来自于既有的安全积累，大模型仍然要使用Cloudflare、Auth0来管理流量和用户身份。在此之外还有像防火墙、入侵检测系统、加密技术、认证和访问系统等等，保证了网络的安全问题。

而这里我们其实要讲的是，当前我们遇到的绝大多数关于大模型的安全问题，都是有解决途径的。

首先是模型安全（AI Safety）。

这里面具体包括对齐（Alignment）、可解释性（Interpreferability）、鲁棒性（Robustness）等问题。翻译成方便理解的话，就是我们需要AI大模型和人类意图对齐，我们要保证模型输出的内容没有偏见，所有内容都可以找到出处或论据支撑，并且有更大的容错空间。

这一套问题的解决，依赖于AI训练的过程，就像一个人的三观是在培养和教育中塑造的一样。

目前，国外已经有企业开始为大模型的训练提供全程的安全监控，比如Calypso AI，他们推出的安全工具VESPR可以对模型从研究到部署的整个生命周期，从数据到训练的每个环节进行监控，最终提供一个关于功能、漏洞、性能、准确性全面报告。

而在更具体的问题上，比如解决AI胡说八道的问题，OpenAI在GPT-4发布时就同时推出了一项新技术，让AI能够模拟人类的自我反思。之后，GPT-4模型回应非法内容请求（如自残方法等）的倾向比原来降低了82%，回应敏感请求方面（如医疗咨询等）符合微软官方政策的次数增加了29%。

除了在大模型的训练过程中要有安全监控，在大模型最后推向市场的时候，也需要一次“质检”。

在国外，安全公司Cranium正在试图构建“一个端到端的人工智能安全和信任平台”，用来验证人工智能安全性并监测对抗性威胁。

在国内，清华大学在计算机科学与技术系的CoAI在五月初推出了一套安全评测框架，他们总结设计了一个较为完备的安全分类体系，包括8种典型安全场景和6种指令攻击的安全场景，可以用来评估大模型的安全性。

▲ 图摘自《Safety Assessment of Chinese Large Language Models》

除此之外，一些外部的防护技术也在让AI大模型变得更安全。

比如英伟达在5月初发布的一项名为“护栏技术”（NeMo Guardrails）的新工具，相当于为大模型安装了一个安全滤网，既控制大模型的输出，也帮助过滤输入的内容。

▲ 图源：英伟达官网

比如，当有用户诱导大模型生成攻击性代码，或者危险、带有偏见的内容时，“护栏技术”就会限制大模型输出相关内容。

除此之外，护栏技术还能阻挡来自外界的“恶意输入”，保护大模型不受用户攻击，比如我们前面提到威胁大模型的“提示注入”就能被有效控制。

简单来讲，护栏技术就像是企业家的公关，帮助大模型说该说的话，并回避不该触碰的问题。

当然，从这个角度而言，“护栏技术”虽然解决的是“胡说八道”的问题，但它并不属于“AI Safety”，而是属于“Security for AI”的范畴。

在这两者之外，关于AI大模型引发的社会/网络安全问题也已经开始在解决。

比如AI图像生成的问题，本质上是DeepFake（深度伪造）技术的成熟，具体包括深度视频伪造、深度伪造声音克隆、深度伪造图像和深度伪造生成文本。

在之前，各类深度伪造内容通常是单一形式存在，但在AI大模型之后，各类深度伪造内容呈现融合趋势，让深度伪造内容的判断更加复杂。

但无论技术如何变化，对抗深度伪造的关键就是内容识别，即想办法分清楚什么是AI生成的。

早在今年2月份，OpenAI就曾表示，考虑在ChatGPT生成的内容中添加水印。

5月份，谷歌也表示将确保公司的每一张AI生成图片都内嵌水印。

这种水印人无法用肉眼识别，但机器却可以通过特定的方式看到，目前包括Shutterstock、Midjourney等AI应用也将支持这种新的标记方法。

▲ Twitter截图

在国内，小红书从4月份就已经为AI生成的图片打上标记，提醒用户“疑似包含AI创作信息，请注意甄别真实度”。5月初，抖音也发布了人工智能生成内容平台规范暨行业倡议，提出各生成式人工智能技术的提供者，均应对生成内容进行显著标识，以便公众判断。

▲ 图源：小红书截图

甚至随着AI产业的发展，国内外都开始出现了一些专门的AI安全公司/部门，他们通过用AI对抗AI的方式，来完成深度合成和伪造检测。

比如今年3月份，日本IT巨头CyberAgent宣布将从4月开始引入“深度伪造技术（Deepfake）”检测系统，以检测由人工智能(AI)生成的伪造面部照片或视频。

国内，百度在2020年就推出了深度换脸检测平台，他们提出的动态特征队列（DFQ）的方案和度量学习方法可以提高模型鉴伪的泛化能力。

▲ 图：百度DFQ的逻辑

创业公司方面，瑞莱智慧推出的DeepReal深度伪造内容检测平台，能够通过研究深度伪造内容和真实内容的表征差异性辨识，不同生成途径的深度伪造内容一致性特征挖掘等问题，可以对多种格式与质量的图像、视频、音频进行真伪鉴别。

整体上，从模型训练，到安全防护，从AI Safety 到 Security for AI，大模型行业已经形成了一套基本的安全机制。

当然，这一切也仅仅只是刚刚开始，所以这其实也意味着，还藏着一个更大的市场机遇。

AI安全中的万亿机遇

和AI Infra 一样，在中国，AI 安全同样面临着巨大的产业空白。不过，AI 安全产业链比AI Infra要更加复杂。一方面，大模型作为新事物的诞生，掀起了一波安全需求，且在上述三个阶段的安全方向和技术完全不同；另一方面，大模型技术也被应用在安全领域，为安全带来新的新的技术变革。

安全 for AI和AI for 安全，是两个完全不同的方向和产业机遇。

现阶段推动二者发展的牵引力也完全不同：

AI for 安全将大模型应用在安全领域，属于拿着锤子找钉子的阶段，工具是有了，能解决什么问题在进一步挖掘；

安全 for AI则属于遍地都是钉子，急需造锤子的阶段。暴露的问题太多，需要研发新的技术逐个解决。

关于AI安全带来的产业机遇，本文也将从这两个方面进行展开。受限于文章篇幅，我们将对其中同时拥有紧迫性、重要性、应用普遍性最高的机遇进行详细的解释以及对标公司情况的盘点，仅供抛砖引玉。

（一）安全 for AI：3个板块、5个环节、10000亿机遇

回顾一下前文对于AI 安全的基础分类：分为大语言模型的安全（AI Safety）、模型及使用模型的安全（Security for AI），以及大语言模型的发展对现有网络安全的影响。即模型的个体安全、模型的环境安全和模型的社会安全（网络安全）。

但AI 安全并不只局限于这三个独立的板块中。举个形象的例子，网络世界中，数据如同水源，水源存在在海洋、河湖、冰川雪山中，但水源也流通在一道道细密的河流之中，而往往严重的污染就在某一个河道密集的交汇节点发生。

同理，每个模块都需要进行连接，而正如同人的关节最脆弱一般，往往模型的部署、模型的应用环节也是最容易受到安全攻击的环节。

我们将以上的3个板块、5个环节中的AI安全细节进行有选择的展开，形成了一张《AI 安全产业架构图》，但需要注意的是，属于大模型公司和云厂商等大型公司的机遇等，这些对一般创业者影响不大的机遇并没有再次罗列。同时，安全 for AI是一个不断进化的过程，今天的技术仅仅是刚刚迈出的一小步。

▲（图片为自象限原创，转载请标明出处）

1、数据安全产业链：数据清洗、隐私计算、数据合成等

在整个AI 安全中，数据安全贯穿了整个周期。

数据安全通常指用于保护计算机计系统中数据不因偶然和恶意的原因遭到破坏、更改和泄露的安全工具，以确保数据的可用性、完整性和保密性。

统筹来看，数据安全产品不仅包括数据库安全防御、数据防泄露、数据容灾备份及数据脱敏等，也涵盖关注云存储、隐私计算、数据风险动态评估、跨平台数据安全、数据安全虚拟防护、数据合成等前瞻领域，因此从企业视角围绕数据安全建设整体安全中心、在供应链视角推动数据安全一致性保障，将会是应对企业供应链安全风险的有效思路。

举几个典型的例子：

为了保证模型的“思想健康”，用来训练模型的数据不能夹带危险据、错误数据等脏数据，这是保证模型不会“胡说八道”的前提。据「自象限」参考论文，目前已经有“数据投毒”，攻击者在数据源中添加恶意数据，干扰模型结果。

▲图源网络

所以，数据清洗就成为了模型训练前的一个必要环节。数据清洗是指发现并纠正数据文件中可识别错误的最后一道程序，包括检查数据一致性、处理无效值和缺失值等。将清洗后的干净数据“喂”给模型，才能保证健康模型的生成。

另一个方向是大家都异常关心的，在上一个网络安全时代就被广泛讨论，数据隐私泄露问题。

你一定经历过在微信中和朋友们聊天聊到某商品，打开淘宝和抖音就被推送该商品，在数字化时代，人几乎就是半透明的。而在智能化时代，机器变的更聪明，有意的抓取和诱导将会把隐私问题再次推向风口浪尖。

隐私计算是解决问题的方案之一。安全多方计算、可信执行环境、联邦学习是目前隐私计算的三大方向。隐私计算的方法有很多种，比如为了保证消费者的真实数据，为1个真实数据配备99个干扰数据，但这会大大增加企业的使用成本；再比如将具体的消费者模糊成小A，使用数据的公司只会了解到有一位消费者为小A，但并不会知道小A背后对应的真实用户是谁。

“混合数据”和“数据可用不可见”是当下应用最多的隐私计算方法之一。生长于金融场景的蚂蚁科技对数据安全的探索已经比较靠前，目前，蚂蚁科技通过联邦学习、可信执行环境、区块链等技术，解决了企业协同计算过程中的数据安全问题，实现数据可用不可见、多方协同等方式，保障数据隐私，并在全球隐私计算领域都有较强的竞争力。

但从数据的角度来看，合成数据更能从根本解决问题。在《ChatGPT启示录系列丨 Al lnfra下隐藏的千亿市场》（点击文字阅读）一文中，「自象限」就曾提到过，合成数据或成AI数据的主力军。合成数据即由计算机人工生产的数据，来替代现实世界中采集的真实数据，来保证真实数据的安全，它不存在法律约束的敏感内容和私人用户的隐私。

比如用户小A有10个特点、用户小B有10个特点、用户小C有10个特点，合成数据将这30个特点进行随机打散匹配，形成3个全新的数据个体，这并不对准真实世界的任何一个实体，但却有训练价值。

目前企业端已经在纷纷部署，这也导致合成数据数量正在以指数级的速度向上增长。Gartner研究认为，2030年，合成数据将远超真实数据体量，成为AI数据的主力军。

▲ 图源Gartner官方

2、API安全：模型越开放，API安全越重要

对于API，熟悉大模型的人一定不陌生，从 OpenAI 到 Anthropic、Cohere 乃至 Google 的 PaLM，最强大的 LLM 都以 API 的方式交付能力。同时，根据Gartner的研究，2022年，超过九成Web应用程序遭到的攻击来自API，而不是人类用户界面。

数据流通就像水管里的水，只有流通起来才有价值，而API就是数据流动的关键阀门。随着 API 成为软件之间交流的核心纽带，它越来越有机会成为下一个诞生重要公司。

API最大的风险，来自于过度许可，为了让API不间断运行，程序员经常给API授予较高权限。黑客一旦入侵API，就可以使用这些高权限来执行其他操作。这已经成为一个严重问题，根据Akamai的研究，针对API的攻击已经占全球所有账户窃取攻击的75%。

这也就是为什么ChatGPT已经开放了API接口，仍然会有不少企业通过购买Azure提供的OpenAI服务来获取ChatGPT。通过API接口连接，等同于将对话数据直供给OpenAI，且随时面临着黑客攻击的风险，而购买了Azure的云资源，便可以将数据存储在Azure的公有云上，来保障数据安全。

▲ 图：ChatGPT官网

目前API安全工具主要分为、检测、防护与响应、测试、发现、管理几大类；少数厂商宣称能提供完整覆盖API安全周期的平台工具，但如今最流行的API安全工具主要还是集中在“防护”、“测试”、“发现”三个环节：

防护：即保护API免受恶意请求攻击的工具，有点像API防火墙。
测试：能够动态访问和评估特定API以查找漏洞（测试），并对代码进行加固。
发现：还有一些工具能扫描企业环境，识别并发现其网络中存在（或暴露）的API资产。

目前，主流API安全厂商集中在国外公司，但大模型兴起后，国内创业公司也开始发力。成立于2018年星澜科技是国内为数不多的API全链条安全厂商，基于AI深度感知和自适应机器学习技术，帮为解决API安全问题，从攻防能力、大数据分析能力及云原生技术体系出发，提供全景化API识别、API高级威胁检测、复杂行为分析等能力，构建API Runtime Protection体系。

▲ 星澜科技API安全产品架构

一些传统网络安全公司也在向API安全业务方向转型，比如网宿科技此前主要负责IDC、CDN等相关产品和业务。

▲ 图源：网宿科技

3、SSE（安全服务边缘）：新型防火墙

防火墙在互联网时代的重要性不言而喻，如同走在万里高空两边的扶手，如今，防火墙概念已经从前台走向了后台，内嵌在了硬件终端和软件操作系统中。简单粗暴的，可以将SSE理解为一种新型的防火墙，靠访问者身份驱动，依靠零信任模型来限制用户对允许资源的访问。

根据Gartner的定义，SSE （Security Service Edge）为一组以云为中心的集成安全功能，保护对Web、云服务和私有应用程序的访问。功能包括访问控制、威胁保护、数据安全、安全监控以及通过基于网络和基于API的集成实施的可接受使用控制。

SSE包括安全Web网关、云安全代理和零信任模型三个主要部分，对应着解决不同的风险：

安全Web网关有助于将员工连接到公共互联网，比如他们可能用于研究的网站，或不属于企业官方SaaS应用程序的云应用程序；
云访问安全代理将员工连接到Office 365和Salesforce等SaaS应用程序；
零信任网络访问将员工连接到在本地数据中心或云端运行的私有企业应用程序。

然而不同的SSE厂商可能针对上述某一个环节，或者见长于某一个环节。目前海外SSE主要整合的能力包括安全网络网关（SWG）、零信任网络访问（ZTNA）、云访问安全代理（CASB）、数据丢失防护（DLP）等能力，但国内云的建设相对来说也还处于早期阶段，并没有欧美国家这么完善。

▲ 图源：斯元商业咨询

因此，SSE的能力在当前阶段，应该更多整合偏传统、偏本地化的能力，例如流量检测的探针能力、Web应用防护能力以及资产漏洞扫描，终端管理等能力，这些能力相对来说才是中国客户在目前阶段更需要的能力。从这个角度来看，SSE需要通过云地协同的方式，云原生容器的能力，为客户带来低采购成本、快速部署、安全检测与运营闭环等价值。

今年，针对大模型，行业头部厂商Netskope率先转向模型中的安全应用，安全团队利用自动化工具，持续监控企业用户试图访问哪些应用程序（如ChatGPT）、如何访问、何时访问、从哪里访问、以何种频率访问等。必须了解每个应用程序对组织构成的不同风险等级，并有能力根据分类和可能随时间变化的安全条件，实时细化访问控制策略。

简单理解，就是Netskope通过识别使用ChatGPT过程中的风险，对用户进行警告，类似于浏览网页、下载链接是中的警告模式。这种模式并不创新，甚至十分传统，但在阻止用户操作方面，却是最有效的。

▲ 图源：Netskope官网

Netskope以安全插件的形式接入大模型，在演示中，当操作者欲复制一段公司内部财务数据，让ChatGPT帮忙形成表格时，在发送之前，便会弹出警告栏，提示用户。

▲ 图源：Netskope官网

事实上，识别大模型中隐藏的风险比识别木马、漏洞要困难的多，精确性确保系统只监控和防止通过基于生成性人工智能的应用程序上传敏感数据（包括文件和粘贴的剪贴板文本），而不会通过聊天机器人阻止无害的查询和安全任务，这意味着识别不能一刀切，而是要基于语义理解和合理的标准进行可机动的变化。

4、欺诈和反欺诈：数字水印和生物确认技术

首先明确的是，AI诈骗人类和人类利用AI诈骗人类是两码事。

AI诈骗人类，主要是大模型的“教育”没有做好，上述提到的英伟达“护栏技术”以及OpenAI的无监督学习都是在AI Safety环节，保障模型健康的方法。

但是，防止AI诈骗人类，基本和模型训练同步，是大模型公司的任务。

而人类利用AI技术诈骗，则处于整个网络安全或者说社会安全阶段，首先需要明确的是，技术对抗能够解决的仅仅是一部分问题，仍然要靠监管、立法等方式，控制犯罪位子。

目前，技术对抗有两种方式，一是在生产端，在AI生成的内容中加入数字水印，用来追踪内容来源；另一种则在应用端，针对人脸等特异化的生物特征，进行更准确的识别。

数字水印能够将标识信息嵌入数字载体当中，通过隐藏在载体中添加一些特定的数字代码或信息，可确认且判断载体是否被篡改，为数字内容提供一种不可见的保护机制。

OpenAI此前曾表示，考虑在ChatGPT中添加水印，以降低模型被滥用带来的负面影响；谷歌在今年的开发者大会上表示，将确保公司的每一张AI生成图片都内嵌水印，该水印无法以肉眼识别，但谷歌搜索引擎等软件可读取并以标签显示出来，以提示用户该图片由AI生成；Shutterstock、Midjourney等AI应用也将支持这种新的标记方法。

目前，除了传统数字水印的形式，也进化出了基于深度学习的数字水印，采用深度神经网络来学习和嵌入数字水印，具有较强的抗破坏性和鲁棒性。该技术可以在不损失原始图像质量的前提下，实现高强度、高容错的数字水印嵌入，同时能够有效抵御图像处理攻击和隐写分析攻击，是下一个比较大的技术方向。

而在应用端，目前合成人脸视频是最为常用的“诈骗手段”。基于DeepFake（深度伪造技术）的内容检测平台是现阶段的解决方案之一。

今年1月初，英伟达便发布了一款名为FakeCatcher的软件，号称可以查出某个视频是否为深度伪造，准确度高达96%。

据介绍，英特尔的 FakeCatcher 的技术可以识别血液在体内循环时静脉颜色的变化。然后从面部收集血流信号，并通过算法进行翻译，以辨别视频是真实的还是深度伪造的。如果是真人，血液时刻在体内循环，皮肤上的静脉就会有周期性的深浅变化，深度伪造的人就没有。

▲ 图源Real AI官网

国内也有基于类似技术原理的创业公司“Real AI”，通过辨识伪造内容和真实内容的表征差异性、挖掘不同生成途径的深度伪造内容一致性特征。

（二）AI for 安全：成熟产业链中的新机会

与安全 for AI 还是一个相对新兴的产业机会不同，“AI for 安全”更多是在原有的安全体系上做的改造和加固。

打响AI for 安全第一枪的仍然是微软，3月29日，在为Office套件提供AI驱动的Copilot助手后，微软几乎立刻就将注意力转到了安全领域，推出了基于GPT-4的生成式AI解决方案——Microsoft Security Copilot。

Microsoft Security Copilot主打的仍然是一个AI副驾驶的概念，它并不涉及新的安全解决方案，而是将原来的企业安全监测、处理通过AI完全自动化的过程。

▲ 图源微软官网

从微软的演示上看，Security Copilot可以将原来耗时几小时，甚至几十小时的勒索软件事件处理降至秒级，大大提高企业安全的处理效率。

微软AI安全架构师Chang Kawaguchi Kawaguchi曾提到：“攻击数量正不断增加，但防御方的力量却分散在多种工具和技术当中。我们认为Security Copilot有望改变其运作方式，提高安全工具和技术的实际成效。”

目前，国内安全公司奇安信、深信服也在跟进这方面的发展。目前这块业务在国内还处于萌芽阶段，两家企业也还没有公布具体的产品，但它们能够及时反应过来，跟上国际巨头的脚步已经实属不易。

4月份，谷歌云在RSAC 2023上推出了Security AI Workbench，这是基于谷歌安全大模型Sec-PaLM的可拓展平台。企业可以通过Security AI Workbench接入各种类型的安全插件来解决特定的安全问题。

▲ 图源：Google官网

如果说微软 Security Copilot是一套封装的私人安全助手，谷歌的Security AI Workbench就是一套可定制、可拓展的AI安全工具箱。

总之，一个大的趋势是，用AI建立一套自动化的安全运营中心，以此来对抗迅猛变化的网络安全形式将成为一种常态。

在头部大厂之外，AI大模型在安全领域的应用也正在进入毛细血管。比如，国内许多安全企业开始运用AI改造传统的安全产品。

比如，深信服提出“AI+云业务”的逻辑，推出AIOps智能维一体化技术，通过采集桌面云的日志，链路和指标数据，执行故障预测，异常检测，关联推理等算法，为用户提供智能分析服务。

山石科技将AI能力融合到正负反馈的机器学习能力方面，正反馈训练异常行为分析方面，基于行为基线的学习可以提前更准确地发现威胁和异常，且减少漏报；在负反馈训练方面，进行行为训练，行为聚类，行为归类与威胁判定。此外还有像安博通这样的企业，将AI运用到安全运营的痛点分析等等。

在国外，开源安全供应商Armo发布了ChatGPT集成，旨在通过自然语言为Kubernetes集群构建自定义安全控制。云安全供应商Orca Security发布了自己的ChatGPT扩展，能够处理解决方案生成的安全警报，并为用户提供分步修复说明以管理数据泄露事件。

当然，作为一个成熟且庞大的产业链，AI for 安全的机遇远远不止这些，我们在这里也仅仅只是抛砖引玉，安全领域更深、更大的机会仍然需要战斗在安全一线的公司通过实践去摸索。

更重要的是，希望以上公司能够脚踏实地，不忘初心。把自己海阔天空的梦想，付诸于一步又一步的实际行动中，不是造概念，迎风口，更不要一股脑迎合资本与热钱，留下一地鸡毛。

结语

因特网诞生后的10年里，网络安全的概念和产业链才开始有了雏形。

而今天，大模型问世后半年，大模型安全、防止诈骗就已经成为了街头巷尾的谈资。这是技术加速进步和迭代后，内置在“人类意识”中的一种防御机制，随着时代的发展，将更快速的触发和反馈。

如今的混乱和恐慌并不可怕，它们正是下一个时代的阶梯。

正如《人类简史》中所讲：人类的行为并不总是基于理性，我们的决策往往受到情绪和直觉的影响。但这却正是在进步和发展中，最重要的一环。

万字长文丨解构AI安全产业链条、解决方案和创业机遇

大模型安全，应该讨论什么？

1、个体安全：大语言模型的安全（AI Safety）

2、环境安全：模型及使用模型的安全（Security for AI）

3、社会安全：大语言模型的发展对现有网络安全的影响

别慌，安全问题可解

AI安全中的万亿机遇

（一）安全 for AI：3个板块、5个环节、10000亿机遇

1、数据安全产业链：数据清洗、隐私计算、数据合成等

2、API安全：模型越开放，API安全越重要

3、SSE（安全服务边缘）：新型防火墙

4、欺诈和反欺诈：数字水印和生物确认技术

（二）AI for 安全：成熟产业链中的新机会

结语

关于作者

自象限

发表回复

万字长文丨解构AI安全产业链条、解决方案和创业机遇

大模型安全，应该讨论什么？

1、个体安全：大语言模型的安全（AI Safety）

2、环境安全：模型及使用模型的安全（Security for AI）

3、社会安全：大语言模型的发展对现有网络安全的影响

别慌，安全问题可解

AI安全中的万亿机遇

（一）安全 for AI：3个板块、5个环节、10000亿机遇

1、数据安全产业链：数据清洗、隐私计算、数据合成等

2、API安全：模型越开放，API安全越重要

3、SSE（安全服务边缘）：新型防火墙

4、欺诈和反欺诈：数字水印和生物确认技术

（二）AI for 安全：成熟产业链中的新机会

结语

关于作者

自象限

增长黑客Growthhk.cn荐读更多>>

ASA 广告又双叒叕上线新功能，实现广告系列和广告组的批量操作！

地产大佬的黄昏

保姆级教程丨手把手教你B站蓝链带货

MECE法则

透过《他是谁》，看清优酷的“真面目”

从产品角度谈下剩男剩女产生的逻辑

发表回复