包阅导读总结
1. 关键词:隐私计算、大模型、数据安全、数据流通、技术发展
2. 总结:本文主要探讨了隐私计算在大模型深度应用中的作用及面临的挑战。包括大模型时代数据安全环境复杂,隐私计算的价值、技术发展及应用实践,以及相关法律尺度和标准建设等,强调了多方合作推动其发展。
3. 主要内容:
– 大模型发展带来数据安全与隐私挑战,隐私计算价值凸显
– 解决数据安全与隐私问题,实现数据共享与分析
– 举办相关论坛,探讨前沿发展等主题
– 专家观点
– Dawn Song 教授:隐私计算解决数据问题,保障数据安全和隐私
– 韦韬:GPT 时代数据流通有问题,行业将走向密算
– 郁昱教授:隐私计算面临量子计算挑战
– 顾晓韬博士:智谱 AI 从算法和数据层面解决安全隐私问题
– Christoph Krönke:强调大模型时代数据保护的重要性
– 陈俊琰:分析数据流通现状及可信技术的作用
– 许可博士:解读个人信息匿名化制度
– 杨波博士:隐私计算产品在金融行业应用领先但面临阻碍
– 行业应用与挑战
– 中国电信:面临隐私安全挑战,加强隐私计算技术应用
– 左医科技:医疗场景下采用混合云保证数据安全
– 蚂蚁集团
– 发布“隐语 Cloud”大模型密算平台
– 圆桌讨论:探讨大模型大规模数据应用的问题和挑战
思维导图:
文章地址:https://mp.weixin.qq.com/s/h-OvIqvf7eNjCtZZ2jUxzQ
文章来源:mp.weixin.qq.com
作者:蚂蚁技术 AntTech
发布时间:2024/7/7 8:04
语言:中文
总字数:5836字
预计阅读时间:24分钟
评分:83分
标签:隐私计算,大模型应用,数据安全,WAIC会议,AI技术发展
以下为原文内容
本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com
高质量专业数据的流动与共享,是促进大模型技术应用加速发展的一个重要环节。然而,大模型在创造巨大价值的同时,也为数据的大规模应用带来安全和隐私挑战。
作为解决数据安全与隐私问题的重要解决方案,隐私计算的价值凸显。通过加密、脱敏、匿名化等手段,隐私计算能够确保数据在处理过程中不被泄露,同时还能实现数据的共享和分析,为数据的安全共享和流通提供了新的解决方案,也为人工智能、大数据等领域的发展带来了新的机遇。
7月5日,由世界人工智能大会组委会办公室指导,蚂蚁集团、中国电信集团有限公司、中国信息通信研究院华东分院、浙江大学区块链与数据安全全国重点实验室主办,机器之心协办的「2024 WAIC 隐私计算:助力大模型与数据可信融合发展论坛」正式举办。
会上,多名国内外知名专家、学者和企业代表,共同探讨了隐私计算技术的前沿发展、数据可信流通标准及技术体系、密态计算产业发展与实践等主题,和大家分享一些观点。
相比于之前,大模型时代「数据安全」环境变得更加复杂,大量流动的数据处理,让数据泄露风险增加,数据全生命周期管理变得难度更高。同时,数据投毒以及网络攻击的威胁也大大增加。
来自加州大学伯克利分校计算机科学方向的Dawn Song教授认为,在AI技术的发展中,数据是构建优秀模型的关键,但许多数据因隐私等问题被闲置,且用户数据价值未得到公平归因。隐私保护计算为解决这些问题提供了关键技术,其技术范围广泛且不断发展,如硬件辅助技术和纯软件解决方案等。她认为,在GPT时代,现在是隐私计算的绝佳时期,该技术能保障数据安全和隐私,有助于企业形成数据资产。
此外,Dawn Song教授还指出隐私问题复杂,在AI训练和开发中,除了计算层的隐私保护,还需考虑计算输出不泄露原始输入敏感信息,以及确保模型价值能正确归因于原始数据贡献者。她希望未来大多数计算设备都能有一块“安全飞地,10年后大多数计算以隐私保护形式发生,未来能看到数据资产成为重要类型,以及创建数据信托等新实体来管理用户数据并使其获得更大价值。
蚂蚁集团副总裁兼首席技术安全官、蚂蚁密算董事长韦韬认为,GPT作为人类造出来的第一个通用智力引擎,目前处于蒸汽机时代,在应用中存在算力恐慌、能源消耗巨大、成本高等问题。在GPT时代,数据决定了AI能力的上限,但数据价值具有两面性,数据价值越大,相应风险就越高。数据流通存在数据瓶颈、主体供给意愿缺乏等问题,数据容易被非法二次分发,且存在流通时易泄露、难定位失漏点等问题。
企业要做可信流通也面临着全新的技术挑战。“传统数据安全做的是内循环安全问题,今天数据流通是外循环问题,目前技术体系不完整,标准法规还是空白期”。
他提出,数据跨域流通的核心安全技术要求是数据使用权的跨域管控,其安全强度应该通过通用安全分级进行度量,能够跨技术路线进行比较。他认为整个行业将从通算、智算走向密算。低成本密算将通过密码学和可信芯片、机密计算等技术来实现,能降低数据要素行业风险,使数据要素密态流通覆盖全过程,实现责任追溯。通过隐语可信隐私计算框架开源,蚂蚁集团能够用密态算力支撑各种应用诉求,希望通过降低密态计算成本,实现规模化推广,让数据价值流动像自来水一样即开即用。
在GPT时代,隐私计算技术本身面临着新的机遇和发展。上海交通大学计算机科学与工程系教授、约翰·霍普克罗夫特计算机科学中心执行主任郁昱教授发表了题为“隐私计算的后量子视角展望”的主题分享。
他提到,隐私计算的安全多方计算技术路线从理论到大规模实际应用有了进展,但面临量子计算的挑战。安全多方计算中的MPC安全多方计算不抗量子计算机的原因是底层不经意传输的协议不抗量子计算机,最近有基于抗量子密码算法的不经意传输的协议出现。后量子视角的隐私计算需要把现有安全多方计算协议改造成抗量子计算的,不同类型的安全多方计算协议改造方式不同。
来自智谱AI GLM技术团队的研究员顾晓韬博士则结合GLM实践进一步具体介绍,智谱AI的GLM大模型在应用中面临的数据安全和隐私的挑战以及解决方式。顾晓韬分享称,智谱主要从算法安全体系和数据层面解决安全和隐私问题,在训练之初对数据进行筛查过滤,在部署应用时事前、事中、事后对模型数据隐私和安全进行筛查过滤。对模型进行安全评测和红队攻击,主动找漏洞并弥补,以提升模型的安全性。
对于数据流通的安全性,维也纳经济与商业大学公法全职教授Christoph Krönke在演讲中强调,在大模型发展时代,数据保护至关重要,必须确保数据的获取和使用符合法律规定和道德标准。
他详细介绍了欧盟在数据保护方面的法律法规和实践经验,特别是《通用数据保护条例》(GDPR)。GDPR对个人数据的收集、处理、存储和使用等方面做出了严格规定,旨在保护个人的隐私权和数据安全。
他还指出,数据保护不仅仅是法律问题,还涉及到技术和伦理等多个方面。在大模型的开发和应用中,需要综合考虑这些因素,采取有效的措施来保护个人数据的安全和隐私。例如,在技术方面,可以采用加密、匿名化等手段来保护数据;在伦理方面,需要遵循道德原则,确保数据的使用不会对个人造成伤害。
中国信息通信研究院华东分院总工程师陈俊琰则在宏观层面分析称,当前,数据流通在全球范围内存在差异,国内数据政策日益成熟,但数据流通仍面临挑战,如数据价值释放、可信安全环境、收益分配机制、法律基础和技术标准等。可信技术赋能数据流通,包括可信基础设施、可信数据空间和可信数网等,这些技术可以促进不同利益相关者在保障数据主权下可信、安全、透明地进行数据共享、交换、流通与交易。
其中,隐私保护和区块链技术可以解决数据流通和跨域行为中的三大挑战,包括数据安全流通与跨域控制、评估定价与收益分配、确权授权与可信数据源。通过统筹布局规划,可信基础设施可以夯实“数据丝绸之路”跨域互联底座,探索“城市数据空间”基础设施建设,构建分布式数据基础设施,整合共享、安全、保护技术,促进数据安全流通。
除了技术层面,在「数据可信流通」的法律尺度也在近年来逐步捋清。对外经济贸易大学数字经济与法律创新研究中心主任许可博士在解读《个人信息匿名化制度:技术与法律》白皮书中提到,在我国,为有效平衡“数据流通”和“个人信息保护”的双重目标,《网络安全法》《个人信息保护法》特别设置了“个人信息匿名化条款”,将匿名化后的个人数据排除在个人信息保护之外。
不过,面对不断发展的网络环境,现有法律条款仍有继续拓展的可能。
许可提到,由于匿名化条款的法律内涵和实施标准有待厘清,匿名化条款往往存而不用,成为数据流通复用的最大窒碍。为破解“个人信息匿名化”的困境,必须从单一的法律视角转向复合的“数据基础设施”的路径。作为数据要素市场的基础架构,数据基础设施是面向社会的一体化数据汇聚、处理、流通、应用、运营、安全保障服务的新型基础设施,是覆盖硬件、软件、开源协议、标准规范、机制设计等在内的有机整体。基于此,匿名化条款可以拓展为一套融合法律和技术的基础设施,从而推动在不同行业、不同机构之间实现可信、安全的数据共享、开放、交易。
作为数据可信流通的重要技术基础设施,在业界多方持续的努力下,隐私计算产品已经在市场取得一定进展。
北京银联金卡科技有限公司(国家金融科技测评中心)副研究员、研发中心负责人杨波博士在解读《隐私计算产品通用安全分级》白皮书时分享道,作为数字经济的关键要素,富含价值的数据已成为国家和各行业高度重视的资产对象,释放数据要素价值的需求为隐私计算技术带来了广阔的应用契机。目前隐私计算技术在金融行业的应用程度较为领先,应用场景包括反欺诈、联合风控、反洗钱等。
不过,杨波也指出,当前各类隐私计算产品在推广时还面临一些基础性阻碍,供给侧不同产品之间安全、性能方面的差异模糊导致需求侧在选择产品时 “难评估”和“不敢用”。为了解决这些问题,需要加强隐私计算标准建设,制定统一的安全分级标准,明确产品的安全性能和适用场景,为用户提供可靠的参考依据。“通过标准化工作,可以促进隐私计算技术的发展和应用,提高产品的质量和安全性,增强用户对隐私计算的信任和接受度”。
随着大模型应用的不断深入,对访问信息保护的需求将变得越来越迫切。在各个行业中,大模型的广泛应用离不开丰富的行业数据支持。然而,行业数据提供方在提供数据时,对数据保护存在诸多担忧和诉求。
作为央企的代表,中国电信在行业大模型的训练上面临的数据隐私安全问题十分典型。中国电信大模型首席专家、大模型团队负责人刘敬谦发表了题为“中国电信行业大模型建设与隐私安全挑战”的主题分享。在分享中,他明确指出,中国电信行业大模型建设面临诸多隐私安全挑战。数据泄露风险增大,可能导致客户敏感信息被非法获取,影响个人隐私和商业竞争。大模型还易遭受恶意攻击,如篡改参数或数据,干扰其正常运行。
为应对这些挑战,中国电信不断加强隐私计算技术应用。通过加密、安全多方计算等手段,在保护数据隐私前提下实现共享与分析。同时,需建立健全数据安全保护机制,包括严格的访问控制、完善的备份恢复措施和定期的安全审计。此外,中国电信的“移动算力车服务”模式能高效利用资源,为大模型提供支持,保障其安全可靠运行,推动大模型赋能千行万业。
除了电信领域,数据同时具备高度数字化、高价值、泄露高风险特点的行业还有医疗行业。
作为医疗行业大模型的探索者,北京左医科技有限公司首席执行官张超分享了他的一线观察。他提到,以左手医生为例,家庭医生面临数量少、任务繁杂、水平参差不齐等问题,导致基层医疗薄弱,给头部医院带来负担。大模型的应用可以帮助医生提升效率,改善患者就诊体验。左医科技基于Multi – Agent打造智能家庭医生,通过多个智能体的协作来更好地满足患者需求。
在宁夏的应用中,智能医生通过二维码与患者沟通,采集信息并给出就医指导,同时真人医生会进行干预,进一步沟通并根据情况进行线下诊疗或转诊就医,最终数据会同步到居民健康档案。在医疗场景下,存在数据隐私和安全的挑战,如私有化部署模型难以在短时间内调用大量算力满足突发需求,因此采用混合云方式,数据全流程加密,只算不存,以保证数据安全。
本次会议上,蚂蚁集团正式对外发布“隐语 Cloud”大模型密算平台。
浙江蚂蚁密算科技有限公司CEO王磊在演讲中提到,在构建行业大模型的过程中,这些拥有大量行业数据的公司,会担心数据被他人窃取,导致商业机密泄露或竞争优势丧失。同时,也担心训练的大模型会记住自己的数据,同样会引发商业价值损失和数据隐私问题。此外,如果不能在合作方之间建立信任,每方都会担心其他合作方贬低自己的数据贡献,影响自身的利益。
“隐语Cloud”大模型密算平台,通过软硬件结合的可信隐私计算技术,在大模型托管和大模型推理等环节实现数据密态流转,保护模型资产、数据安全和用户隐私。首批推出两大服务,分别为大模型密态托管和大模型密态推理。大模型密态托管,指模型提供方可以将模型加密后托管在平台上,一键完成云上密态部署,保护模型资产不被泄漏和盗用;大模型密态推理,是指数据以密态形式完成推理,保护用户交互时的数据安全、商业机密等。
在大模型密态托管方面,“隐语 Cloud”平台采用了先进的加密技术,确保大模型在云上部署时的知识产权得到有效保护。这意味着只有授权的用户能够访问和使用大模型,从而防止了数据的非法获取和滥用。在大模型密态推理方面,平台通过对用户访问大模型的过程进行加密和隐私保护,确保用户的隐私和商业机密得到充分的保护。用户可以放心地使用大模型进行各种任务,而不必担心数据泄露的风险。
圆桌讨论环节,围绕“大模型大规模数据应用的问题和挑战”的主题,蚂蚁集团科技技术战略与执行部副总经理彭晋(主持人),中国信息通信研究院云计算与大数据研究所副主任、隐私计算联盟副秘书长袁博、中国电信大模型首席专家、大模型团队负责人刘敬谦,浙江大学“百人计划”研究员、博士生导师刘健,蚂蚁集团隐私计算部技术总监余超凡进行了讨论。
大模型开发利用中,数据安全面临诸多挑战。刘敬谦指出,在大模型训练领域,由于国央企数据涉及民生,数据安全挑战巨大。中国电信通过构建星辰纳平台,对数据进行全生命周期管控,以确保数据的安全性,包括知晓数据的来源、去向、使用情况、迭代以及回流情况。
在学术研究方面,刘健表示,学术界主要关注大模型推理阶段的隐私保护。目前,已经能够实现两方秒级的隐私推理,未来期望能够达到毫秒级推理。然而,大模型训练阶段的隐私计算离实际应用还有一定距离。大模型的出现为隐私计算带来了新的机遇和挑战,学界和业界应共同努力,推动隐私计算在大模型领域的更多应用。
从隐私计算与大模型结合的不同阶段需求来看,余超凡提到,大模型预训练阶段通常对密算的需求不迫切,主要关注内容安全问题。而微调阶段对密算的需求较为强烈,存在模型资产保护和微调数据不出域等矛盾。在推理阶段,用户的密态需求最为强烈,但目前基于纯软件的密算代价较高,因此更关注可信硬件环境和轻量级密码结合的技术来提高性能。
关于隐私计算与大模型结合的评估指标及标准,袁博认为,需要从功能性、安全性和可用性等方面进行评价。功能性包括数据清洗、加工、治理等数据工程能力,以及模型选择和在线优化能力;安全方面涵盖算法安全、数据安全、系统安全、环境安全和产品本身安全等;可用性则包括并行训练、模型压缩、显存优化、硬件加速等。隐私计算联盟和中国信通院已经制定了一系列隐私计算标准,下一步计划完善隐私计算本身的标准,并针对联邦大模型或MPC大模型制定标准计划,同时结合其他技术体系,以完善助力大模型的可信流通。
袁博提出,需要进一步提升性能和算法,做好性能安全平衡,并在安全分级上进行更多探索,同时打造生态,如共同贡献语料库。刘敬谦希望隐私计算能像运营商的网一样,让人感知不到其存在,并且能够与网结合。
刘健认为高校应加大基础研发投入,进行原始创新以解决效率问题,同时可以先在对实时性要求不高的场景中应用,以反向促进科研和技术发展。
余超凡则呼吁提升不同安全等级下的密态算力利用率,倡导国内厂商提升国产密算能力,希望未来能够实现多方数据联合共建大模型的阶段,从而让数据价值更好地流动起来。