对越来越多数据无情、贪婪的胃口可能是人工智能的致命缺陷;或者至少是“毒药”渗入的最快方式。网络攻击者以虚假或误导性信息的形式将小剂量的“有毒数据”偷偷带入至关重要的 AI 训练集中。任务:破坏曾经可靠的模型,使它们朝着完全不同的方向倾斜。
本文引用地址:
我们今天遇到的大多数 AI 系统——从 ChatGPT 到 Netflix 的个性化推荐——都足够“智能”,因为它们接受了大量的文本、图像、语音和其他数据的训练,因此只能完成如此令人印象深刻的壮举。如果这个丰富的宝库被污染,模型的行为就会变得不稳定。
现实世界的影响远远超出了聊天机器人说胡言乱语或文本到图像生成器在被要求提供鸟时生成飞机图像的范畴。不良行为者群体可能会导致自动驾驶汽车无视红灯,或者在更大范围内触发电网中断和停电。
为了抵御各种数据中毒攻击的威胁,FIU 网络安全研究人员团队结合了两种新兴技术,以更安全地训练 AI。根据 IEEE Access 上发表的一项研究,该团队的创新方法成功地检测并删除了不诚实的数据,以免它损害训练数据集。
“我们已经构建了一种方法,可以在关键基础设施弹性、交通网络安全、医疗保健等方面有许多应用,”奈特基金会计算与信息科学学院首席研究员兼 FIU 助理教授 Hadi Amini 说。
该团队新方法的第一部分涉及联合学习。这种独特的 AI 训练方式使用训练模型的迷你版本,该模型直接在您的设备上学习,并且仅与公司服务器上的全局模型共享更新(不是您的个人数据)。虽然保护了隐私,但这种技术仍然容易受到数据中毒攻击。
“在用户数据进入模型之前验证数据是诚实的还是不诚实的,这是联邦学习的一个挑战,”Amini 实验室的博士生、该研究的主要作者 Ervin Moore 解释说。“所以,我们开始考虑使用区块链来减轻这个缺陷。”
区块链因其在比特币等加密货币中的作用而广为人知,它是一个分布在计算机网络上的共享数据库。数据存储在按时间顺序链接在链上的区块中。每个区块都有自己的指纹,以及前一个区块的指纹,使其几乎是防篡改的。
整个链遵循一定的结构(数据如何在区块内打包或分层)。这就像一个审查过程,以确保不会添加随机块。把它想象成一份准入清单。
研究人员在构建模型时利用了这一点。它比较了区块更新,计算了异常值更新是否具有潜在毒性。记录可能有害的更新,然后从网络聚合中丢弃。
“我们的团队现在正在与国家交通网络安全和弹性中心的合作者密切合作,利用尖端的量子加密来保护数据和系统,”Amini 说,他还领导 FIU 的网络安全和 AI 专家团队,研究互联和自动驾驶交通系统的安全 AI。“我们的目标是确保美国交通基础设施的安全,同时利用先进人工智能的力量来增强交通系统。”
Moore 将继续这项研究,作为他正在进行的研究的一部分,以开发可用于关键基础设施安全的安全 AI 算法。
0 条