谷歌DeepMind最近推出了一款名为VaultGemma的新型语言模型,这一创新的技术专注于用户隐私的保护。VaultGemma不仅是开源的,而且是目前规模
传统的大语言模型在训练过程中可能会不小心记住一些敏感信息,比如姓名、地址和机密文档等。为了应对这一挑战,VaultGemma引入了差分隐私技术,通过在训练过程中添加可控的随机噪声,确保模型的输出无法与特定的训练样本关联。这意味着,即使VaultGemma曾接触过机密文件,从统计学上也无法还原其内容。谷歌的初步测试结果显示,VaultGemma确实没有泄露或复现任何训练数据,进一步提升了用户的信任感。
在技术架构方面,VaultGemma是基于Google的Gemma2架构,采用了仅解码器的Transformer设计,包含26层,并使用了多查询注意力机制。一个关键的设计选择是将序列长度限制为1024个Token,这样有助于管理私有训练所需的高密集计算。开发团队还借助一种新颖的“差分隐私缩放定律”,为计算能力、隐私预算和模型效用之间的平衡提供了框架。
尽管VaultGemma的性能与五年前的普通语言模型相当,在生成能力上略显保守,但它在保护隐私方面提供了更强的保障。谷歌的研究人员表示,他们将在HuggingFace和Kaggle上以开源许可证公开VaultGemma及其相关代码库,让更多人能够轻松访问这一私有AI技术。
这款模型的推出无疑为推动隐私安全和开源技术的结合提供了新的可能性,期待它在未来能为用户带来更加安全和可靠的使用体验。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...