Anthropic收紧关键安全承诺

频道:魅力德宏 日期: 浏览:1

  Anthropic 终止了一项承诺 ——在缺乏相应安全保障措施的情况下,不训练、不发布高风险模型,取而代之的是一份更严格限定的新政策:仅在特定情形下才需要保持克制,其中包括 Anthropic 在行业中处于 “领先地位” 时。

  在宣布这一调整时,Anthropic 给出的理由是:模型评估难度大,且联邦 *** 在 AI 安全方面支持不足。

  根据新政策,在以下两种情况下,Anthropic 仍承诺推迟训练或发布模型:

  (Anthropic 发言人确认,目前尚无任何公司达到这一门槛。)

  Anthropic 于 2023 年发布了之一版政策,即负责任扩展政策(Responsible Scaling Policy)。OpenAI、谷歌、xAI 均效仿 Anthropic 推出了类似政策。去年,美国加利福尼亚州和纽约州已通过法律,要求 AI 企业遵守这类安全政策。

  Anthropic 还将发布安全路线图,明确安全目标(例如自动调查利用 Claude 发起的 *** 攻击),但公司也承认,这些并非 “硬性承诺”。此外,Anthropic 会每 3~6 个月发布报告,说明其模型可能带来的风险。

  《时代》周刊率先报道了此次政策变更的消息。