我们相信,强大的人工智能必须是安全的。我们投入大量资源进行安全研究、 风险评估和保障措施的开发,以确保 AI 造福全人类。
我们积极识别和缓解潜在风险,包括滥用、意外后果和系统性风险。 在发布新模型前,我们会进行严格的安全评估。
我们在训练过程中引入人类反馈(RLHF),确保模型的行为符合人类的意图和价值观, 减少偏见和有害输出。
我们在部署后持续监控系统的使用情况,快速响应新出现的威胁, 并不断更新模型以提高安全性。
我们在 AI 开发周期的每个阶段都嵌入了安全实践。
我们邀请外部专家("红队")来攻击我们的模型,试图诱导它们产生有害内容、偏见或错误信息。 这有助于我们在发布前发现并修复漏洞。例如,在 GPT-4 发布前,我们邀请了 50 多位来自AI安全、网络安全、生物风险等领域的专家进行测试。
我们使用基于人类反馈的强化学习技术来微调模型。人类训练师会对模型的回答进行排名和打分, 引导模型生成更有用、更真实且无害的回复。这是 ChatGPT 能够流畅对话且保持安全的关键。
我们开发了免费的内容审核 API,帮助开发者识别和过滤仇恨言论、自残、暴力等不当内容。 这也集成在 ChatGPT 中,防止生成违反我们使用政策的内容。
我们与政府、民间社会和其他 AI 实验室合作,制定 AI 安全标准和最佳实践。 我们支持对高风险 AI 系统进行监管,并致力于提高 AI 开发的透明度。
我们深知数据隐私的重要性。当您使用 ChatGPT 时,您对自己的数据拥有控制权。