快速导航×

Ilya参与,OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想2024-06-07 17:49:15
大模型也可解释了?

大模型都在想什么?openai 找到了一种办法,能给 gpt-4 做「扫描」,告诉你 ai 的思路,而且还把这种方法开源了。

Ilya参与,OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想

大语言模型(LLM)是当前AI领域最热门的探索方向,吸引了大量的关注和研究投入。它们强大的语言理解能力和生成能力在各种应用场景中都表现出巨大潜力。虽然我们已经证实了大模型迭代后性能能够显著提升,但我们目前对模型中的神经活动仍然只是一知半解。

据报道,OpenAI分享了一种全新的查找大量“特征”的方法,或许这会成为可解释的一种可用方向。OpenAI表示,新方法比此前一些思路更具扩展性,研究团队在GPT-4中使用该方法成功找到了1600万个特征。据悉,新方法能够更好地扩展,这意味着研究人员可以更轻松地对不同领域的模型进行解释和分析。

有趣的是,从作者列表中,我们发现已经从 OpenAI 离职的 Ilya Sutskever、Jan Leike 等人也是作者之一。

Ilya参与,OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想

可谓是一项重要的研究。

  • 论文标题:Scaling and evaluating sparse autoencoders

  • 论文地址:https://cdn.openai.com/papers/sparse-autoencoders.pdf

  • 代码:https://github.com/openai/sparse_autoencoder

  • 特征可视化:https://openaipublic.blob.core.windows.net/sparse-autoencoder/sae-viewer/index.html

解释神经网络

作为机器学习模型,神经网络通过使用模仿生物神经元协同工作的过程来识别现象并得出结论,然而长久以来,我们并不真正了解神经网络的内部运作原理。神经网络并不是直接设计的,研究人员设计了训练它们的算法。由此产生的神经网络还不能很好地被理解,并且不能轻易地分解为可识别的部分。这意味着我们不能像推理汽车安全那样推理人工智能安全。

为了理解和解释神经网络,首先需要找到用于神经计算的有用构建块。然而,语言模型内的神经激活是以不可预测的模式激活的,似乎同时代表许多概念,它们还密集激活,这意味着每次激活总是在每个输入上触发。

但现实世界的概念非常稀疏 —— 在任何给定的上下文中,所有概念中只有一小部分是相关的。这激发了稀疏自动编码器的使用。

稀疏自动编码器(sparse autoencoder)是一种识别神经网络中少数「特征」的方法,这些「特征」对于产生任何给定的输出都很重要,类似于一个人在推理某种情况时可能想到的一小部分概念。它们的特征显示出稀疏的激活模式,自然地与人类易于理解的概念保持一致,即使没有直接的可解释性激励。

Ilya参与,OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想

然而,训练稀疏自动编码器仍然面临严峻的挑战。大型语言模型表征大量概念,自动编码器可能需要相应巨大的规模才能接近完全覆盖前沿模型中的概念。学习大量稀疏特征具有挑战性,并且过去的工作尚未证明可以很好地扩展。

大规模自动编码器训练

OpenAI 最新的研究进展提出了一种新方法,能够将稀疏自动编码器扩展到前沿人工智能模型上的数千万个特征。并且该方法显示出平滑且可预测的扩展,与现有方法相比具有更好的规模回报。同时,OpenAI 还引入了几个用于评估特征质量的新指标。

OpenAI 使用该方法在 GPT-2 small 和 GPT-4 激活上训练各种自动编码器,包括 GPT-4 上的 1600 万个特征的自动编码器。

具体来说,研究团队在 GPT-2 small 模型和一系列逐步增大的、共享 GPT-4 架构和训练设置的模型(包括 GPT-4 本身)的残差流上训练自动编码器。他们选择了靠近网络末端的一层,该层应包含许多特征,而不专门用于下一个 token 的预测。

所有实验均使用 64 个 token 的上下文长度。研究团队先在 dmodel 维度上减去平均值,并将所有输入归一化为单位范数(unit norm),然后再传递给自动编码器(或计算重建误差)。 

训练结束后,研究团队根据稀疏性 L_0 和重建均方误差 (MSE) 对自动编码器进行评估。

为了简化分析,OpenAI 不考虑学习率预热或衰减,sweep 小规模的学习率,并推断大规模的最佳学习率的趋势。

为了检查特征的可解释性,OpenAI 进行了可视化工作。以下是 OpenAI 发现的一些可解释的特征:

灵感PPT 灵感PPT

AI灵感PPT - 免费一键PPT生成工具

灵感PPT 308 查看详情 灵感PPT
  • 人类的缺陷;

  • 价格上涨;

  • X 和 Y;

  • 训练 Log;

  • 反问句;

  • 代数环;

  • 谁 / 什么;

  • 多巴胺。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Ilya参与,OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想

Ilya参与,OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想

例如,GPT-4 特征:与事物(尤其是人类)有缺陷相关的短语:

Ilya参与,OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想

价格上涨:

Ilya参与,OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想

反问句:

Ilya参与,OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想

局限和发展方向

新方法能够提高模型的可信度和可操纵性。然而这仍是早期工作,存在许多局限性:

  • 与此前的研究一样,许多发现的特征仍然难以解释,许多特征的激活没有明确的模式,或者表现出与它们通常编码的概念无关的虚假激活。此外,目前我们还没有很好的方法来检查解释的有效性。

  • 稀疏自动编码器不会捕获原始模型的所有行为。目前,将 GPT-4 的激活通过稀疏自动编码器大致相当于使用大约 1/10 计算量训练一个模型。为了完全映射前沿 LLM 中的概念,我们可能需要扩展到数十亿或数万亿个特征,即便使用改进的扩展技术,这也具有挑战性。

  • 稀疏自动编码器可以在模型中的某一点找到特征,但这只是解释模型的一步。还需要做更多的工作来了解模型如何计算这些特征以及如何在模型的其余部分下游使用这些特征。

稀疏自动编码器的研究令人兴奋,OpenAI 表示,还有一些待解决的挑战。短期内,工程师们希望新发现的特征能够实际用于监控和控制语言模型行为,并计划在前沿模型中对此进行测试。希望最终有一天,可解释性可以为我们提供推理模型安全性和稳健性的新方法,并通过对 AI 行为提供强有力的保证,大幅提高我们对新一代 AI 模型的信任。

参考内容:

https://openai.com/index/extracting-concepts-from-gpt-4/

以上就是Ilya参与,OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想的详细内容,更多请关注其它相关文章!


# 扩展到  # 漳州网站建设方案目录  # 广州seo公司电话  # 辽宁网站seo优化建设  # 东升seo推广  # 酒泉网站推广哪家公司好  # 枣庄专业的网站建设价格  # 均安seo网站  # 文化和旅游部营销推广  # 推广非营销笔记怎么办  # 忻州seo关键词排名优化软件  # 能多  # openai  # 跌至  # 这意味着  # 价格上涨  # 表现出  # 很好  # 看它  # 万个  # 还能  # type  # git  # 工程 


相关栏目: 【 企业资讯168 】 【 行业动态20933 】 【 网络营销52431 】 【 网络学院91036 】 【 运营推广7012 】 【 科技资讯60970


相关推荐: 统信深度deepin成立 AI SIG 社区,共同提升 Linux 下 AI 体验  华为余承东表示:鸿蒙可能拥有强大的人工智能大模型能力  组建团队,字节跳动要造机器人?  苹果机器学习关键人物 Ali Farhadi 离职,回归 AI2 担任 CEO  AI赋能艺术 超现实达利奇幻之旅在沪开启  中国AI公有云市场2025年逆势蓬勃增长,增速高达80.6%  全国体育人工智能大会举办,专家聚焦体育人工智能领域人才培养  苹果CEO库克:持续研究生成式人工智能技术  磐镭发布全新 GeForce RTX 4080 ARMOUR 显卡,售价为 9499 元  腾讯自主研发机器狗 Max 升级,可“奔跑跳跃”完成避障动作  从医疗康复外骨骼到通用人形机器人,傅利叶智能推动核心技术升级  微软与英伟达合作共同推出AI虚拟机,上市公司获益整理  DreamAvatar数字人在哪里下载  挤爆服务器,北大法律大模型ChatLaw火了:直接告诉你张三怎么判  放弃自动驾驶,也是一种和解  AI技术改变*,新骗局来袭,*成功率接近100%  引领AI变革,九章云极DataCanvas公司重磅发布AIFS+DataPilot  网易数帆以AI融合创新引领数据分析与软件开发新趋势  《共同的演化》展览启幕,重新思考人类与人工智能关系  AI智能室内效果图设计软件效果,确实惊到我了!  人形机器人打开精密齿轮市场全新空间!受益上市公司梳理  速途网络成立“人工智能专家委员会”5位中美博士加盟  精准度可提高 20%:英国九家银行签约使用基于 AI 的“消费者欺诈风险系统”应对*  ​日媒:AI高效解析纳斯卡地画  人工智能颠覆软件测试四大方式  科技数码圈的新物种 乐天派桌面机器人 AI +安卓+机器人 首发价1799元  昇思开源社区理事会成立,基于昇思AI框架的全模态大模型“紫东.太初2.0”发布  首届全国体育人工智能大会在首都体育学院召开  边喷火边跳踢踏舞,机器狗最新技能爆火全网!网友直呼真·热狗  微软在德国举办MR研讨会,向女性分享元宇宙潜力  陈根教授:离人形机器人时代还有10年吗?  AMD在AI方面奋起直追,与英伟达的差距缩小了吗?  生成式人工智能进入产业应用!但再“聪明”仍是工具,最终目的是服务于人  英特尔张宇:边缘计算在整个AI生态系统中扮演重要角色  字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA  如何提高集群协作效率?中外团队合作研发基于均值偏移的机器人队形控制策略  猿编程参加人工智能高峰论坛,推动人工智能教育解决方案在千所学校推行  华为推出两款商用 AI 大模型存储新品,支持 1200 万 IOPS 性能  自己动手使用AI技术实现数字内容生产  即时 AI再次升级 30秒生成自带动效的网页 生成速度提升100%  美踏控股推出创新人工智能大数据模型“心乐舞河”:虚拟人音舞社交的新体验  通用医疗人工智能如何革新医疗行业?  人工智能在服务优化方面优缺点有哪些  “黑科技”亮相大湾区轨交论坛 智慧交通迈向“强AI”  云深处科技绝影 Lite3 与 X20 四足机器人亮相  央视报道!星纪魅族集团车载人机交互技术成世界移动通信大会焦点  2025年深圳举办的SUSECON 创新峰会开始接受报名  好莱坞面临全面停摆 好莱坞大罢工抵制“AI入侵”  大疆 DJI Mini 4 Pro 无人机曝光:流线设计,有望迎来功能性提升  石头扫拖机器人 G20 618 福利来袭:4999 元,超值配件领到手软