网易首页 > 网易浙江 > 正文

“人工智能+” 科普瞭望台(21) | | 从 “胡说八道” 到 “步步推导”:推理模型如何让AI学会逻辑闯关?

0
分享至

当我们使用像ChatGPT这样的对话系统时,常常会被它流畅的回答所惊艳,直到发现它在简单数学题上犯错时才意识到其局限性。这种对比揭示了大型语言模型的一个关键特性——它们擅长模仿语言模式,但在理解和推理方面存在不足。

现代大型语言模型是基于对海量文本数据的学习来构建的。通过分析这些数据中的词语关系,模型学会了如何根据上下文生成合理的答案。例如,当被问到“地球为什么是圆的”时,模型给出的答案并不是因为它真正理解了天体物理学,而是因为它学习到了最有可能出现在这类问题之后的文字组合。这种方法在处理日常对话和信息查询时效果显著,但在面对需要多步逻辑推理的任务时,就显得力不从心。

   “人工智能+” 科普瞭望台(14) | 从 “胡说八道” 到 “步步推导”:推理模型如何让AI学会逻辑闯关?

为了让AI获得真正的思维能力,研究者们开发出了思维链(Chain-of-Thought)技术。CoT的核心在于引导模型在回答问题时输出中间推理步骤,而不是直接给出最终答案。这种方法通过提示工程让模型生成具有逻辑连贯性的文本序列,使其输出看起来像是在“一步步推导”,从而提升处理复杂任务的能力和结果的可解释性。

举个例子,想象你在教小朋友做加法:

● 错误教法:“3+5等于8”

● 正确教法:“我们先数3个苹果🍎🍎🍎,再数5个苹果🍎🍎🍎🍎🍎,现在一起数:1,2,3...8!总共有8个苹果”

   “人工智能+” 科普瞭望台(14) | 从 “胡说八道” 到 “步步推导”:推理模型如何让AI学会逻辑闯关?

思维链技术就是让AI采用第二种方式。具体实现方法很巧妙:

1. 在训练时给AI看大量带有详细步骤的例子

2. AI学会在回答时自动生成中间推导过程

3. 每个中间步骤都会影响下一个步骤的生成

这就像让AI养成“自言自语”的习惯。实验证明,仅仅是要求AI“让我们一步步思考”,就能显著提高其回答复杂问题的准确率。

思维链技术的训练过程同样独具匠心。研究者发现,只需在提示信息中加入一些带有中间推理步骤的示例,就能引导大模型在回答问题时逐步展开思路,而不是直接输出答案。

通过这种方式,人工智能学会了在给出最终答案前先构建中间推论,就像数学家证明定理时需要展示每一步的推导过程一样。

为了进一步提升模型的推理能力,研究人员引入了强化学习的方法。他们通过设定评分机制,对模型输出的推理过程进行评估,并以此为依据优化模型的行为,类似于教师对学生作业进行批改和反馈,从而帮助AI更好地掌握复杂任务的解决策略。

   “人工智能+” 科普瞭望台(14) | 从 “胡说八道” 到 “步步推导”:推理模型如何让AI学会逻辑闯关?

以教AI解一元二次方程为例:当遇到题目“x²-5x+6=0”时,AI会尝试三种解法——因式分解法、求根公式法和图像法。专家系统就像严格的老师一样检查每个解法:因式分解得到(x-2)(x-3)=0完全正确且步骤简洁(奖励+10分);求根公式虽然结果正确但计算复杂(奖励+5分);图像法耗时且不够精确(奖励0分)。通过这种评分机制,AI明白因式分解是最优解。

接下来是关键的学习过程:AI会运用反向传播算法(可以理解为复盘总结),根据获得的奖励分数调整内部参数。就像学生会重点复习得高分的解题技巧一样,AI会加强因式分解相关的神经连接权重。经过多次这样的训练循环后,当AI再遇到类似方程时,就会优先选择因式分解法这个最优方案。整个过程实现了从“尝试多种方法”到“掌握最佳方案”的智能进化。

经过数百万次这样的训练后,人工智能就能建立起稳定的逻辑思维能力。

通用大语言模型(如基于Transformer架构的那些)主要用于处理广泛的主题,并依赖于从互联网收集的大规模文本数据进行训练。相比之下,专门设计用于特定领域推理的专业推理模型不仅采用了类似的Transformer架构作为基础,还集成了额外的功能模块,例如符号计算引擎和外部知识验证接口,以增强其在特定领域的推理能力。

此外,在训练数据的选择上,通用模型侧重于多样化的网络文本资料,而专业推理模型则包含了大量数理题目及其详细解题步骤。这种差异意味着,在面对复杂的数学或逻辑问题时,专业推理模型能够提供更高的准确性和可靠性。

   “人工智能+” 科普瞭望台(14) | 从 “胡说八道” 到 “步步推导”:推理模型如何让AI学会逻辑闯关?

尽管这些技术进步令人振奋,但我们必须清醒认识到当前人工智能的局限性所在。这些系统仍然依赖于统计模式而非真正的理解,无法自主发现新的解题方法,在处理开放性问题时也常常力不从心。最新的研究方向正试图融合神经网络的模式识别能力与传统符号系统的逻辑推理机制,并探索构建能够模拟现实规律的“世界模型”,以期突破当前的技术瓶颈。

当我们观察这些会“思考”的人工智能系统时,实际上也在重新审视人类智能的本质特征。每一次技术进步都在提醒我们:真正的智能不仅需要庞大的知识储备,更离不开严谨的逻辑架构和深刻的洞察力。这或许正是即使是最先进的 AI 系统,也仍然难以达到人类思维所具有的深度与广度的原因。

作者:陈林孝 秘塔AI

审核专家:阿里研究院秘书长 汪源

本文图片均由AI生成
   “人工智能+” 科普瞭望台(14) | 从 “胡说八道” 到 “步步推导”:推理模型如何让AI学会逻辑闯关?
来源 | 浙江省科普联合会、靠谱传播

新媒体编辑 | 王航飞

一审 | 陈旦

二审 | 王辉

三审 | 柴琼颖

延伸阅读
相关推荐
热点推荐
一汽丰田补偿N+7,但还有人不愿意,这是为啥?

一汽丰田补偿N+7,但还有人不愿意,这是为啥?

小人物看尽人间百态
2025-06-27 05:40:05
九三胜利日大阅兵:将安排执行过维和任务的部队参阅

九三胜利日大阅兵:将安排执行过维和任务的部队参阅

新京报
2025-06-24 11:06:02
小米YU7九色全开箱!实拍无滤镜,哪个是你的

小米YU7九色全开箱!实拍无滤镜,哪个是你的

葡萄说娱
2025-06-27 10:09:30
任家萱胖成球!陈嘉桦台下看田馥甄演唱会落泪,SHE难同台?

任家萱胖成球!陈嘉桦台下看田馥甄演唱会落泪,SHE难同台?

策略剖析
2025-06-25 13:26:29
不抢钱!外国蒙面男强迫女收银员掀开衣服拍照!太无耻了!

不抢钱!外国蒙面男强迫女收银员掀开衣服拍照!太无耻了!

说点真嘞叭
2025-06-27 09:01:38
特朗普向盟友保证,在他担任总统期间,俄罗斯不会攻击北约

特朗普向盟友保证,在他担任总统期间,俄罗斯不会攻击北约

山河路口
2025-06-26 23:48:27
一眼就会让你沉沦,王楚然就是有这样的魅力。

一眼就会让你沉沦,王楚然就是有这样的魅力。

可乐谈情感
2025-06-25 12:08:43
莫言:你喂狗三日,它记你三年;你善待人三年,他三天就能忘记你

莫言:你喂狗三日,它记你三年;你善待人三年,他三天就能忘记你

清风拂心
2025-02-27 11:30:03
这种拖鞋别再穿!致癌物超标509倍,有骨折风险,很多人家里都有

这种拖鞋别再穿!致癌物超标509倍,有骨折风险,很多人家里都有

DrX说
2025-06-26 12:51:19
珠海市人民医院发生事故致1人死亡,珠海宝禾公司被罚

珠海市人民医院发生事故致1人死亡,珠海宝禾公司被罚

南方都市报
2025-06-27 21:34:05
男人不想老,永远“雄起”能满足女人,3个方法打开睾酮开关

男人不想老,永远“雄起”能满足女人,3个方法打开睾酮开关

农村情感故事
2025-06-17 18:06:58
越南人快被“逼疯”了,向全世界发求救信:它们为什么不去中国?

越南人快被“逼疯”了,向全世界发求救信:它们为什么不去中国?

答案在这儿
2025-06-20 21:13:20
9月生效:俄罗斯新规出台,要求iPhone等苹果设备支持安装RuStore

9月生效:俄罗斯新规出台,要求iPhone等苹果设备支持安装RuStore

路飞写代码
2025-06-26 10:54:43
温网上上签!郑钦文避开萨巴伦卡+高芙,有望首进四强,球迷欢呼

温网上上签!郑钦文避开萨巴伦卡+高芙,有望首进四强,球迷欢呼

侃球熊弟
2025-06-27 17:16:28
太阳寿命剩下50亿年,但别高兴太早,它留给人类的时间只有10亿年

太阳寿命剩下50亿年,但别高兴太早,它留给人类的时间只有10亿年

百态人间
2025-06-27 16:13:19
大S豪宅即将法拍,S妈着急和汪小菲对话,汪小菲完全不理会

大S豪宅即将法拍,S妈着急和汪小菲对话,汪小菲完全不理会

长颈鹿娱乐资讯
2025-06-27 15:58:08
手里有钱的“坐不住”了,存款迎来新规,有存款的人应该咋办?

手里有钱的“坐不住”了,存款迎来新规,有存款的人应该咋办?

小谈食刻美食
2025-06-27 20:30:23
2换1!湖人选秀权交易!里夫斯拒绝四年新合同

2换1!湖人选秀权交易!里夫斯拒绝四年新合同

篮球实战宝典
2025-06-27 01:38:29
县长白庆武,任上被查

县长白庆武,任上被查

新京报
2025-06-27 13:12:01
铁兜:胡老师最新职业首曝光,原来身兼数职,大家直言:确实优秀

铁兜:胡老师最新职业首曝光,原来身兼数职,大家直言:确实优秀

可乐谈情感
2025-06-27 11:54:25
2025-06-28 02:52:49

头条要闻

上合成员国防长会议未就联合声明达成一致 外交部回应

头条要闻

上合成员国防长会议未就联合声明达成一致 外交部回应

财经要闻

合新铁路建设材料以次充好 多家单位被罚

体育要闻

中国足协官方宣布伊万科维奇下课 久尔杰维奇出任代理主帅

娱乐要闻

白玉兰战报!宋佳靳东分获视后视帝

科技要闻

雷军:小米汽车成功没靠营销,靠的是能力

汽车要闻

配置升级/贵宾座椅 全新GL8陆上公务舱售22.99万

态度原创

手机
教育
旅游
公开课
军事航空

手机要闻

vivo X Fold5 折叠屏手机备件价格公布:内屏首次维修 2770 元起

教育要闻

我大学生活中最重要的老师

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美媒揭美军37小时奔袭伊朗细节

无障碍浏览 进入关怀版