9.11和9.9谁更大?
客岁,这谈小学生难度的数学题难倒了一众海表里AI大模子。其时第一财经记者测试了12个大模子,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对了,但ChatGPT-4o、豆包、kimi王人错了,错法各有不同。
当天,当第一财经记者发问阿里巴巴最新公测的千问APP:“数字9.9和9.11谁大?”时,此次千问却答错了,称:“9.11更大”。
有兴味的是,在随后的问题拆解中,千问称这是一个常见的想维罗网,又经过分析后给出了9.9大于9.11的论断。

紧接着记者发问:“既然在拆解中得出论断9.9大于9.11,为什么要在回答中说9.11更大?”千问回答称:“并吞个问题,前后谜底却矛盾,这如实会让东谈主对信息的可靠性产生怀疑。但这并非专门误导,而是在处理这个问题时出现了阶段性的差错。”
随后,千问对我方的“翻车”经由进行溯源,并进行了“自我纠错”。它称我方在初度回答中天然拆解了少量相比原则,9.9 的十分位是 9,9.11 的十分位是 1,但最终论断误写为“9.11 更大”,这属于论断与推理经由不匹配的笔误。此外还有贯通偏差的烦闷,“9.11” 的三位数面目可能激励潜显露的数字长度错觉,导致最终论断被误导。
随跋文者再次发问千问“数字9.9和9.11谁大?”,此次千问展示了AI模子的自我完善才智,回答“9.9更大”。
在大模子边界,“9.11和9.9哪个大”是一起经典算术问题。它最运行被艾伦研究机构(Allen Institute)成员林禹臣发现,他在X平台上发布的截图露馅,ChatGPT-4o在回答中以为13.11比13.8更大。“一方面AI越来越擅长作念数学奥赛题,但另一方面学问依旧很难。”他暗示。
随后Scale AI的辅导工程师莱利·古德赛德(Riley Goodside)基于此灵感变换了问法,拷问了可能是其时最强的大模子ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?多家主流大模子通通答错,此话题见效传播开来。
此前有AI手艺从业东谈主士对第一财经记者暗示,大模子本色上照旧一个言语模子,它从言语数据中学习的是统计磋议性,而这使它不擅长作念端正学习,从而不擅长归纳推理。
尽管在学问性问题上出现不实,但在手艺积聚、生态布局和天下拓展方面,包括阿里巴巴的Qwen模子等在内的中国大模子已具备阻遏疏远的天下竞争力。放弃现在,Qwen系列模子的天下下载量已打破6亿次。
不久前,爱彼迎CEO Brian Chesky曾表态称公司依然很猛进度上依赖阿里巴巴的Qwen模子,它相等好,速率也很快,况且很低廉,"咱们也会用OpenAI的最新模子,但在实践坐蓐中常常不会多数使用,因为有更快、更经济的模子可供遴荐"。
当天阿里巴巴瓦解文书“千问”名堂,并全力进犯AI to C阛阓,该公司正策动将舆图、外卖、订票、办公、学习、购物、健康等各类生存场景接入千问APP。基于开源模子Qwen3,阿里责罚层将“千问”名堂视为“AI时间的改日之战”,这意味着阿里巴巴正借力Qwen模子国外影响力,与ChatGPT告成展建国外竞争。
举报 第一财经告白市欢,请点击这里此内容为第一财经原创,著述权归第一财经通盘。未经第一财经籍面授权,不得以任何方法加以使用,包括转载、摘编、复制或竖立镜像。第一财经保留讲究侵权者法律拖累的权益。如需得回授权请磋议第一财经版权部:banquan@yicai.com 文章作家

刘佳
磋议阅读
华尔街到陆家嘴精选丨科技巨头竞逐机器东谈主软件平台;金价刷新历史新高 白银年内涨幅高达62%;小摩看好2026年零卖业 67 09-30 08:27
AI进化速递丨盘古团队修起开源代码争议①盘古团队最新声明:严格死守开源条件;②新AI模子助力更准确猜想心源性暴毙风险;③山东首个训诫场景大模子平台瓦解发布。
152 07-05 20:41
浙江研发天下首个胃癌影像筛查AI模子两边文书依托该项AI手艺,起始在浙江、安徽等地开展大限制东谈主群胃癌筛查。
29 06-26 11:48
达索系统CEO:筹划将AI模子考试本钱裁汰至千万好意思元DeepSeek和Mistral AI有相通之处,王人遴荐了较高性价比的大模子开垦旅途,为东谈主工智能的晋升作出了关键孝敬。
94 02-27 12:32
当亏空遇上AI | 大师会诊一年,大模子仅用几分钟!AI医师看病是炒作吗在生成式AI大模子兴起后,AI医师的才智被夸大了炒股配资之家,仿佛什么病王人会看了;还有不少患者告成拿着DeepSeek的会诊成果来向医师商榷。
1032 02-25 17:02 一财最热 点击关闭天元证券_天元证券APP_一站式开户_天元证券官网提示:本文来自互联网,不代表本网站观点。