天元证券_天元证券APP_一站式开户_天元证券官网

9.11和9.9谁更大？

客岁，这谈小学生难度的数学题难倒了一众海表里AI大模子。其时第一财经记者测试了12个大模子，其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对了，但ChatGPT-4o、豆包、kimi王人错了，错法各有不同。

当天，当第一财经记者发问阿里巴巴最新公测的千问APP：“数字9.9和9.11谁大？”时，此次千问却答错了，称：“9.11更大”。

有兴味的是，在随后的问题拆解中，千问称这是一个常见的想维罗网，又经过分析后给出了9.9大于9.11的论断。

紧接着记者发问：“既然在拆解中得出论断9.9大于9.11，为什么要在回答中说9.11更大？”千问回答称：“并吞个问题，前后谜底却矛盾，这如实会让东谈主对信息的可靠性产生怀疑。但这并非专门误导，而是在处理这个问题时出现了阶段性的差错。”

随后，千问对我方的“翻车”经由进行溯源，并进行了“自我纠错”。它称我方在初度回答中天然拆解了少量相比原则，9.9 的十分位是 9，9.11 的十分位是 1，但最终论断误写为“9.11 更大”，这属于论断与推理经由不匹配的笔误。此外还有贯通偏差的烦闷，“9.11” 的三位数面目可能激励潜显露的数字长度错觉，导致最终论断被误导。

随跋文者再次发问千问“数字9.9和9.11谁大？”，此次千问展示了AI模子的自我完善才智，回答“9.9更大”。

在大模子边界，“9.11和9.9哪个大”是一起经典算术问题。它最运行被艾伦研究机构(Allen Institute)成员林禹臣发现，他在X平台上发布的截图露馅，ChatGPT-4o在回答中以为13.11比13.8更大。“一方面AI越来越擅长作念数学奥赛题，但另一方面学问依旧很难。”他暗示。

随后Scale AI的辅导工程师莱利·古德赛德（Riley Goodside）基于此灵感变换了问法，拷问了可能是其时最强的大模子ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大？多家主流大模子通通答错，此话题见效传播开来。

此前有AI手艺从业东谈主士对第一财经记者暗示，大模子本色上照旧一个言语模子，它从言语数据中学习的是统计磋议性，而这使它不擅长作念端正学习，从而不擅长归纳推理。

尽管在学问性问题上出现不实，但在手艺积聚、生态布局和天下拓展方面，包括阿里巴巴的Qwen模子等在内的中国大模子已具备阻遏疏远的天下竞争力。放弃现在，Qwen系列模子的天下下载量已打破6亿次。

不久前，爱彼迎CEO Brian Chesky曾表态称公司依然很猛进度上依赖阿里巴巴的Qwen模子，它相等好，速率也很快，况且很低廉，"咱们也会用OpenAI的最新模子，但在实践坐蓐中常常不会多数使用，因为有更快、更经济的模子可供遴荐"。

当天阿里巴巴瓦解文书“千问”名堂，并全力进犯AI to C阛阓，该公司正策动将舆图、外卖、订票、办公、学习、购物、健康等各类生存场景接入千问APP。基于开源模子Qwen3，阿里责罚层将“千问”名堂视为“AI时间的改日之战”，这意味着阿里巴巴正借力Qwen模子国外影响力，与ChatGPT告成展建国外竞争。

举报第一财经告白市欢，请点击这里此内容为第一财经原创，著述权归第一财经通盘。未经第一财经籍面授权，不得以任何方法加以使用，包括转载、摘编、复制或竖立镜像。第一财经保留讲究侵权者法律拖累的权益。如需得回授权请磋议第一财经版权部：banquan@yicai.com 文章作家