对标OpenAI o1!Kimi发布新一代推理模型:中考高考考研全第一
11月18日消息,对标代推第日前,布新国内人工智能公司月之暗面推出的理模Kimi国产大模型正式发布k0-math。
k0-math是型中Kimi推出的首款推理能力强化模型,采用全新强化学习和思维链推理技术,考高考考通过模拟人脑的研全思考和反思过程,大幅提升解决数学难题的对标代推第能力。
据了解,布新在多项数学基准能力测试中,理模k0-math的型中表现能对标OpenAI o1系列可公开使用的两个模型:o1-mini和o1-preview。
根据官方公布的考高考考结果,在中考、研全高考、对标代推第考研以及包含入门竞赛题的布新MATH等4个数学基准测试中,k0-math初代模型成绩超过o1-mini和o1-preview模型,理模拿下第一。
在业界最常使用的数学能力基准测试MATH 中,k0-math模型得分93.8,超过 o1-mini的90分和o1-preview的85.5分。
官方表示,k0-math这一成绩仅次于暂未开放使用的o1完全版94.8分。
据介绍,常规模型的设定目标是尽快提供问题的答案,但k0-math不同,k0-math模型在做题过程中会花更长的时间来推理,包括思考和规划思路,并且在必要时自行反思改进解题思路,提升答题的成功率。
不过,月之暗面坦言,k0-math虽然擅长解答大部分很有难度的数学题,但是当前版本还无法解答LaTeX格式难以描述的几何图形类问题。
另外,k0-math还有一些局限性需要突破,包括对于过于简单的数学问题,例如1+1等于几,k0-math模型可能会过度思考,对于高考难题和IMO题目依然有一定概率做错、猜答案。
月之暗面表示,这些局限性既是机遇,也是挑战,预计将在下一阶段的模型迭代中逐步得到改善。
相关文章
- 12月26日消息,据媒体报道,近日,天眼查显示,蔚来控股有限公司蔚来中国)近日再度发生工商变更,其注册资本由约74.29亿元人民币增加至约78.57亿元人民币,此次增资规模超过4亿元人民币。值得注意的2024-12-27
- 12月8日讯 据记者José Luis Sánchez透露,不排除贝林厄姆缺席对阵亚特兰大比赛的可能性,而门迪几乎不可能出战此役。在皇马客场3-0击败赫罗纳的西甲比赛中,贝林厄姆、门迪因伤离场。Jos2024-12-27
- 12月8日讯 在英超第15轮比赛中,曼联主场2-3不敌诺丁汉森林。英格兰足坛名宿希勒在BBC节目中表示,曼联新帅阿莫林肩负重任。希勒说道:“阿莫林来到这家俱乐部的时候一定会想——‘这就是你们给我的?你2024-12-27
- 12月8日讯 北京时间今天凌晨,本赛季英超第15轮,曼联主场2-3负于诺丁汉森林,在talkSPORT担任评论员杰森-坎迪Jason Cundy)和奥哈拉Jamie O'Hara)批评了奥纳纳在曼2024-12-27
左神和明神合体绝对比之前的pero猛,两个生涯kd1.4以上的想都不要想
左神和明神合体绝对比之前的pero猛,两个生涯kd1.4以上的想都不要想由马别别与马克达发表在绝地求生 pubgmming可不是cui71那种菜逼mming可不是cui71那种菜逼2024-12-27官方:熊猫杯11月13日首轮中国U19vs蒙古U19,开球时间调整为19点
11月6日讯根据中国足协官方的消息,本届熊猫杯中国U19男足首场比赛的开球时间将进行调整。11月13日2024CFA中国之队·熊猫杯国际足球锦标赛将开打。第一比赛日中国U19男足与蒙古U19男足的开球2024-12-27
最新评论