乐鱼体育官方网站LEYU SPORTS[永久网址:363050.com]是一家线上综合娱乐集团,全球最大线上体育娱乐服务商。乐鱼拥有乐鱼体育,LEYU乐鱼体育官方网站,乐鱼体育靠谱吗,乐鱼体育app,乐鱼体育官网,“欧洲马耳他mga”颁发的合法执照,是受国际认可的合法公司。欢迎注册!要知道,过去几年,各种通用评测逐渐同质化,越来越难以评估模型真实能力。GPQA、MMLU-pro、MMLU等流行基准,各家模型出街时人手一份,但局限性也开始暴露,比如覆盖范围狭窄(通常不足 50 个学科),不含长尾知识;缺乏足够挑战性和区分度,比如 GPT-4o 在 MMLU-Pro 上准确率飙到 92.3%。
不过别慌,大模型通用知识推理评测“强化版”来了,堪称大模型评测里的“黄冈密卷”!
近日,字节跳动豆包大模型团队联合 M-A-P 开源社区,推出了全新评测基准 SuperGPQA。
我们翻看论文,细品一番,足足 256 页。据了解,该评测搭建工作耗时半年,近百位学界学者及名校硕博、业界工程师参与标注。
研究团队构建了迄今为止最全面,覆盖 285 个研究生级学科、包含 26529 道专业题目的评估体系。
实验证明,即便最强的 DeepSeek-R1 在 SuperGPQA 上准确率也才 61.82%,在及格线上挣扎,显著低于其在传统评估指标上的表现。
学科覆盖不全:传统基准仅覆盖 5% 长尾学科,图书馆学、植物学、历史地理学等众多学科长期缺席题目质量存疑:公开题库存在数据污染风险,简单改编无法反映真实学术水平评测维度单一:多数测试停留在知识记忆层面,缺乏高阶推理能力评估
除此之外,SuperGPQA 也公开了严格的数据构建过程。整个体系依靠大规模人机协作系统,结合专家标注、众包注释和大模型协同验证三重流程,确保入选题目具有足够高的质量和区分度。
研究人员透露,现在大语言模型评估体系主要有两大“困境”:学科覆盖严重失衡、评测基准挑战性失效。
以 MMLU 和 GPQA 为代表的传统基准,尽管在数学、物理等主流学科中建立了标准化测试框架,但其覆盖的学科数量通常不足 50 个,无法涵盖人类积累的多样化和长尾知识。
而且,GPT-4o 和 DeepSeek-R1 在传统基准上准确率都破 90% 了,导致评测体系失去区分度,无法有效衡量模型在真实复杂场景中的推理上限。
根源就在于传统基准构建范式太单一,数据来源、质量筛选都相对粗糙。传统基准仅依赖教科书例题或在线题库,例如 GPQA 中 42% 的问题来自,导致题目缺乏专业深度,且易被模型通过记忆机制“破解”。
数据显示,GPT-4o 对在线练习网站答案的重复率高达 67.3%,暗示其性能提升可能源于题目数据泄露而非真实推理能力。
此外,众包标注的专业水平参差和主观性问题难度评估进一步加剧了基准的不可靠性——早期尝试中,仅 37% 的众包标注问题通过专家审核,导致超过60%的标注资源浪费。
为解决上述困境,豆包大模型团队联合 M-A-P 开源社区推出 SuperGPQA,旨在深度挖掘 LLMs 潜力,其特点如下:
全面且具区分性:STEM(科学、工程、医学)领域问题占比 77.2%,确保在复杂推理任务中的高效评估。尽管非 STEM 学科(如哲学、文学、历史)问题较少,但仍能有效区分不同 LLMs 的性能。难度分布多样:各学科问题难度均衡分布;在工程和科学领域,难题比例较高。42.33% 的问题需要数学计算或严谨推理,确保模型在高难度任务中的表现。语义结构丰富:t-SNE 可视化显示跨学科聚类模式,工程和科学类问题语义相似,人文学科知识中心独特,不同领域语言特色鲜明。题目设计一致:平均问题长度 58.42 字,选项长度统一,迷惑性和挑战性拉满,评测公平又可靠。
作为基准测试,SuperGPQA 非常全面,覆盖 13 个门类、72 个一级学科和 285 个二级学科,共 26,529 个问题,把现有 GPQA(448 题)和 MMLU-Pro(12,032 题)远远甩在身后。同时,每题平均 9.67 个选项,也比传统 4 选项格式挑战性高得多。
团队设计时,深知众包注释方法在高复杂度题目上的不足,因此引入了专家注释员,确保题目来源靠谱、难度合适。再结合最先进的 LLMs 辅助质量检测,效率拉满,也通过多模型协作降低了题目数据泄漏的风险。
此外,团队还强调严格流程管理和持续质量反馈,保证每阶段输出都达标。靠着系统化、专业化流程,SuperGPQA 题库质量飙升,后期修正成本和时间大幅减少。
为保证题目高质量,团队直接抛弃众包注释员收集资源的老路,转而让专家注释员从可信来源(教科书、权威练习网站)筛选、收集原始问题。
这招一出,避免了早期大量无效问题的产生,并通过要求提供来源截图,大幅提升了质量检测的效率和准确性。
转录阶段,专家注释员对收集的原始问题进行语言规范化、格式转换,确保所有问题都有统一学术语言和标准多项选择题格式。
团队发现,即使是最先进的语言模型(LLMs)在生成干扰项时也存在漏洞,因此需要专家统一重写,以提高干扰项的准确性和有效性,确保题目的挑战性和区分度。
质量检测阶段采用多层次的检测机制,包括 :1)基于规则的初步过滤:识别并过滤格式明显不合规范的题目。2)基于 LLM 的质量检测:多个先进 LLMs(如 GPT-4、Gemini-flash 等)齐上阵,有效性、负面和极端询问检测、多模态排除、领域相关性评估、区分度标记都不在线)专家复审:专家注释员对可疑题目进行二次审核,确保题库的高可靠性和高区分度。
SuperGPQA 还做了全面的实验,来测试业界主流 LLM 的能力表现。评估涵盖 6 个推理模型、28 个聊天模型、17 个基础模型,闭源、开源、完全开源模型全覆盖。
团队发现,在涵盖 51 个模型的横向评测中,DeepSeek-R1 以 61.82% 准确率登顶,但其表现仍显著低于人类研究生水平(平均 85%+)。
3、学科表现失衡* STEM 领域优势显著:在「理论流体力学」「运筹学和控制论」等子领域,Top 模型准确率超 75%
人文社科仍是短板:在「舞蹈研究」「设计艺术」等领域,最优模型准确率不足 50%
一直以来,评估数据集对提升大模型的效果上限至关重要,甚至有可能是“最关键的部分”。
但评测数据集的搭建耗费大量人力,很大程度依靠开源贡献。早在去年,字节就在开源评测数据集上有所行动,覆盖超 11 类线 种编程语言的代码大模型评估基准 Fullstack Bench 受到开发者好评。
此番字节再次亮出耗时半年打造的SuperGPQA,进一步打破外部关于“字节对基础工作投入不足”的印象。另一方面,也侧面暴露字节内部对模型能力的极高目标。
结合近期我们关注到的 DeepMind 大牛吴永辉加入,全员会定下“追求智能上限”的目标。
02月26日,中国香港泳手何诗蓓返港:享受比赛、没有遗憾,千亿pt官网,cq9网站,大三元娱乐城,BBIN体育直播下载
02月26日,安徽黄山:西溪南首届国际村BA开赛,亚星官网APP,皖青体育注册,六合简报,必威官网登录手机
02月26日,第三届广东青少年粤剧夏令营开营,足球全场让球什么意思,什么app能免费打德州,乐鱼网站是多少,英亚体育app官网
02月26日中方答与瑙鲁开展合作:我们不会为合作领域设置任何限制365bet体育在线投注云顶免费试玩网上彩票官方网站彩票大赢家
02月26日1元包装费缘何引发质疑?专家:商家应尊重消费者选择权亚蒪体育下载联众游戏满贯捕鱼可以金币可以卖钱不热血无赖麻将
02月26日【东西问·中外对话】丘索维金娜:中国举办奥运会可靠、有序,这对运动员很重要AG真人老板是谁阳光在线开云电竞美高梅手机版……
02月26日,宁夏中宁:“苦”药材种出“甜”滋味,火狐足球推荐,珠都国际逃脱计划真人密室,申博app平台,宝博官网
02月26日,粤港青年广州体验“扒龙舟”,申搏官网安装,永利博澳门,靠谱的买球app,大红鹰正版免费资料大全
02月26日广东省市场监管局提醒:谨防误食断肠草引发食物中毒必赢网站是哪一个永盛国际彩票平台大发黄金版游戏下载凯发娱乐官方网站登录入口
02月26日,西藏出入境边防检查总站深入基层艰苦偏远单位开展主题实践活动,体育在线网址投注,韦德体育开户网址,博鱼赌场网站,黄金岛手机官网
02月26日,佛山发出首张双皮奶食品生产许可证,网上国际真人,乐鱼正规直营,老凤凰娱乐app官网下载,哪可以线日,数说湾区丨四图速览大湾区发展,大丰国际彩票平台,leyu乐鱼怎么开户,官方直营彩票网站,亚游集团AG
02月26日港区广东省政协委员联名建议为大湾区建好人才“蓄水池”ag信誉平台bet98唯一正规官方网站万赢体育官网网址
02月26日洋主播说节气:这里的夏天,从“半山娘娘庙”的一碗乌米饭开始a8体育188体育在线真人国际-皇 恩赐金
02月26日一线调研丨枯木也能长新芽?为胡杨林“解渴”他们有妙招威尼斯人老品牌天尊报立博app下载皇冠买球app下载平台
男子卖10万元黄金后银行账户被冻结,狗剩快跑杏儿下线新疆塔城局部地区出现大面积雾凇 城乡处处玉树琼枝188足球比分手机叛凯发娱乐官网登陆页面7m比分凯发k8娱乐官方
谁杀了她,一日连打三“虎”广东省政协常委陈美仪:建议开放横琴居住、经商、工作人群多次往返澳门威趣游戏中心真人国际象棋玩具沙巴体育注册开户伟德BV网页版
竹缠绕复合材料亮相威海杨笠登上经济学人专题报道,拯救者2024四川甘孜州:稻城亚丁牛奶海如蓝宝石镶嵌群山优德体育w88官网手机版扑克王app链接MG电子直播视讯凯发娱乐最新官方网站
电影《热辣滚烫》将在日本上映,天空之城山西古县万亩小麦迎来收割季必威在线体育凤凰彩票备用网址pt平台送体验金
暗杀女仆冥土小姐,JDG官宣ALE加入大梦归离网络主播“转正”,专家称多元化发展可期国际音标线九州平台官网澳门网上国际188bet金宝搏体育
在泰国遭辱骂女子透露事件最新进展,金华一特斯拉坠崖致夫妻身亡陕西铁路端午小长假发送旅客257.21万人次 创历史同期新高好运来棋牌粹皇家马德里官网澳门皇冠h0106com客服飞禽走兽单机
@BETHASH6