通义实验室推出通用智能体评测基准PawBench_今头条

快讯 来源:界面新闻 2026-06-05 18:38:23


(资料图片)

6月5日,通义实验室推出评测基准PawBench,v1.0版本已开源。它面向个人助理与通用智能体场景,将底座模型与运行框架(Harness)纳入同一评测体系。据介绍,PawBench不是单纯做一个模型排行榜,而是把“模型、Harness、任务”三者放在一起做交叉评测。

标签: PawBench Harness 评测 智能体 开源

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

资讯播报