您正在浏览的是香港网站,香港证监会BJA907号,投资有风险,交易需谨慎
李开复:差距缩小意料之中,LM SYS“厮杀”测试是强强对决
格隆汇 06-13 20:07

近日,零一万物CEO、创新工场董事长李开复做客格隆汇高端访谈《格隆博士会客厅》。

李开复表示,虽然自己的大模型跟国外万亿大模型差距不远令人感到自豪,但也是意料之中的事情

因为其实训练大模型的过程中可以看到模型是不是在进步所以大模型的测试是有一个可预测的结果只是结果出来之前对外讲了没有人会信,也没有意义。

因为没有一个公开的标准来测大模型,所以LM SYS这个评测的方法是特别有意义的。

如果要测比如搜索引擎的速度、精度,或者是一个操作系统的速度,又或者向量数据库的速度,它都是一个比较客观的标准。李开复认为,做大模型主打一个用户的体验感。问题答得好不好、有没有解决疑难、有没有犯错、描述的方式是不是让人喜欢等等,这些都是很主观的因素。

至于怎么找一大批主观的人去测这些模型,LM SYS就有几个很有意思的方法论。

一个就是他们全球征召用户例如每一位观众都可以到LM SYS去看擂台,然后每一个模型都有几万个测试者。

另一个是是个第三方机构。每一个做大模型的公司例如Google、OpenAI、Anthropic以及国内的几家公司都是提交了模型让对方来测,然后它的数据都是公开的、透明的,可以看到自己得了多少票。

而且,有一个厮杀的方式,有点类似踢足球或者打网球半决赛,为了让很强的模型跟更强的模型多做对比。它不是一轮一轮地在做,而是同时让差不多强的大模型去比赛,然后接近千万用户自愿花时间给模型投票,最后模型的得分类似于国际象棋、围棋的得分。

所以它是客观的、有效的、真实的、第三方的、基于用户的,而且它测试模型的时候是盲测的,投完票之后它才会显示是哪两个公司的模型。

 

更多精彩完整内容,请关注抖音/视频号:格隆博士会客厅、格隆博士。

关注uSMART
FacebookTwitterInstagramYouTube 追踪我们,查看更多实时财经市场信息。想和全球志同道合的人交流和发现投资的乐趣?加入 uSMART投资群 并分享您的独特观点!立刻扫描下载uSMART APP!
重要提示及免责声明
盈立证券有限公司(「盈立」)在撰写这篇文章时是基于盈立的内部研究和公开第三方信息来源。尽管盈立在准备这篇文章时已经尽力确保内容为准确,但盈立不保证文章信息的准确性、及时性或完整性,并对本文中的任何观点不承担责任。观点、预测和估计反映了盈立在文章发布日期的评估,并可能发生变化。盈立无义务通知您或任何人有关任何此类变化。您必须对本文中涉及的任何事项做出独立分析及判断。盈立及盈立的董事、高级人员、雇员或代理人将不对任何人因依赖本文中的任何陈述或文章内容中的任何遗漏而遭受的任何损失或损害承担责任。文章内容只供参考,并不构成任何证券、虚拟资产、金融产品或工具的要约、招揽、建议、意见或保证。监管机构可能会限制与虚拟资产相关的交易所买卖基金仅限符合特定资格要求的投资者进行交易。文章内容当中任何计算部分/图片仅作举例说明用途。
投资涉及风险,证券的价值和收益可能会上升或下降。往绩数字并非预测未来表现的指标。请审慎考虑个人风险承受能力,如有需要请咨询独立专业意见。
uSMART
轻松入门 投资财富增值
开户