您正在浏览的是香港网站,香港证监会BJA907号,投资有风险,交易需谨慎
火爆全网!AI新星Groq横空出世,真的能碾压英伟达GPU?
格隆汇 02-21 10:47

火爆AI圈,刷屏互联网!

近期,Groq引发广泛讨论,其大模型每秒能输出750个tokens,比GPT-3.5快18倍,自研LPU推理速度是英伟达GPU的10倍

速度快得出奇

Groq名字与马斯克的大模型Grok读音类似,成立于2016年,定位为一家人工智能解决方案公司。

Groq爆火主要是因为其处理速度非常快。据媒体报道,该公司的芯片推理速度较英伟达GPU提高10倍,成本只有其1/10。

运行的大模型生成速度接近每秒500 tokens,碾压ChatGPT-3.5大约40 tokens/秒的速度。

极限情况下,Groq的Llama2 7B甚至能实现每秒750 tokens,为GPT-3.5的18倍。

在Groq的创始团队中,有8人来自谷歌早期TPU核心设计团队,但Groq并未选择TPU、GPU、CPU等路线,而是自研了语言处理单元(LPU)。

Groq官网显示,在 Groq LPU™推理引擎上运行的Meta AI的Llama 2 70B的性能优于所有其他基于云的推理提供商,吞吐量提高了18倍。

能否取代英伟达?

不过,速度并不是AI发展的唯一决定性因素。在Groq爆火的同时,也有一些质疑声音。

首先,Groq似乎只是看起来了便宜。Groq的一张LPU卡仅有230MB的内存,售价为2万多美元。

有网友分析,英伟达H100的成本效益应为Groq的11倍。

更为关键的是,Groq LPU完全不配备高带宽存储器(HBM),而是仅配备了一小块的超高速静态随机存取存储器(SRAM),这种SRAM的速度比HBM3快20倍。

这也意味着,与英伟达的H200相比,在运行单个AI模型时需要配置更多的Groq LPU。

另据Groq员工透露,Groq的LLM在数百个芯片上运行。

对此,腾讯科技的芯片专家姚金鑫认为,Groq的芯片目前并不能取代英伟达。

他认为,速度是Groq的双刃剑。Groq的架构建立在小内存、大算力上,因此有限的被处理的内容对应着极高的算力,导致其速度非常快。

另一方面,Groq极高的速度是建立在很有限的单卡吞吐能力上的,要保证和H100同样吞吐量,就需要更多的卡。

他分析,对于Groq这种架构来讲,也有其尽显长处的应用场景,对许多需要频繁数据搬运的场景来说再好不过。

关注uSMART
FacebookTwitterInstagramYouTube 追踪我们,查看更多实时财经市场信息。想和全球志同道合的人交流和发现投资的乐趣?加入 uSMART投资群 并分享您的独特观点!立刻扫描下载uSMART APP!
重要提示及免责声明
盈立证券有限公司(「盈立」)在撰写这篇文章时是基于盈立的内部研究和公开第三方信息来源。尽管盈立在准备这篇文章时已经尽力确保内容为准确,但盈立不保证文章信息的准确性、及时性或完整性,并对本文中的任何观点不承担责任。观点、预测和估计反映了盈立在文章发布日期的评估,并可能发生变化。盈立无义务通知您或任何人有关任何此类变化。您必须对本文中涉及的任何事项做出独立分析及判断。盈立及盈立的董事、高级人员、雇员或代理人将不对任何人因依赖本文中的任何陈述或文章内容中的任何遗漏而遭受的任何损失或损害承担责任。文章内容只供参考,并不构成任何证券、虚拟资产、金融产品或工具的要约、招揽、建议、意见或保证。监管机构可能会限制与虚拟资产相关的交易所买卖基金仅限符合特定资格要求的投资者进行交易。文章内容当中任何计算部分/图片仅作举例说明用途。
投资涉及风险,证券的价值和收益可能会上升或下降。往绩数字并非预测未来表现的指标。请审慎考虑个人风险承受能力,如有需要请咨询独立专业意见。
uSMART
轻松入门 投资财富增值
开户