您正在瀏覽的是香港網站,香港證監會BJA907號,投資有風險,交易需謹慎
海天瑞聲(688787.SH):在數據規模、質量、來源等方面,預訓練數據較傳統訓練數據會存在一定差異
格隆匯 07-17 15:53

格隆匯7月17日丨海天瑞聲(688787.SH)接受特定對象調研時,有投資者問及:大模型範式下的預訓練階段數據需求和傳統的數據需求有什麼區別?

公司回覆:大模型預訓練階段的數據需求和深度學習技術路線下的傳統訓練數據需求,兩者在形態上基本一致,都是文本、語音和圖像,但在數據規模、質量、來源等方面,預訓練數據較傳統訓練數據會存在一定差異。例如,規模上,預訓練數據的token量普遍在萬億量級,而傳統模型數量則大約在10億量級。從數據來源的角度看,由於大模型所需數據規模遠超傳統模型,因此其數據來源將更加豐富以滿足規模化、多元化數據需求。具體來説,大模型數據來源除了來自傳統的定向採集外,還將涉及版權數據、公共數據等新型海量高質量數據來源。

此外,數據處理的核心技術也存在一定差異。例如,由於大模型預訓練階段的原料數據規模更大,因此大模型預訓練數據更加註重數據清洗的工程化能力,在預訓練階段需要結合原料數據特點以及所涉及的主題、領域等,對海量數據完成高質量清洗,這對數據服務商的工程化數據處理能力以及過往服務經驗的積累都提出了更高要求。

關注uSMART
FacebookTwitterInstagramYouTube 追蹤我們,查閱更多實時財經市場資訊。想和全球志同道合的人交流和發現投資的樂趣?加入 uSMART投資群 並分享您的獨特觀點!立刻掃碼下載uSMART APP!
重要提示及免責聲明
盈立證券有限公司(「盈立」)在撰冩這篇文章時是基於盈立的內部研究和公開第三方信息來源。儘管盈立在準備這篇文章時已經盡力確保內容為準確,但盈立不保證文章信息的準確性、及時性或完整性,並對本文中的任何觀點不承擔責任。觀點、預測和估計反映了盈立在文章發佈日期的評估,並可能發生變化。盈立無義務通知您或任何人有關任何此類變化。您必須對本文中涉及的任何事項做出獨立分析及判斷。盈立及盈立的董事、高級人員、僱員或代理人將不對任何人因依賴本文中的任何陳述或文章內容中的任何遺漏而遭受的任何損失或損害承擔責任。文章內容只供參考,並不構成任何證券、虛擬資產、金融產品或工具的要約、招攬、建議、意見或保證。監管機構可能會限制與虛擬資產相關的交易所買賣基金僅限符合特定資格要求的投資者進行交易。文章內容當中任何計算部分/圖片僅作舉例說明用途。
投資涉及風險,證券的價值和收益可能會上升或下降。往績數字並非預測未來表現的指標。請審慎考慮個人風險承受能力,如有需要請諮詢獨立專業意見。
uSMART
輕鬆入門 投資財富增值
開戶