You are browsing the Hong Kong website, Regulated by Hong Kong SFC (CE number: BJA907). Investment is risky and you must be cautious when entering the market.
ChatGPT興起,創成式AI能否重塑工具軟件底層邏輯?

本文來自格隆匯專欄:中金研究,作者: 於鍾海 王之昊等

ChatGPT近期在全球範圍內掀起又一輪AI熱潮。其火爆讓業界意識到AI行業在通往AGI(通用人工智能)的路途上更近一步,也引發了世界範圍內對AGI未來會如何重塑各行各業的討論與暢想。在諸多應用場景之中,我們尤為關注創成式AI對工具軟件的賦能,本篇報吿分別從短期、長期角度討論創成式AI可能對工具軟件底層商業邏輯和產業生態帶來的變化,我們建議持續關注產業最新商業落地進展,強調“短期保守,長期不低估”的觀點。

摘要

ChatGPT向AGI更近一步,通用人工智能賦能應用軟件成為可能,其中與工具軟件結合想象空間寬廣。對應用軟件廠商而言,接入AI大模型短期成本低,長期想象空間大,因此我們觀察到絕大多數應用軟件廠商均積極接入大模型能力。目前,以ChatGPT為代表的AI大模型能力主要在於人機交互對話AI以及創成式AI,其與應用軟件的結合主要涵蓋AI+工具類軟件、AI+搜索引擎、AI+服務類應用、AI+垂直行業應用等方向。我們認為其中創成式AI與工具類軟件具有天然契合性,下游應用場景、想象空間廣闊。

短期維度:融合創成式AI提升生產效率,成為工具軟件競爭的新焦點。目前創成式AI主要以嵌入現有工具軟件的方式幫助用户提升生產效率,在文字(如Notion AI)、圖片(如Stable    Diffusion、Midjourney)、視頻(如Make-A-Video)、3D模型創作、音頻等領域已有眾多廠商參與探索實踐。我們認為,產品價值角度,AI融合應用的功能或將成為工具軟件的增量付費點;競爭角度,原生於AI的新興廠商、傳統廠商對AI應用融合的跟進速度都將使現有格局產生變化。但隨着創成式AI應用的普及,未來AI融合工具軟件可能成為“標配”,屆時AI融合場景的應用深度將成為競爭新焦點。

長期維度:創成式AI或將重塑商業邏輯,實現生產工具向生產力的躍遷。理想情況下,我們認為,未來真正的AGI將能夠不依賴於人類用户的命令與引導進行創作,AI賦能下的工具軟件有可能完成從生產工具提供方向生產力提供方的轉變,屆時底層AI能力提供方與工具軟件廠商將共同參與生產價值的分配。為了更好地理解長期視角下AI對於商業邏輯的重塑,我們將AGI從產業結構、商業邏輯、競爭格局和價值分享角度與雲計算進行對比分析,我們認為正如目前“上雲”已成為應用軟件的“必修課”,未來“AI+”也可能成為應用軟件標配,並帶來新一輪價值釋放。

風險

技術進展不及預期、商業化落地節奏不及預期、行業競爭加劇。

正文

AGI大模型漸入佳境,創成式AI深度賦能工具軟件

ChatGPT向AGI更近一步,通用人工智能賦能應用軟件成為可能

ChatGPT掀起全球AI熱潮,通往AGI的道路亦或將近。ChatGPT(Chat Generative Pre-Trained Transformer)是由OpenAI開發的人工智能聊天機器人程序,其基於GPT-3.5大模型,能夠完成相對複雜的語言處理任務,包括人機對話、自動文本生成、自動摘要、編寫代碼等,在2022年11月推出,上線兩個月後用户數量即達到1億規模,在全球範圍內掀起又一輪AI熱潮。ChatGPT的火爆讓業界意識到AI行業在通往AGI(通用人工智能)的路途上更近一步,進而也引發了世界範圍內對AGI未來會如何重塑各行各業的討論與暢想。

全球範圍內各類應用軟件廠商積極擁抱以OpenAI為代表的人工智能新生態。在ChatGPT推出之後,微軟計劃對OpenAI追加100億美元投資並在旗下搜索、辦公軟件中探索融合應用場景。由於ChatGPT顯現出的巨大應用潛力與可能性,全球廣大應用廠商也均開始積極嘗試接入OpenAI的技術接口,以期AI與其現有產品能夠產生新的化學反應。國內市場亦快速跟進,百度宣佈旗下對標產品文心一言將於3月完成內測、面向公眾開放,目前國內已有上百家企業宣佈接入文心一言,其中不乏漢得信息、金蝶、宇信等企業服務軟件廠商。同時,我們預計國內外將持續出現更多的大模型,吸引更多的應用軟件廠商豐富、壯大AI生態。

對於應用軟件廠商而言,接入AI大模型短期成本投入較低,長期想象空間較大。由於目前ChatGPT等大模型均在發佈初期,商業模式探索亦剛剛起步,現階段重點在於生態構建而非商業變現,因此無論是OpenAI、百度還是其他大模型廠商,短期對於應用軟件廠商的接口調用均保持開放態度。這意味着,對於應用軟件廠商而言,其短時間內接入AI的成本不高,而AI對其產品形態以及商業邏輯長期能夠帶來的積極變化卻頗具想象力,因此我們觀察到絕大多數的應用軟件廠商均積極接入大模型能力,相關應用軟件數量正呈現指數級擴張的態勢

目前以ChatGPT為代表的AI大模型能力主要在於人機交互AI能力以及創成式AI能力等,而其與應用軟件的結合主要涵蓋以下幾個方向:

► AI+工具類軟件:輔助文字、圖片、視頻生產。AI與創作工具類軟件的融合應用主要發揮的是ChatGPT等LLM大模型的創成式AI能力,其能夠基於用户輸入的指令和引導完成文字生成、圖片生成、視頻生成等輔助創作類任務。目前典型的應用代表包括文字類的Notion AI、Office(微軟計劃將ChatGPT接入);圖片類的Stable Diffusion(Stability AI旗下)、Midjourney、DALL-E(OpenAI旗下)、Imagen(谷歌旗下)和視頻類的Designs.ai、Make-A-Video(Meta旗下)、Lumen5等。

► AI+搜索引擎:藉助自然語言處理將傳統的搜索點擊轉變為互動問答形式,並生成個性化結果。AI與搜索引擎的結合發揮的主要是基於自然語言處理的人機交互對話能力,以問答的形式幫助用户解決問題,即時生成個性化的規劃、建議、分析等。典型代表包括接入ChatGPT能力後增加互動聊天和輔助寫作功能的微軟NewBing搜索引擎。

► AI+服務類應用:發揮人機交互能力改善自助式服務體驗。AI與服務類應用的結合主要以自助問答聊天機器人的形式落地,發揮LLM大模型的人機交互能力。典型代表包括電商、遊戲、地圖等各類服務應用場景中的智能問答、幫助機器人。

► AI+垂直行業應用:與現有垂類行業應用結合,本質上亦歸屬於上述三種形態。典型代表包括宇信、漢得、金蝶、恒生電子等,融合大模型的人機交互、創成能力,實現更高效的信息獲取、分析、形成智能解決方案等。我們認為,其本質上亦可以歸類為上述三種形態中的某一種,未來需要進一步探索如何與垂直場景進行更好的結合,針對行業性語料進行更深度的訓練以發揮更好的效果。

圖表:AI大模型與應用軟件的主要融合方向

資料來源:各公司官網,中金公司研究部

應用軟件廠商在AI領域的投入將更專注於AI應用場景的探索以及與現有應用的融合。從整個AI產業鏈的分工來看,我們認為未來大模型廠商將會承擔絕大部分的底層算法開發優化工作,而應用軟件廠商則會更專注在應用場景的發掘、深耕,以及與現有AI大模型更深度的融合應用。對於通用人工智能未來能否實現產業化,我們認為先進的底層大模型以及與之相匹配的上層應用均缺一不可,AI廠商與應用軟件廠商未來將會有更加緊密合理的分工合作。

在上述的應用方向與場景中,我們更為關注創成式AI與工具軟件結合的可能性。以ChatGPT為代表的大模型應用中,創成式AI是較為突出的能力,且與現有的工具類軟件(文字創作工具、圖片創作工具、3D模型創作工具等)具有天然的契合性,下游應用場景廣闊、頗具想象空間。因此在本篇報吿中,我們將主要聚焦於創成式AI對工具軟件的賦能,以及其長期重塑工具軟件底層商業邏輯和產業生態的可能性。

創成式AI賦能工具軟件將為其創造哪些可能性?從短期維度來看,目前創成式AI主要以嵌入到現有工具軟件中的方式,作為創新性的輔助功能來幫助用户提升生產效率,廠商可以將其作為增值服務來額外收費;但從長期來看,如果未來創成式AI能夠實現不依賴於用户引導的主動式創作,則其有望實現從生產工具向生產力的蜕變,真正意義上替代部分“創作人員”的工作。因此我們對於創成式AI的態度是,短期保守,長期不低估。

圖表:全球範圍目前已經或計劃接入OpenAI、文心一言等語言類大模型的應用一覽

資料來源:同花順財經,IT之家,新民晚報,新浪財經,中金公司研究部

短期維度:融合創成式AI提升生產效率,成為工具軟件競爭的新焦點

目前創成式AI主要以嵌入現有工具軟件的方式幫助用户提升生產效率。工具軟件融合創成式AI後,能夠在用户指定的框架、指令與引導下進行輔助式創作,進而幫助用户減少重複性、機械性、規則導向的勞作,甚至進而承擔具有一定創造性的工作,比如基於指引在現有語料庫基礎之上收集歸納形成文字創作、基於文字描述生成圖片與視頻、在3D模型創作中輔助實現參數優化等。目前在文字、2D圖片、3D模型、音頻、視頻等多個模態領域已有眾多廠商選擇參與探索實踐:

► 創成式AI與文字創作:海外廠商如Notion內置了AI寫作助手可以根據用户描述自動生成不同應用場景下的文本內容,微軟亦計劃在Office中接入ChatGPT能力;國內廠商如金山辦公旗下WPS可以實現文檔校對、全文翻譯和輔助寫作等功能。除了C端應用之外,亦有廠商開發了專門面向企業的AI輔助文字創作產品,典型代表為第四範式旗下的式説,能夠將GPT這類大型生成式語言模型與企業內部垂直領域知識融合、同時保障私有化部署,以滿足企業級應用對垂直行業知識、數據安全、內容可信等的要求。

► 創成式AI與圖片創作:海外已有較多公司推出基於文字生成圖像的產品,流行度較高的包括OpenAI旗下DALL E 2、Stability AI旗下Stable Diffusion、Midjourney等,其操作流程大多類似,輸入關鍵詞即可生成多幅AI繪畫內容,並支持進一步修改和添加細節,各廠商在生成圖片風格上各異,DALL-E2偏寫實、Midjourney偏科幻、Stable Diffusion無風格偏向可根據細節指令多次嘗試調整。國內亦有廠商跟進如崑崙萬維旗下的天工巧繪和萬興科技旗下的萬興愛畫等。

► 創成式AI與音頻創作:海外廠商如谷歌在去年10月發佈了AudioLM,可以根據輸入的音頻片段生成相似風格的音頻,今年1月又推出MusicLM,可直接根據文字、圖像生成音樂;微軟也於今年1月發佈了VALL-E,只需3秒音頻即可模仿人説話,且可以複製説話者的情緒和語氣;此外還有Stability AI旗下的Dance Diffusion、Open AI旗下Jukebox。國內亦有廠商跟進,包括訊飛配音、百度語音合成和騰訊智影等。

► 創成式AI與視頻創作:海外廠商如Meta旗下的Make-A-Video支持根據文字描述生成視頻;谷歌旗下Imagen Video和Phenaki分別支持不同畫質和長短要求的視頻創作,2月初其再次發佈視頻編輯新方法Dreamix,能夠實現對已有視頻的編輯和通過提供圖片與描述生成視頻;此外還有Runway推出的AI視頻生成模型GEN-1。國內廠商亦有所嘗試,如萬興旗下的萬興播爆支持根據關鍵詞生成數字人宣傳視頻、百度孵化的VidPress支持導入圖文後自動實現配音、字幕、畫面的視頻內容生產,此外還有當虹科技的畫質增量類AI產品和商湯智影推出的輔助智能腳本創作產品。

► 創成式AI與3D模型創作:Creo、Autodesk Fusion360、Solid Edge、Solidworks等3D CAD產品目前已廣泛集成AI Inside應用能力,主要用於輔助實現參數優化和草圖生成;在EDA領域,Synopsys、Cadence等海外EDA廠商在AI賦能芯片設計上均有所探索,通過已有的設計數據訓練模型,實現更高的設計效率。

工具軟件與AI的融合能夠優化用户體驗與生產效率,提升產品競爭力。無論從帶給用户“新奇感”還是從提升用户生產效率的角度,接入AI對於工具軟件而言都是提升產品吸引力與競爭力的較優選擇。同時由於短期接入大模型的試錯成本較低,我們判斷廣大的工具軟件廠商對於相關能力的接入都會抱有開放的態度,產業生態有望快速壯大。

但客觀來看,目前的創成式AI仍具有多方面不足,主要作為輔助生產工具的形式出現。由於目前以ChatGPT為代表的創成式AI仍存在缺乏特定行業語料訓練、語料庫滯後、無法保證邏輯推理正確性等多種不足,因此短期僅作為輔助生產工具的形式出現,並不具備完全主動進行生產創作的能力。並且在使用的過程中,用户也需要額外注意可能存在的版權糾紛、敏感信息、偏見歧視等方面的問題。我們認為,創成式AI與應用軟件融合仍處於起步階段、提升空間廣闊。

AI賦能工具軟件後,短期會對行業生態及商業格局帶來哪些影響?

產品價值角度,AI融合應用的功能或將成為工具軟件的增量付費點。短期來看,工具軟件廠商能夠將與AI的融合應用作為差異化功能點和增值服務,向用户進行增量收費,進而打開產品付費天花板。比如微軟發佈的Teams Premium,需以每月10美元的價格訂閲享用基於GPT-3.5的自動生成會議筆記等功能;同為微軟旗下的輔助代碼生成和修改應用Copilot亦需額外付費;Notion目前AI增強功能alpha測試版本免費,但官方表示未來正式版本將大概率收費。

圖表:AI增強功能或將成為工具軟件的增量付費點,進一步打開產品收入天花板

資料來源:公司官網,中金公司研究部

競爭角度,原生於AI的新興廠商、傳統廠商對AI應用融合的跟進速度都將使現有格局產生變化。我們將AGI看作一個新的技術革命,可能對傳統產業格局帶來衝擊。類比雲計算時代,Salesforce等新興SaaS廠商把握“上雲”新趨勢,異軍突起“超車”SAP等老牌軟件廠商;而Oracle、微軟等傳統廠商的雲轉型成效也直接影響其市場影響力演變趨勢。事實上,目前已有一批AIGC相關獨角獸正快速發展,在未來的AI融合應用時代,我們認為原生於AI的新興廠商的出現及傳統廠商AI轉型效果都可能給現有的競爭格局帶來改變。

圖表:AIGC相關獨角獸正快速發展,或使現有格局發生變化

資料來源:鯨準,中金公司研究部

但隨着創成式AI應用的普及,未來AI融合工具軟件可能成為“標配”。由於工具軟件廠商不需要在AI大模型開發上投入成本,而只需專注於AI融合應用的實踐與適配,前期成本並不高,因此我們判斷如果早期參與的工具軟件廠商通過融合AI實現了商業成功,產業中的其他參與者將會快速跟進,AI融合工具軟件或將成為“標配”。在這種情況下,我們認為,工具軟件廠商可能將無法繼續對AI增強功能進行單獨收費,而廠商之間競爭的差異點也會從“有無AI增強”變為“能否用好AI”。

未來AI融合場景的應用深度將成為工具軟件廠商競爭的新焦點。當AI融合應用成為工具軟件廠商的“標配”後,廠商之間競爭的焦點將落在如何發掘更適合AI的應用場景、最大限度發揮創成式AI的效能上。在同樣都能夠接入AI通用大模型能力的前提下,我們認為未來能夠將AI與現有應用場景更好融合、更大程度發揮AI價值的廠商有望在新一輪的競爭中勝出,一些領域現有固化的競爭格局也可能會受到衝擊甚至的顛覆。

長期維度:創成式AI或將重塑商業邏輯,實現生產工具向生產力的躍遷

理想中的AGI能夠將生產工具升級為生產力,重塑工具軟件底層商業邏輯。長期來看,AGI(通用人工智能)融合工具軟件應用具有較大的想象空間,產業中不乏將通用人工智能比作新一次“工業革命”以及“科技奇點”的觀點。理想情況下,我們認為,未來真正的AGI將能夠不依賴於人類用户的命令與引導進行創作,彼時,融合了AGI自主創作能力之後的工具軟件將不再僅僅是輔助人類用户提效的“生產工具”,而成為獨立的增量“生產力”。

AI賦能下的工具軟件成為生產力後應直接參與生產價值的分配,生產價值由底層AI能力提供方與工具軟件廠商共享。我們認為,未來,如果AI賦能下的工具軟件能夠完成生產工具提供方向生產力提供方的轉變,其商業邏輯將不再是間接收取提供工具的費用,而應直接參與生產價值的分配,比如一本完全由AI賦能的文字創作軟件撰寫的書籍,底層通用AI能力提供方與文字創作工具軟件提供方均有權從書籍銷售額中獲得分成。

圖表:創成式AI將生產工具升級為生產力,帶來商業邏輯質變

資料來源:Business Digest,中金公司研究部

短期看,擁有稀缺AI融合場景的下游廠商更為關鍵;長期看,議價權向掌握底層通用AI能力的平台廠商轉移。在AGI探索的早期階段,適合的下游應用場景較為稀缺,底層通用AI平台廠商希望儘可能多的應用廠商接入,進而獲得更豐富的在垂直應用場景訓練大模型的機會。但長期來看,由於訓練大模型的技術、成本要求較高,隨着AGI應用逐步深入,我們認為,最終議價權可能會向少數擁有底層通用AI能力的平台型廠商轉移,其有望在價值分配中獲得更高的比例。但暫不論最終價值分配比例孰高孰低,我們認為,在這一過程中,工具軟件廠商的商業邏輯都產生了質變——即有可能直接介入到生產價值的分享過程中。

圖表:理想中AGI帶來工具軟件價值分配邏輯變化

資料來源:中金公司研究部

如何更好地理解長期視角下AI對於商業邏輯的重塑?我們將其與雲計算帶來的SaaS模式對比。我們認為,AI和雲計算同為具有劃時代性質的技術變革,雲計算創造了SaaS這一新型的商業模式並改變了傳統企業服務軟件的競爭格局,因此,我們將AGI從產業結構及商業邏輯等方面與雲計算進行對比分析,討論其可能帶來的商業影響。

► 產業結構角度,AI中的算力、模型、AI融合應用分別對應雲計算中的IaaS、PaaS、SaaS。我們認為,與雲計算的三層產業結構類似,AI模型的訓練需要底層強大的硬件支持,算力層即對應雲計算中的IaaS層;AI大模型則與基礎軟件類似,承擔通用需求,同時目前大模型接口也正在嘗試按量付費模式,MaaS(Model-as-a-Service)即對應雲計算中的PaaS層;最上層應用軟件調用AI大模型,直接面向企業、消費者提供融合AI能力後的垂直場景功能,即對應基於底層雲計算基礎設施和平台能力提供服務的SaaS軟件。

圖表:AI中的算力、模型、AI融合應用可以分別對應雲計算中的IaaS、PaaS、SaaS

資料來源:中金公司研究部

► 商業邏輯角度,雲計算從銷售產品向訂閲服務轉變,AGI有望帶來生產工具使用付費向生產力直接參與價值分配的改變。雲計算使得客户從一次性買斷基礎軟硬件產品向持續性付費以享受雲廠商提供的服務轉變,訂閲制對於供應商來説意味着更優的現金流和收入可持續性、以及更高的客户付費總量。正如我們前文的討論,若未來AI賦能下的工具軟件能夠完成生產工具提供方向生產力提供方的轉變,其商業邏輯將從收取工具使用費用,轉向直接參與生產價值的分配,對於供應商來説也意味着更優的收入可持續性和更高的收入天花板。

► 競爭格局角度,新廠商的進入和傳統廠商對於新技術的適應程度均使得現有格局產生變化。以數據庫基礎軟件市場格局為例,過去十年的市場格局變化主要受雲廠商和雲原生獨立數據庫廠商進入以及傳統數據庫企業雲轉型成效優劣的影響。類比來看,我們認為,未來原生於AI的新工具類軟件廠商進入,以及現有廠商融合AI的速度和能力優劣也可能重塑市場競爭格局。

► 價值分享角度,底層基礎設施廠商提供通用能力,上層應用廠商聚焦垂直場景。雲計算產業鏈中,IaaS、PaaS層廠商提供通用軟硬件基礎設施能力,SaaS層廠商聚焦於提供垂直功能應用。類比來看,AI底層平台型廠商提供通用大模型能力,上游工具類軟件廠商尋找適合AI賦能、變現的落地場景。而在AI所需的算力成本方面,我們認為AI廠商將會承擔訓練成本,而後續的推理成本則會由AI廠商與應用軟件廠商共同承擔(類似於雲計算的租用雲計算資源,未來的AI產業會是租用模型和算力)。

圖表:長期來看,AI有望與雲計算一樣帶來工具軟件的商業邏輯重塑

資料來源:中金公司研究部

 “上雲”已成為應用軟件的“必修課”,我們認為未來“AI+”也可能成為應用軟件標配。目前支持雲部署已經基本成為軟件廠商的必備能力項,在2010年以後成立的多數軟件公司均選擇了雲原生的技術路線;而傳統軟件企業亦積極轉向雲端,並在商業模式上也向訂閲制轉型。而從應用軟件對AI的融合應用來看,同理我們認為也“AI+”有望成為新一代應用軟件的標配,而應用軟件廠商也將在與AI廠商的探索與磨合中形成新的一套成熟的商業模式。

商業模式重塑之後,雲計算促進應用軟件的價值重估,未來AGI同樣可能帶來新一輪價值釋放。雲計算通過軟件開發、部署、交付、收費方式變化,催生商業模式與業務邏輯升級,進而引發資本市場對於工具軟件乃至整個應用軟件行業的價值重估。我們認為,長期來看,未來創成式AI賦能工具軟件可能帶來新一輪的價值釋放。但短期來看,由於目前大模型仍存在諸多缺陷,下游應用及增量付費場景仍在探索中,版權、法規上亦有進一步討論明確的必要,因此我們的上述猜想在未來演進方向上仍存在較多不確定性,需要持續跟蹤、觀察。

總結來看,AI融合工具軟件想象空間寬廣,但實際落地仍有諸多挑戰,我們強調短期不誇大、長期不低估的觀點。AI融合工具軟件想象空間寬廣,但最終落地實現仍需依賴底層算力與大模型算法演進迭代,同時尚有法律、倫理相關問題有待討論、解決。我們認為,AGI應用的前途是光明的,但道路是曲折的,我們強調短期不誇大、長期不低估的觀點,建議投資者持續關注跟蹤最新產業趨勢,並對AI融合工具軟件可能的各大應用場景保持關注。

圖表:AIGC關鍵技術持續突破,AI融合工具軟件想象空間寬廣,我們強調短期不誇大、長期不低估的觀點

資料來源:OpenAI官網,《Denoising Diffusion Probabilistic Models》(Ho等,2020),中金公司研究部

創成式AI賦能工具軟件的產業實踐與應用趨勢

創成式AI與文字創作:ChatGPT有望加速AI文字創作落地

創成式AI能夠在文字創作場景下完成寫作、改寫、修正、翻譯等功能。AI可以藉助互聯網廣泛的文本數據對文字創作工具進行訓練,目前Transformer大模型在自然語言場景下的應用能力已經相對成熟,我們認為文字創作有望成為創成式AI快速落地的應用場景。我們觀察到Notion、微軟等已經開始將AI語言模型接入筆記和辦公軟件;第四範式也推出了面向企業客户的AIGC工具,辦公軟件龍頭金山辦公在中長期來看也有望實現AI賦能,提升文字創作效率。我們認為創成式AI在文字創作場景下主要能夠實現四大能力:

► 寫作:基於海量的語料庫,Transformer神經網絡擁有語言理解和文本生成能力,因此可以根據使用者的簡單指令生成邏輯連貫、事實豐富的語段;

► 改寫:與普通規模的語言模型相比,大型語言模型擁有一定推理能力,能夠形成思維鏈來解決抽象問題,因此可以根據用户要求完成文本改寫任務;

► 修正:通過在海量文本數據中對比學習和總結規律,創成式AI可以糾正所給文本的拼寫、語法、標點等錯誤,使修改後的文本更加符合常用語言範式;

► 翻譯:創成式AI可以利用循環神經網絡和卷積神經網絡拆解結構複雜的語段並聯繫上下文進行翻譯,從而大幅提升翻譯的整體性、準確性和可讀性。

圖表:創成式AI在文字創作場景中的四大能力

資料來源:OpenAI,中金公司研究部

案例1:Notion AI優化文字創作

Notion AI能基於簡單指令生成豐富的文字內容。Notion AI是用於Notion產品的人工智能工具,通過集成機器學習和NLP技術,幫助用户提高文字創作的效率和體驗。在AI大規模語言模型賦能下,用户只需要羅列出基本需求,產品即可自動生成豐富的文字內容,文字內容的類型覆蓋會議議程、銷售郵件、新聞發佈稿等多種場景。Notion AI還擁有總結、改錯、翻譯、續寫、頭腦風暴等功能;後續Notion AI還將會成為Notion知識庫的接口,用户只需要輸入搜索要求,Notion AI即會自動呈現相關信息。我們預期Notion AI的自動文本生成、文本摘要、文本編輯等功能或將大大優化用户的創作流程和使用體驗,幫助Notion的產品力實現躍升。

案例2:微軟AI與Office的融合計劃

AI賦能下微軟Office料將優化產品體驗。微軟2019年以10億美元投資OpenAI並與之建立了較為深入的合作關係,近期微軟計劃將OpenAI的下一代語言模型整合進Office辦公軟件中的Word、PowerPoint、Outlook等應用程序,用户只需要輸入簡單指令,即可獲得自動產生的文字內容。新版Office將擁有自動總結、內容建議以及文本生成功能,可提供類似Bing-ChatGPT側邊欄的體驗,用户可在側邊欄中與聊天機器人交互。

龐大用户規模和訓練數據有望助力Office AI應用能力快速迭代。Office辦公軟件用户規模優勢明顯(21年PC版全球裝機量15億套),我們認為OpenAI的人工智能技術與Office軟件的融合一方面能讓AI找到優質的落地場景;另一方面,Office軟件龐大的用户規模有望為AI提供源源不斷的海量訓練數據,從而形成飛輪效應,不斷改善AI的文字創作體驗。

案例3:模力表格提供內嵌於表格場景的AI文字處理應用

模力表格通過AI大模型實現表格中文本內容的“批量化計算”。模力表格由面壁智能公司和大模型開源社區OpenBMB(主要成員來自清華大學)聯合開發,其將AI大模型的文字處理能力嵌入到函數中,通過在表格中輸入函數即可調用模型,目前支持的函數包括IE(信息抽取)、QA(問答)、MT(翻譯)、SA(情感分析)、TG(標題生成)等,同時支持和Excel基礎函數集成使用。我們認為通過表格中的AI文字處理應用能夠實現文本批量化計算,大幅提升辦公效率。

圖表:模力表格實現表格場景下AI文字處理能力

資料來源:OpenBMB開源社區微信公眾號,中金公司研究部

案例4:第四範式滿足企業場景AIGC需求

第四範式推出企業級類GPT產品“式説”,助力企業利用內部知識解決問題。第四範式通過將類GPT語言模型與垂直領域知識進行融合,推出“式説”產品,旨在解決大型生成式語言模型在企業內部使用場景下的侷限,滿足企業場景下的AIGC需求。“式説”主打三大產品特點:1)數據安全,通過私有化部署解決企業客户對數據安全的顧慮;2)內容可信,“式説”基於企業內部數據庫,並且在提供回答時標註信息原始出處,增加了回答的可信性和可靠性;3)成本可控,“式説”算力成本相對可控,而且對數據標註量的需求較小。我們認為“式説”這類服務於B端客户的AIGC工具能夠助力實現企業知識複用,提高企業生產和管理效率。

圖表:第四範式“式説”產品工作界面

資料來源:公司官網,中金公司研究部

案例5:竹間智能借助AIGC賦能寫作&對話&知識搜索等多場景

竹間智能推出類ChatGPT產品,賦能企業級AIGC應用。公司成立於2015年,為金融、企業、健康醫療、製造、智能終端、政務六大領域提供AI賦能解決方案。2022年9月公司推出AI SaaS產品,涵蓋客户服務、銷售服務、企業內部服務等多場景,為中小企業提供雲端AI工具。在AIGC領域公司亦持續深耕,先前已推出Magic Writer等多款智能創作寫作軟件,並於近期推出企業級Gemini GPT產品系列,包括企業對話機器人KKBot、交互式認知搜索引擎ChatSearch,在銷售客服、人機交互、知識探索等方面藉助AI實現全面賦能。

案例6:印象筆記藉助自研輕量化大模型輔助文字創作

基於自研“大象GPT”模型,推出“印象AI”創成式文字工具。2019年以來,國內筆記應用廠商印象筆記發力AI在筆記文字處理中的AI應用場景,陸續推出了智能推薦、智能標籤、智能摘要、知識星圖等AI工具。印象筆記同時持續投入大模型研發,於2023年推出了結合OPT、BLOOM等類GPT-3.5結構大語言模型自主研發構建的大語言模型“大象GPT”,並基於此推出“印象AI”創成式文字工具模塊內嵌於自身的筆記產品中,實現了國內廠商通過自研模型實現AI文字創作的先發應用。未來印象筆記計劃利用基於人類反饋的強化學習(RLHF)來優化模型,並計劃與私人語料結合賦能具備個人風格文字創作。

案例7:Minimax打開C端落地新場景

區別於ChatGPT的專業知識問答,MiniMax推出的Glow主打聊天社交功能。公司成立於2021年年底,已自研文本到視覺、文本到語音、文本到文本三個模態的通用大模型。2022年11月,MiniMax推出首款AI對話機器人平台Glow,用户可選擇已存在的智能體進行對話,或者通過簡短描述創造智能體並在後續對話中實現優化調整,智能體的對話生成、人物頭像生成、音色生成調用了MiniMax三大模態模型的能力。區別於ChatGPT聊天機器人傾向於問題搜索、文本生成等功能,由Glow生成的智能體擁有不同的背景和性格設定,與用户對話的內容也偏向於閒聊陪伴、情感互動、劇情演繹。我們認為,MiniMax的聊天機器人與用户交互效果較好、具備較強的用户粘性,打開C端落地新場景。

案例8:金山辦公潛在的AI應用場景

金山辦公在AI領域已有紮實佈局。國內辦公軟件龍頭金山辦公在計算機視覺、自然語言處理、語音處理等AI領域也都有廣泛的技術與業務佈局。公司自2017年開始搭建AI中台,圍繞辦公領域已經開發出近100項AI能力。在自然語言處理方向,金山辦公已經開發出輔助寫作功能,用户只需提供一個提綱,AI即可基於語料算法自動生成文本,用户可以將AI生成的文本作為底稿,大大提升寫作效率。此外,金山辦公也已實現AI校對、翻譯、糾錯等功能,並將其作為WPS辦公軟件套件的重要增量功能。

我們判斷金山辦公會在緊跟AI產業趨勢的同時,適時切入跟進。我們判斷金山辦公會把主要發力點瞄準AI應用端。公司現有產品WPS積累的用户量級大、用户場景多樣且複雜度高,我們認為金山辦公若能深挖用户場景,將可以在郵件、辦公、營銷、政務、文學等各個細分場景中提供相應的AI文字創作服務,提升用户使用體驗,加深產品護城河。未來我們判斷公司會在充分考量國內各家AI大模型廠商的能力之後,適時嘗試接入應用,儘可能地發揮AI大模型在辦公軟件領域的應用潛能。

創成式AI與音頻生成:跨模態應用進軍音頻行業

海外案例1:谷歌不同團隊均有音頻生成研究成果

谷歌在2023年發佈了不同的音頻生成模型,並且有各自的特點。在此之前也出現過相關AI創作音樂的嘗試,如可視化音樂創作模型Riffusion、谷歌發佈的AudioML和OpenAI推出的Jukebox。而現在的研究成果基於Diffusion模型、標註好的音頻數據,通過提取數據特徵、文本和音頻的配對,實現文本生成音頻。

► MusicLM:這是一種從文本描述中生成高保真音樂的模型,例如用户可以輸入“平靜的小提琴旋律伴隨失真的吉他即興演奏”。MusicLM將條件音樂生成過程轉換為層次化的Seq-to-Seq建模任務,並能夠保持24 kHz的頻率生成一段幾分鐘的音樂,無論是文本描述還是音頻質量都優於之前的模型。此外,MusicLM還能夠基於文本的描述轉變原來的旋律、根據圖片畫作和文字描述生成對應的音樂伴奏。

圖表:MusicLM基於藝術畫作生成相關伴奏

資料來源:MusicLM項目主頁,中金公司研究部

► Noise2Music:連續應用Diffusion模型生成24kHZ的音頻片段,使用兩個深度模型偽標記大型偽標記音頻數據集生成訓練集,大預言模型生成音樂描述性文本,嵌入預訓練的音樂-文本聯合模型,通過zero-shot分類為音頻分配相應文本。Noise2Music可以理解更加複雜的prompt語義,生成不同風格,如“一位女低音在現場表演中演唱一首慢速爵士民謠”;或者模仿不同的樂器,如鋼琴、薩克斯、非洲鼓等。

► SingSong:該模型可以根據人聲自動生成伴奏,其技術基礎建立在人聲的音源分離和音頻生成上。用户只需要輸入其人聲,就可以獲得對應的樂器伴奏。研究人員召集了一批聽眾評估模型的效果,展示兩個具有相同人聲的10秒伴奏音頻,SingSong獲得的反饋明顯優於其他基線模型。

海外案例2:英國學術機構提出AudioLDM,提升質量並優化算力消耗

AudioLDM模型解決了“文本到音頻”的研究存在的質量有限、計算成本高的問題。英國薩里大學和帝國理工學院聯合發佈並開源了一個基於去噪擴散隱式模型和對比學習的框架:AudioLDM。該模型提升了文本生成音頻的質量;訓練過程中僅僅需要文本數據就達到了比使用音頻-文本相當甚至更好的效果;此外模型訓練計算資源消耗低,並且不需要額外訓練就可以對聲音風格進行變換或者模仿。

國內案例1:科大訊飛推出全新訓練框架優化語音韻律

科大訊飛推出SMART-TTS框架並上線訊飛開放平台、訊飛有聲以及學習強國。SMART-TTS不直接學習文本與音頻特徵的映射,而是通過模塊化拆解語音合成的學習過程,預訓練加強各個模塊。該框架可以提供“高興、抱歉、悲傷”等11種情感,每種情感有20檔強弱度調節;也能提供聲音的停頓、重音、語速等,可以在數字人語音上實現真人表達的感情。此外,科大訊飛的語音合成支持37個語種、11種方言、2種民族語言以及中英混合自然合成。

國內案例2:國產AI語音生成“獨角獸”雲知聲

除了文本生成音樂以外,語音合成也是音頻生成的重要方向。國內“獨角獸”雲知聲提供語音合成產品服務,包括文本語音合成、音庫定製和聲音克隆。其中,語音合成可以將文本轉換成自然流暢的語音,提供更多音色、不同情感並提供調節音量、語速、音高等功能;音庫定製主要面向企業客户,提供定製化的音庫服務,通過深度學習生成專屬IP發音;聲音克隆可以通過錄制少量的用户聲音,快速得到音色和發音風格與錄音相似的聲音模型。這些功能適用於智能客服、智能硬件、新聞播報、自媒體配音等各種有聲場景。

創成式AI與圖片創作:跨模態帶來豐富想象空間

2022年,隨着CLIP、Diffusion大模型的誕生與開源,DALL·E 2、Stable Diffusion模型落地進一步推動,文本生成圖像等跨模態生成成為AIGC落地主線。OpenAI具備大模型基礎、開源數據庫中海量圖文對應數據、頭部廠商的算力支撐以及門檻降低三要素條件後,發佈升級版“文生圖”模型DALL·E 2,將AI作畫(文本跨模態生成圖像)推向落地,掀起AI作畫浪潮;2022年8月,Stability AI開源Stable Diffusion模型,標誌着AIGC在AI作畫領域跨模態應用的門檻大幅降低,開啟全民創作的“工業化生產”時代。海外應用層在此基礎上催生出Midjourney、ChilloutMix、Controlnet等精調模型、插件,不斷提高生成圖像質量,逐步推動AI圖片創作商業化。

海外案例1:“文生圖”開山者DALL·E及DALL·E 2

DALL·E由OpenAI率先推出,並於2021年通過Azure OpenAI服務開始將其技術商業化,2022年4月發佈升級版DALL·E 2。憑藉OpenAI在2021年發佈的基於GPT-3的圖像文本匹配模型CLIP,DALL·E 2具備了聯繫文本和視覺圖像的能力;又通過基於Diffusion的圖像生成模型GLIDE,DALL·E 2能夠按照文本生成逼真的圖像,分辨率提升了4倍,準確率更高,並且業務更廣,具備三種功能:1)根據文本提示生成圖像,2)以給定圖像生成新圖像,3)以文本編輯圖像元素。

DALL·E 2目前採取付費購買次數的商業模式:加入Open Beta項目後,首月50個免費點數,每一個點數對應一次繪圖,之後每個月免費補充15個點數,目前的價格是15美元115個點數。相較於DALL·E,DALL·E 2不僅能夠生成更真實、更準確的圖像,還能夠更完整地表達場景並通過自然語言描述對現有圖像進行增刪元素等編輯。而相較於該領域內其他模型,DALL·E 2的可控性較高,空間結構關係處理優異,高寫實的圖像仿真度較強。DALL·E 2的技術成熟和率先落地將AI作畫從想象照進現實,2022年7月,DALL·E 2開啟邀請制公測,為AIGC在2022年熱度提升的重要推動力。

圖表:DALL·E 2 通過文字添加圖片元素

資料來源:DALL·E 2官網,中金公司研究部

圖表:DALL·E 2通過文字輸入生成圖片結果示例

資料來源:DALL·E 2官網,中金公司研究部

海外案例2:Stability AI開源Stable Diffusion,以AI作畫對外輸出

Stability AI成立於2020年,2022年憑藉推出並開源Stable Diffusion的底層能力,投後估值超10億美元,在種子輪融資階段即晉升為獨角獸。Stable Diffusion主要基於潛擴散模型(Latent Diffusion Model),通過迭代“去噪”輸入並解碼輸出來生成圖像,使用空間降維解決內存和模型推理時長痛點,不僅使用户僅在消費級顯卡上就能夠快速生成高分辨率、高清晰度圖像,而且建立開源生態,大大降低用户的使用門檻。至此,開源生態推動AIGC的數據、模型與算力問題初步解決,直接降低了使用者的門檻,滲透進多個垂直領域。

海外案例3:成功變現的商業模式,AI作圖現象級應用Midjourney

Midjourney基於CLIP和Diffusion構建了閉源的“文生圖”模型,已實現1000萬用户和超1億美元營業收入。該產品搭載於Discord社區,用户通過將Midjourney機器人邀請至頻道內,並輸入以“/image”為開頭的prompt生成想要的圖片。Midjourney擁有超1000萬名社區成員,通過用户對生成結果的選擇來獲取反饋,從而具備了龐大且獨特的數據集,建立起競爭壁壘。Midjourney生成的圖片所需prompt較短、質量高、具有科幻色彩,受設計人羣、Web3 & NFT從業者以及個人用户喜愛,採用SaaS付費的商業模式,已經實現盈利。

比起海外前沿技術,國內的AI圖片創作落地相對早期,但相應成果也取得了一定的進展,湧現出一批創新的產品和技術。其中以百度的文心·一格、萬興科技的萬興愛畫為代表,不僅展現了國內擁有人工智能作畫的能力,同時進行創新研發出“AI簡筆畫生圖”,拓展了創作的交互方式,提高了用户使用的效率和體驗。

國內案例1:百度基於文心大模型,AI作畫能力對標海外

文心·一格是百度依託飛槳、文心大模型推出的首款AI作畫產品。該產品支持文本生成國風、油畫、水彩、水粉、動漫、寫實等十餘種不同風格的圖像,為專業內容創作者提供創作平台的同時為入門級用户、大眾用户實現想象力落地提供可能。而面對應用落地的三重挑戰:創作需求理解、圖像原創生成和創作需求滿足,文心·一格進行了三大技術創新,分別是基於知識的prompt學習、文本跨模深度融合和文本驅動的圖像編輯,實現了創意規劃、細節刻畫能力和多輪交互提升質量。

國內案例2:萬興科技深耕AIGC作畫,OpenAI賦能國內廠商的案例標杆

萬興科技深耕海外業務20年,接入OpenAI的API,打造出面向繪圖創意領域的新型創作神器:萬興愛畫。萬興愛畫定位於專業打造“AI生成高品質藝術品”,提供隨機生成與關鍵詞創作兩種AI文生圖模式,用户可以自行輸入關鍵詞、選擇圖片比例和藝術風格,30秒就可以獲得由AI生成的繪畫作品,作品支持各種藝術風格,比如手繪、賽博朋克、二次元、CG數字渲染等。而且產品支持中文和英文雙語創作,通過感歎號和括號強調關鍵詞。

2023年2月,萬興愛畫在業界率先推出“AI簡筆畫”。該產品成為全球首款通過用户交互並以此“圖生圖”的AI作畫軟件,標誌着萬興愛畫助力AI繪畫進入新時代。相比之前的作畫方式,簡筆畫對用户原先的prompt要求更低,如今只需簡單幾筆就能在5秒內生成高質量藝術畫作;用户同樣可以通過圖片選擇反饋使模型迭代升級。通過簡筆畫“圖生圖”,用户在創作中更具參與感,過程也更有趣味性。

圖表:萬興“AI繪畫”創作界面

資料來源:萬興愛畫官網,中金公司研究部

圖表:萬興愛畫“特色藝術品”效果圖

資料來源:萬興愛畫官網,中金公司研究部

創成式AI與視頻創作:跨模態階躍尚處早期,有望打開應用天花板

海外科技巨頭的標杆案例打開AI視頻創作的想象空間。2022年9月,Meta發佈了從文本生成視頻的Make-A-Video,能夠基於幾個詞或句生成數秒的短視頻。僅一週後,谷歌發佈Imagen Video、Phenaki,分別定位於生成高畫質、長時段視頻。目前AIGC跨模態生成視頻領域仍存不足,利用AI生成的視頻有明顯的缺點,例如物體的模糊與扭曲,也不能生成更長的場景來詳細、連貫的講述故事,但我們認為AIGC視頻生成有望在技術上實現突破,打開應用天花板。

案例1:Make-A-Video實現文本與視頻之間的跨模態生成

Make-A-Video能夠基於文本生成視頻。Make-A-Video是2022年7月Meta發佈的文本生成圖像模型Make-A-Scene的進一步升級。通過向Make-A-Video輸入文本即可生成數秒的視頻,支持不同的視頻風格。除了文本生成視頻,Make-A-Video還能夠實現輸入單個或兩個圖像來創建運動,即圖像生成視頻。

圖表:通過向 Make-A-Video 輸入文本生成的視頻

資料來源:Meta官網,中金公司研究部

案例2:谷歌在視頻的跨模態生成領域不斷產出成果

谷歌在文本生成視頻、圖像生成視頻均有涉獵。谷歌在Meta推出Make-A-Video一週後,推出了Imagen Video和Phenaki,其中Imagen Video畫質較高但生成視頻時長較短,Phenaki生成視頻的畫質較差但能生成超過2分鐘的視頻;2022年11月,谷歌首次發佈將二者相結合的視頻,兼顧品質與長度。2023年2月2日,谷歌提出視頻編輯新方法Dreamix,能夠實現對已有視頻的編輯和通過提供圖片與描述生成視頻。

案例3:Runway推出的GEN-1模型在生成視頻質量上更勝一籌

由GEN-1模型生成的視頻風格多樣化。Runway成立於2018年,是Stable Diffusion的聯合發佈方之一。2023年2月,Runway推出AI視頻生成模型GEN-1,通過將圖像或文本提示的構圖和風格應用於源視頻的結構上以合成新視頻,在生成視頻的畫質和長度上再邁進一個台階。

國內廠商:亦處於早期探索期,輔助創作效率提升

國內廠商在生成視頻領域也處於早期探索期。國內廠商在視頻領域應用AIGC技術更多落在視頻內容創作及品質升級的層面,實現視頻的屬性變化與“流水線式”內容創作,目前多應用於B端、為內容創作者提供生產效率的提升。

► 文本生成視頻:2022年5月,清華大學聯合智源研究院發佈基於Transformer架構的CogVideo模型,該模型是業內首個開源的文本生成視頻AI模型,但生成視頻的分辨率較低、長度也較為有限,目前只支持中文輸入。

► 畫質增強與修復:當虹科技在畫質增強類產品已較為成熟,其中包括視頻插幀、視頻細節增強、提升視頻畫質、老舊影像的修復與上色等。

► 視頻自動創作:百度孵化的智能視頻創作工具VidPress支持導入圖文鏈接後自動實現配音、字幕、畫面的視頻內容生產,目前已為人民日報等媒體機構、百家號和好看視頻等平台的終端用户提供智能生成視頻功能。

► 智能腳本創作:商湯智影推出的“視頻元素分析”能夠提取並分析視頻中多種元素,例如人物、場景、道具、台詞等信息,自動生成分鏡頭腳本,準確率達98%,並提取視頻爆款元素,有效減少腳本撰寫時間,助力廣吿廠商節約內容製作成本。

受限於技術成熟度,AI獨立創作的視頻仍無法直接實現2B端落地變現,但目前已經在輔助商業化創作的過程中發力。2023年1月31日,Netflix與小冰公司日本分部(rinna)、WIT STUDIO共同創作的首支由AIGC技術輔助的發行級別動畫片《犬與少年》正式發佈,該動畫全長3分多鐘,使用AIGC完成部分場景繪製,證明了AI技術在輔助視頻創作過程中已經開始實現商業化落地,但距離真正應用到大型項目、實現商業化變現仍有距離。

此外,基於自研稀疏模型在垂直領域落地的廠商具備多模態矩陣,以出門問問為例,打造文本、圖像、語音、視頻、數字人等多模態AIGC產品矩陣,佈局提供一站式內容生成工具。出門問問於2020年推出其第一款AIGC商業化產品——配音平台“魔音工坊”後,全面佈局AI聲音、AI寫作、AI圖片生成、聲音與形象克隆、數字人視頻等AIGC領域,多點開花聚焦廣泛的商業場景。

創成式AI與3D模型創作:以參數化建模為基,GPT文字處理賦能

工業場景的3D建模對AI能力要求較高,現階段創成式設計無法完全支持。區別於圖片和視頻的創作,3D模型主要用於生產工業場景,需要更加嚴謹理性的建模創作能力,而目前ChatGPT等AI工具的數學和邏輯能力有所欠缺,因此通過文字描述進行創成式AI直接建模的進展相對較慢。另一方面,大裝配場景如飛機、船舶等模型的設計需要非常嚴謹的過程和參數,我們認為創成式AI設計在這類大型場景下的支持能力有限。目前我們觀察到AI在3D CAD領域和EDA領域的主要落地仍然以“AI Inside”賦能為主。

3D CAD中的創成式設計:以參數化建模為基礎的AI Inside賦能

3D CAD場景下的創成式設計(Generative design)主要藉助AI的能力生成大量可供選擇的模型。根據PTC官網介紹,三維模型場景下的創成式設計主要是通過設計師給定約束條件(包括空間、材料、製造方法、成本約束等)和目標,藉助AI的能力來快速生成滿足需求的目標模型,供設計師從中選擇合適的模型進行進一步設計和優化,從而顯著提升設計效率。我們觀察到目前3D CAD中的AI應用主要分為兩類:

► AI輔助參數優化:通常用於3D CAD模型的改進過程,基於CAE仿真結果(如部分零部件應力過大或形變明顯),可以通過對其他部位添加約束,對擬優化零部件生成大量潛在參數並進行選擇,最終得到優化的結果。

► AI實現草圖生成:如Catia和Solidworks的Xdesign模塊就引入了AI輔助創建草圖功能,通過給定參數和材料得到系統給出的推薦的形狀。其一定程度上能夠幫助工程師進行底層幾何圖形,從而加快整體的設計進度。

3D CAD創成式設計基礎是參數化建模。實際上參數化建模由來已久,1987年PTC公司發佈的Pro/E首次引入了基於歷史的參數化建模,至今主流3D CAD產品均有參數化建模功能。無論是AI輔助參數優化還是實現草圖生成,其本質上都是基於給定的限制條件生成大量參數,進而基於這些參數生成設計方案供設計師選擇。目前主流3D CAD產品如Catia、NX、Pro/E、Solidworks、SolidEdge等均具備AI模塊,實現輔助設計功能。

EDA中的AI Inside:基於已有設計數據實現設計效率優化

AI賦能有望助力芯片設計實現真正的“自動化”。目前的EDA工具,即使是更加自動化的數字芯片設計流程中仍然需要大量設計師的人工操作場景,我們認為AI帶來的自動化程度提升有望減少設計過程中的重複性勞動,進一步解放設計師的生產力。目前AI對EDA設計工具的賦能可以分為AI Inside和AI Outside兩個層面:AI Inside一般指AI賦能相應的設計軟件,讓設計工具更加智能和高效;與之相對應的則是AI Outside,即為讓機器通過學習來積累經驗,從而一定程度上能夠代替人工成為新的“生產力”。

芯片設計後端(尤其是佈局佈線)是AI Inside在EDA中的主要應用場景。在數字芯片設計流程中,設計後端最重要的佈局佈線環節涉及邏輯器件的物理形狀和擺放方式,工程師需要考慮綜合考慮網表圖節點、網格粒度、佈線密度等多重因素。因此佈局佈線通常是數據芯片設計中的高耗時環節,通過AI的圖像識別和優化算法有望實現設計效率的顯著提升。目前海外Cadence、Synopsys等EDA頭部廠商均具備AI Inside賦能芯片設計的能力:

► Cadence:2020年3月Cadence發佈了更新版數字全流程工具,通過iSpatial技術整合佈局佈線工具Innovus和前端的物理驗證Genus工具實現打通,並集成機器學習技術,用户可用現有設計數據對iSpatial進行訓練,實現佈局佈線流程中設計裕度的最小化。

► Synopsys:2020年Synopsys發佈用於EDA的AI應用程序DSO.ai。根據公司官網介紹,設計空間優化(DSO)藉助機器學習算法搜索大型設計空間,可用於優化芯片設計工作流程的輸入參數和選擇,以滿足特定項目的確切需求[1],我們認為其本質上類似3D CAD模型設計中的參數優化功能。

展望未來,AI Outside有望在更高層面實現真正的“芯片設計自動化”。與AI Inside賦能EDA工具的理念不同,AI Outside則更加關注工具使用者的維度,指EDA工具通過學習人類的設計模式並積累設計經驗,最終達到減少人工干預和釋放生產力的效果。目前Synopsys和Cadence在AI Outside助力實現設計自動化上均有所探索,我們認為現階段實現AI Outside面臨的主要阻力在於數據獲取成本。AI Outside訓練過程對芯片數據可靠性要求較高,而芯片設計公司的數據較難獲取,我們認為EDA公司依靠和晶圓廠的綁定關係或有望通過工藝數據實現訓練,逐步向AI Outside目標邁進。

創成式設計與GPT大模型的融合:從文字到模型的潛在路徑

創成式設計和GPT大模型的融合暢想:文字描述參數化。我們認為GPT等大模型在3D模型設計方面仍然有較大的應用空間。未來的潛在的方向可能是藉助ChatGPT的文字處理能力來理解設計師的文字需求,即為將文字描述理解和轉化為一系列的模型參數,通過3D CAD創成式設計得到相應的模型設計方案。

► 創成式設計是當前已經存在的技術儲備。目前3D模型的創成式設計已經能夠實現參數優化和草圖的生成,我們認為隨着技術逐步完善,從給定參數到3D模型生成這一步驟或許不是從文本到模型的瓶頸。

► 文字到參數的轉化是文生模型過程中的最大難點。目前的Transformer模型更加擅長場景是自然語言處理,我們認為將文本轉化為設計師需要的參數是較大的難點,打通文本描述到參數描述的瓶頸有望為文本到模型的實現鋪平道路。2021年Deepmind論文論述了圖形和序列打通的可能性,藉助Transformer模型自然語言處理能力實現CAD草圖生成。

圖表:DeepMind論文中構建了圖形和序列的映射

資料來源:《Computer-Aided Design as Language, Ganin等(2021)》,中金公司研究部

DeepMind藉助Transformer模型自然語言處理能力實現草圖繪製。草圖設計是構成3D模型的骨架,其通過特定的約束來定義了實體如何在參數變換下保持原有的形狀。DeepMind在2021年發表論文,論述了CAD草圖繪製和自然語言建模的相似性,提出了能夠自動生成CAD草圖的機器學習模型,在無條件合成以及圖像到草圖的轉換任務中表現良好。論文的亮點在於實現了圖案和序列的對應,從而能夠應用Transformer大模型實現對序列的處理。我們認為隨着Transformer大模型應用逐漸深入,其與CAD融合應用或將持續推進,未來或將誕生基於文本實現更高級別模型生成的應用。

風險

技術進展不及預期:人工智能作為前沿新興技術,仍處於技術的快速發展期,其進展有一定的不確定性,若技術進展不及預期,可能導致產業化進展緩慢。

商業化落地節奏不及預期:商業化落地是人工智能能否順利走向下一階段的關鍵點,若商業化落地節奏不及預期,對人工智能的進展將帶來負面影響。

行業競爭加劇:人工智能是產業的熱點,未來商業價值顯著,科技巨頭、初創公司均在此領域佈局,未來垂類及應用層的行業競爭可能會進一步加劇。

文章來源

本文摘自:2023年3月2日已經發布的《人工智能十年展望(六):ChatGPT興起,創成式AI能否重塑工具軟件底層邏輯?》

於鍾海  分析員 SAC 執證編號:S0080518070011 SFC CE Ref:BOP246

王之昊  分析員 SAC 執證編號:S0080522050001 SFC CE Ref:BSS168

魏鸛霏  聯繫人 SAC 執證編號:S0080121070252 SFC CE Ref:BSX734

韓蕊  聯繫人 SAC 執證編號:S0080121080059

胡安琪  聯繫人SAC 執證編號:S0080122070070

譚哲賢  聯繫人 SAC 執證編號:S0080122070047

Follow us
Find us on Facebook, Twitter , Instagram, and YouTube or frequent updates on all things investing.Have a financial topic you would like to discuss? Head over to the uSMART Community to share your thoughts and insights about the market! Click the picture below to download and explore uSMART app!
Disclaimers
uSmart Securities Limited (“uSmart”) is based on its internal research and public third party information in preparation of this article. Although uSmart uses its best endeavours to ensure the content of this article is accurate, uSmart does not guarantee the accuracy, timeliness or completeness of the information of this article and is not responsible for any views/opinions/comments in this article. Opinions, forecasts and estimations reflect uSmart’s assessment as of the date of this article and are subject to change. uSmart has no obligation to notify you or anyone of any such changes. You must make independent analysis and judgment on any matters involved in this article. uSmart and any directors, officers, employees or agents of uSmart will not be liable for any loss or damage suffered by any person in reliance on any representation or omission in the content of this article. The content of the article is for reference only and does not constitute any offer, solicitation, recommendation, opinion or guarantee of any securities, virtual assets, financial products or instruments. Regulatory authorities may restrict the trading of virtual asset-related ETFs to only investors who meet specified requirements. Any calculations or images in the article are for illustrative purposes only.
Investment involves risks and the value and income from securities may rise or fall. Past performance is not indicative of future performance. Please carefully consider your personal risk tolerance, and consult independent professional advice if necessary.
uSMART
Wealth Growth Made Easy
Open Account