大模型正在改變深度機器學習,訓練大模型的工程技術挑戰在哪里?
在OpenAI將生成式大模型帶入主流視野之后,幾乎所有頭部廠商都在研究和推出自己的大模型業務。今年9月騰訊對外推出自研的通用大模型“混元大模型”,成為國內頭部科技企業中最后一個對外發布大模型業務的公司。
推動大模型應用落地是一項頗為復雜的工程,不僅要考慮如何降低訓練和精調的成本,還要關注投產時的推理成本。因為當所有的應用場景都用千億級模型去做訓練和推理時,會形成長期的成本消耗,企業需要支撐每次服務調用帶來的算力成本。
有些廠商也推出了小尺寸模型,試圖在性能、成本和效果之間做均衡:在一些需要高度復雜推理的場景下用大模型能力,在一些不太復雜的場景使用小尺寸模型。
任何一家廠商,如果想推出領先于競品的大模型服務,不僅要有最好的硬件集群,還要針對新型算力集群提供訓練推理框架、軟件框架,做軟硬適配一體化。
對于這些話題,近日,騰訊的兩位混元大模型技術專家與界面新聞等媒體進行了深度溝通,聊到了大模型對傳統深度機器學習平臺的改變,以及大模型底層技術支撐對頭部廠商的挑戰。
機器學習平臺不再是從0到1
雖然都在人工智能范疇之下,但在各大公司紛紛介入大模型研發后,即便是不久之前的深度機器學習平臺,也與大模型優化出來的新型訓練推理范式有著本質區別。
從模型的精調、評測再到部署,這些環節就是現在專屬模型定制的主要訓練過程,與傳統機器學習平臺的區別也主要集中在這個過程中。
比如說,傳統的機器學習平臺只提供各種庫和算法,訓練都是從0到1的過程,不會提供一個帶參數的模型。
今天由大廠提供的千億規?;A模型,則包含了各種尺寸的模型矩陣,以及龐大的數據量。此時研發人員要做的就是精調專屬模型,并進行應用構建。
其中,龐大的數據量決定著應用落地的天花板。十幾年前的機器學習平臺,數據科學家60%-80%的時間在做數據清理,只有20%左右時間在建模。