2023-09-22前沿博弈

有誰能挑戰 Nvidia 一哥的地位?

有誰能挑戰 Nvidia 一哥的地位?
2023-09-22

在疫情爆發前,Alphabet旗下谷歌(Google)率先推出了 MEENA 模型,短暫時間內它成為了世界上最好的大型語言模型。與當時 OpenAI 的 GPT-2 相比,Meena 的模型規模大 1.7 倍,訓練時使用的數據量也多 8.5 倍。然而,僅僅幾個月後,OpenAI 就推出了更強大的 GPT-3,該模型的參數數量超過 GPT-2 的 65 倍,Token 數量超過 GPT-2 的 60 倍,FLOPS(每秒浮點運算次數)超過 GPT-2 的 4000 倍,並再次將兩個模型之間的性能差距拉遠。

令人錯愕的是,Google 明明早已擁有一切關鍵技術,但卻錯失了機會,並把事情搞砸了。然而,可能不顯眼的是,沉睡的巨人 Google 經已醒來,並正在以前所未有的速度進行迭代和建設基礎設施。據報導,Google 的 Gemini 是一套將 GPT-4 與 AlphaGo 相結合的大型語言模型(LLM),在訓練 FLOPS 方面將比即將發布的 GPT-4 快 5 倍。如按目前的基礎設施的建設進度,估計運算能力到明年年底將可增長 20 倍。然而,Google 是否有勇氣在不削弱其創造力或現有商業模式的情況下公開推出這些模型,這又牽涉另一個更複雜的討論。

惟見微知著,GPU 肯定是訓練大型神經網絡模型的關鍵資源之一。一些大型公司和研究實驗室擁有大量的 GPU 資源(以萬計的 A100/H100 GPU),而一些初創公司和開源研究者則缺乏這些資源。這種不平等的分配導致了一些研究者無法進行高效的實驗和模型訓練。其中主要的公司包括 OpenAI、Google、Anthropic、Inflection、X 和 Meta,在運算資源和研究人員之間的比例最高。在矽谷,最有趣的趨勢之一是頂級機器學習研究人員會因為他們有多少個 GPU 或者他們將獲得多少個 GPU 的使用權限為榮。事實上,在過去幾個月,這種現象已經變得如此普遍,也成為一個直接影響頂級研究人員選擇去哪裡工作的考慮條件。其中,Meta 作為世界上擁有第二多 H100 GPU 的公司,就積極將其作為一種招聘策略。

然後,還有一大批初創公司和開源研究人員正面臨著 GPU 資源匱乏的困境。而直接坦率說法就是,他們花費大量時間和精力試圖做一些根本無濟於事的工作。例如,許多研究人員花費了大量時間在 VRAM 不足的 GPU 上對模型進行微調,但這是一種非常低效地使用他們的技能和時間的方式。

除了 GPU 資源分配問題外,這裡也衍生一些與 Nvidia 競爭相關的挑戰。例如 HuggingFace、Databricks 和 Together 等一些 AI 公司,與 Nvidia 相比在 GPU 資源方面就明顯處於劣勢。這些公司也難以與 Nvidia 正面競爭,因為它們缺乏自己的硬件基礎設施。為了解決這個問題,這些公司需要加大對硬件基礎設施的投資,以滿足客戶不斷增長的需求。這可能包括購買更多的 GPU,建立更強大的運算集群,或與硬件供應商建立合作關係。

事實上 Nvidia 在其 DGX 雲服務和各種內部超級計算機中使用了海量的 GPU。此外,Nvidia 的 DGX 雲服務同時提供預訓練模型、數據處理框架、向量數據庫和個性化、優化的推理引擎、API 以及該公司的技術支援,以幫助企業針對其自定義需要調整模型。該服務已經吸引了包括了 SaaS、保險、製造、製藥、軟件和汽車等垂直領域的多家大型企業使用。雖然並非所有客戶均已公佈,但即使是 Amgen、Adobe、CCC、ServiceNow、Accenture、AstraZeneca(阿斯利康)、Getty Images、Shutterstock、Morningstar、Evozyne、Insilico Medicine、Quantiphi、InstaDeep、Oxford Nanopore、Peptone、Relation Therapeutics、ALCHEMAB Therapeutics 等公開名單,已相當令人印象深刻。

目前,Nvidia 所提供的 AI 訓練和推理服務方面佔據著主導地位。因此,從 Meta(Facebook 母公司)到微軟(Microsoft)再到初創公司,都只是能乖乖成為 Nvidia 的忠誠客戶。那麼有誰能挑戰 Nvidia 一哥的地位?

答案是有的,而 Google 有機會就是那個潛在的挑戰者。事實上,Google 除了在內部使用大量 GPU 外,也通過 Google Cloud Platform(GCP)銷售相關的服務。當然,Google 手上還是有一些技術王牌,例如文首提到 Gemini。而最重要的優勢,那就是 Google 自家擁有無與倫比的高效基礎設施和 Tensor Processing Unit(TPU,一個專為加速機器學習而設計的處理器)。這使 Google 能夠有效處理大規模的機器學習工作負載,並以高性能和可靠性為客戶提供服務。

(筆者及相關人士持有 Nvidia 、Mata、Alphabet、Microsoft 的財務權益)

即裝「牛熊訣」App 掌握超強輪證資訊:https://bit.ly/beyondtipsHK
**港股報價延遲最少十五分鐘, 數據截至 2025-05-02 16:25