中國AI新創公司DeepSeek日前推出大型推理模型DeepSeek-R1以及開源模型DeepSeek-V3,標榜低價且性能直逼OpenAI的GPT-4旗鼓相當,引發美國科技界熱議。有部分討論聲浪指向DeepSeek將大大降低AI開發費用,對於這說法,政大應數系副教授蔡炎龍認為根本完全錯誤,因DeepSeek是在大量高性能GPU作為硬體支持的開源模型,如Llama為基礎,才有辦法做出。

蔡炎龍在臉書粉專「呆一布呀Diveai」指出,如果沒有基礎的開源模型,比如說 Llama 等,就沒辦法做出 DeepSeek R1。DeepSeek的成功,沒有pre-trained 模型是做不到的,因此,那些稱「DeepSeek大大降低AI開發費用」的說法完全錯誤。

蔡炎龍提到,DeepSeek 真正重要貢獻之一,在強化學習方面改了 OpenAI 的(Proximal Policy Optimization),推出GRPO(Gradient Policy Optimization)。

對於那些覺得輝達是不是完蛋的說法,蔡炎龍也吐槽,事實上NVIDIA GPU 可能會更難買,他表示,你可能不用也買不起訓練基礎模型的超多高級 GPU,就可以做出一些厲害的模型,DeepSeek 許多模型都開源,基本上方法也是公開的,可以用 DeepSeek 的方法,打造一個更符合自己需求的模型,也就是不要覺得只有有錢的超級大公司才能做 AI。

他提到,DeepSeek 使用的 GPU 數量和等級,對大多數的企業還是天價的。但讓大家有新的希望,那就是說不定買少一點的 GPU,不要訓練到 DeepSeek 的程度,但非常符合自己需求是可能的。看懂這件事的就會去買沒那麼多的 NVIDIA H100,再沒錢的就買消費級的 NVIDIA RTX 5090 等等

最後,蔡炎龍強調,DeepSeek 真正令人振奮的地方是,可以用類似的方法,用自己的電腦跑得動的小模型,打造一個完全符合自身的需求和效能的模型出來。DeepSeek最聰明的地方是,把重點放在「引導 LLM 回應」的部份。如果你可以寫出一個非常好的 prompt 引導,你的語言模型就可以回應得很好。DeepSeek 有許多有趣的地方,也讓大家更知道怎麼用 LLM 方式,這才是真正的重點。