seiyo學習筆記: DeepSeek

就在幾天前，1月20日，中國AI公司DeepSeek發佈了有推理功能的最新大模型，DeepSeek R1。你現在就可以到它的官網免費使用這個模型 ——

http://chat.deepseek.com

我必須專門寫一期專欄跟你說說這個事兒，因為這不是一次普通的模型發佈，也不是一個普通的AI進展。它的重要程度可以跟OpenAI推出ChatGPT，或者第一次宣佈o1推理模型相比，甚至如果你考慮到中美競爭的大背景，它的意義可能更大。這是一個顛覆認知的大事件。

DeepSeek R1 ——

- 達到了跟o1相當、或者至少接近的推理能力，它是除了OpenAI自家，目前唯一一個做到這一點的模型；

- 它做到這個水準只用到少得多的資源，所以價格十分便宜；

- 它是完全開源的；

- DeepSeek公司甚至發佈論文，詳細介紹了訓練中所有的步驟和竅門 —— 而你要知道OpenAI至今對o1的演算法和訓練方式保密；

- 而DeepSeek公司是一家純粹的中國公司。

o1水準、超低價格、完全公開，做到任何一條都是爆炸性新聞，而R1全做到了。你就是寫小說鼓吹中國AI有多強都不敢這麼暢想，但這就是事實！這兩天X上的美國AI圈被徹底震撼，都感到不可思議，可是上手各種測試發現的確超級厲害，所以現在是好評如潮。我先給你匯總一下各方的反應，再稍微談談我的看法。

✵

英偉達資深研究員Jim Fan，對每一次AI進展都有深刻的洞見，他的說法不可不聽。這一次對R1，他的評論是 ——

「我們生活的這個時間線上，是一家非美國公司，在延續OpenAI最初的 —— 真正開放的前沿研究，賦能所有人。這簡直不可思議。這是最有趣的結局竟然成真了。」

他不但讚美了DeepSeek的開放，而且嘲諷了OpenAI今天一個暗示明天一個代號的不透明風格。

這是非常鮮明的對比。我們一直說開源是矽谷精神。你OpenAI最初的願景就是開放，人家Meta也是堅決開源，只不過技術目前沒你強……而現在是一家中國公司，不但接近你的技術水準，而且完全開源，連技術細節都公開了！

所以現在輿論是一邊倒支持DeepSeek。我上兩個截圖你體會一下 ——

說的嚴重點，DeepSeek等於是給中國找到一面道義大旗。你也知道，中國公司在科技界的傳統形象並不太好……這次不但是一雪前恥，而且直接成為天下極客仰望的焦點。

而且這個仰望不只是道義上的，也是技術上的。

✵

先看性能。R1在數學、程式設計和推理任務上的跑分已經達到，甚至偶爾超過了，o1的水準。

當然你可以說中國公司喜歡刷分，可能模型專門做過針對性的訓練，但用戶的體感是真的。我看X上用戶的真實體驗，R1水準確實很強。而且至少在一個程式設計案例上，它的表現比o1 pro還要好。

也有些用戶發現，包括我自己也感覺，R1在生成洞見、創造性發揮和說理論證方面距離 o1 pro 還有相當的差距。

但你要知道這是一個比較小的模型，它總共只有6710億個參數，而且是由一系列混合專家模型（Mixture of Experts）組成的，它一次推理調用的參數只有370億個。

R1思考速度快而且非常省錢。官網直接用，它是免費的。如果是在自己的應用中調用API，它的輸出價格是一百萬tokens 2.19美元，相當於o1 60美元的4%！這意味著你可以用R1做很多很多日常的事情。

而且R1還支持上網搜索和PDF閱讀 —— 這是o1目前所沒有的功能。我自己試用的體感不是說那麼驚豔，但非常可用，而有的美國用戶則表示感覺水準比ChatGPT搜索和Perplexity都高 ——

要知道這可是目前唯一一個支持上網搜索的推理模型。

✵

DeepSeek 的開放有多徹底呢？它不但開源、免費可下載和公開了訓練方法，而且允許任何人用R1做資料蒸餾，去訓練自家的模型，而且你可以商業化。

DeepSeek 甚至已經用市面上的兩個開源模型，阿裡的Qwen和Meta的Llama，蒸餾出來六個小模型供你隨便用。它們的跑分都相當高 ——

這些蒸餾出來的小模型很不簡單。其中一個有320億參數的小模型，數學和程式設計性能直接超越了o1-mini。

還有一個只有15億參數的迷你小模型，數學和程式設計性能已經超過了當今最主流的兩個非推理模型，也就是GPT-4o和Claude 3.5 Sonnet —— 而它小到可以運行在你的個人電腦，甚至是手機上！有人已經用上了 ——

這是非常不可思議的事情！你要知道，僅僅半年前，這兩個模型還是神一樣的存在……而你現在不用上網，自家手機就可以擁有它們至少是數學和程式設計方面的能力。

還有個哥們似乎是直接把整個R1下載運行了。為此他用了一台Mac筆記本和七台Mac Mini。

還有個前Deepmind的研究員，直接用R1蒸餾出一個自己的模型，數學和程式設計性能超過了o1-preview ——

什麼叫賦能，這就叫賦能。

✵

咱們再看DeepSeek介紹R1的論文 [1]，這篇論文是一個珍寶！因為這是有史以來第一篇公開了推理模型的秘密的論文。你要知道此前只有OpenAI有推理模型，連Anthropic和Meta都沒有發佈自己的推理模型，而OpenAI對o1怎麼推理實行保密，外界只能猜測……

所以有人說，現在所有AI實驗室都在閱讀DeepSeek這篇論文 ——

DeepSeek的秘密是什麼呢？是沒有人為干預的強化學習。就如同當年的AlphaZero不看任何棋譜，自己跟自己下圍棋一樣，工程師並沒有告訴模型如何推理，只是你做對了我給獎勵 —— 它完全靠自己摸索，就掌握了推理方法。研究者首先訓練了一個叫DeepSeek-R1-Zero的基礎模型，它在訓練過程中自行湧現出來了幾個解題方法 ——

- 解數學題會寫下步驟，自動檢查每一步是否正確；

- 解題中間如果意識到錯誤，會中斷思考，重新推導；

- 解完一道題會反思回顧自己的解題步驟，嘗試不同的方法，尋找最優解；

- 能自動生成非常詳細的解題步驟；

- 如果感覺題目比較難，會自動延長推理步驟，增加推理時間……

簡單說，它就像是人一樣在做題。而我再強調一遍，訓練者並沒有*告訴*模型你應該這麼解題，這些都是模型自己摸索出來的能力！

更有甚者，模型在推理過程中還湧現出一個「aha 時刻」，也就是解決關鍵一步，恍然大悟的時刻 ——

在場研究者第一次目睹這個現象都震驚了。模型就好像活了一樣，它有像人一樣的思想爆發火花，你甚至可以說它的智慧自行升級了。

R1-Zero有時候喜歡中英文混合輸出，介面不太友好，所以研究者又把它進一步人性化，才得到R1。

最近OpenAI的研究者也出來講話，說是用的是強化學習自動湧現，聽起來跟DeepSeek論文裡的路數一致。但OpenAI從未提供過任何細節，DeepSeek等於是不但自己探索，而且還公之於眾了。

還有個有意思之處是R1每一次輸出的時候，都提供了自己的思考過程 —— 這也是OpenAI不願意全給的。很多人表示單純閱讀那些思考過程也很有收穫。比如沃頓商學院教授伊桑·莫利克（Ethan Mollick）感慨說，目睹R1第一人稱的思考過程，你不能不強烈感覺它是一個人……

所有這些，都是R1之前我們不知道的。請允許我再說一遍：現在是一家來自中國的小公司，給人類貢獻了決定性的AI新知。

✵

主流程式設計軟體Cursor中已經可以直接調用R1，大量的程式師會每天用它。中國沒有對美國用戶施加任何限制，甚至Google帳號可以直接登錄DeepSeek官網。你再對比一下OpenAI的種種限制，到底誰更open？

最後我再說一點展望。

DeepSeek用這麼少的算力就能做到這麼好，對所有人都是重大啟發，我相信OpenAI也會琢磨這到底是為什麼。如果DeepSeek找到了低算力高效率的大門，對整個人類都是好消息。

但是，OpenAI投入那麼大算力不是白費的。我理解R1是專門在數學和程式設計這兩項上做的優化，它完成別的任務的水準還不夠強。我自己的體感是，比如用來搞清楚一個什麼科學問題，它能力不如o1-pro。

我懷疑這裡面可能有個二八定律。你用比較少的算力資源，就能應對比如說工作中80%的問題 —— 但是要想覆蓋剩下的20%，你需要投入多的多的資源。而後者恰恰是OpenAI要做的事情。

這兩天另一個大新聞是OpenAI和軟銀等公司聯手，要搞個5000億美元的大項目，叫「星際之門計畫（The Stargate Project）」，對標當年美國搞原子彈的曼哈頓計畫和後來的登月計畫。這個項目要做的事情不是程式設計和解數學題，甚至不是AGI —— 而是ASI，是用於加速各個領域的科研，是探索未知世界。

前幾天還有消息爆出，OpenAI一年多前就搞了個生物學模型叫GPT-4b mini，目前已經找到了把普通細胞變成幹細胞的方法，有望給人類增加10年壽命。

這次的星際之門，幾個領導人談論的都是科幻級的科學突破，比如用AI探測癌症並且在48小時內用基因編輯+mRNA的方式給你提供疫苗，從而治癒一切癌症；山姆·奧特曼甚至說很快一切疾病都可以治癒。

所以我們不能低估算力的作用，更不能低估美國的野心。這是一場國運之爭。也許當你讀到這期專欄的時候，OpenAI的Operator功能就已經上線了。OpenAI仍然大幅度領先。

但是中國現在至少有個DeepSeek！這不是追趕更不是複製，這是獨樹一幟的重量級存在。

seiyo學習筆記

2025年2月2日星期日

DeepSeek

沒有留言:

張貼留言

2025年2月2日 星期日

DeepSeek

沒有留言:

張貼留言

2025年2月2日星期日