就在幾天前,1月20日,中國AI公司DeepSeek發佈了有推理功能的最新大模型,DeepSeek R1。你現在就可以到它的官網免費使用這個模型 ——
我必須專門寫一期專欄跟你說說這個事兒,因為這不是一次普通的模型發佈,也不是一個普通的AI進展。它的重要程度可以跟OpenAI推出ChatGPT,或者第一次宣佈o1推理模型相比,甚至如果你考慮到中美競爭的大背景,它的意義可能更大。這是一個顛覆認知的大事件。
DeepSeek R1
——
- 達到了跟o1相當、或者至少接近的推理能力,它是除了OpenAI自家,目前唯一一個做到這一點的模型;
- 它做到這個水準只用到少得多的資源,所以價格十分便宜;
- 它是完全開源的;
- DeepSeek公司甚至發佈論文,詳細介紹了訓練中所有的步驟和竅門 —— 而你要知道OpenAI至今對o1的演算法和訓練方式保密;
- 而DeepSeek公司是一家純粹的中國公司。
o1水準、超低價格、完全公開,做到任何一條都是爆炸性新聞,而R1全做到了。你就是寫小說鼓吹中國AI有多強都不敢這麼暢想,但這就是事實!這兩天X上的美國AI圈被徹底震撼,都感到不可思議,可是上手各種測試發現的確超級厲害,所以現在是好評如潮。我先給你匯總一下各方的反應,再稍微談談我的看法。
✵
英偉達資深研究員Jim Fan,對每一次AI進展都有深刻的洞見,他的說法不可不聽。這一次對R1,他的評論是 ——
「我們生活的這個時間線上,是一家非美國公司,在延續OpenAI最初的 —— 真正開放的前沿研究,賦能所有人。這簡直不可思議。這是最有趣的結局竟然成真了。」
他不但讚美了DeepSeek的開放,而且嘲諷了OpenAI今天一個暗示明天一個代號的不透明風格。
這是非常鮮明的對比。我們一直說開源是矽谷精神。你OpenAI最初的願景就是開放,人家Meta也是堅決開源,只不過技術目前沒你強……而現在是一家中國公司,不但接近你的技術水準,而且完全開源,連技術細節都公開了!
所以現在輿論是一邊倒支持DeepSeek。我上兩個截圖你體會一下 ——
說的嚴重點,DeepSeek等於是給中國找到一面道義大旗。你也知道,中國公司在科技界的傳統形象並不太好……這次不但是一雪前恥,而且直接成為天下極客仰望的焦點。
而且這個仰望不只是道義上的,也是技術上的。
✵
先看性能。R1在數學、程式設計和推理任務上的跑分已經達到,甚至偶爾超過了,o1的水準。
當然你可以說中國公司喜歡刷分,可能模型專門做過針對性的訓練,但用戶的體感是真的。我看X上用戶的真實體驗,R1水準確實很強。而且至少在一個程式設計案例上,它的表現比o1 pro還要好。
也有些用戶發現,包括我自己也感覺,R1在生成洞見、創造性發揮和說理論證方面距離 o1 pro 還有相當的差距。
但你要知道這是一個比較小的模型,它總共只有6710億個參數,而且是由一系列混合專家模型(Mixture of Experts)組成的,它一次推理調用的參數只有370億個。
R1思考速度快而且非常省錢。官網直接用,它是免費的。如果是在自己的應用中調用API,它的輸出價格是一百萬tokens 2.19美元,相當於o1 60美元的4%!這意味著你可以用R1做很多很多日常的事情。
而且R1還支持上網搜索和PDF閱讀 —— 這是o1目前所沒有的功能。我自己試用的體感不是說那麼驚豔,但非常可用,而有的美國用戶則表示感覺水準比ChatGPT搜索和Perplexity都高 ——
要知道這可是目前唯一一個支持上網搜索的推理模型。
✵
DeepSeek 的開放有多徹底呢?它不但開源、免費可下載和公開了訓練方法,而且允許任何人用R1做資料蒸餾,去訓練自家的模型,而且你可以商業化。
DeepSeek 甚至已經用市面上的兩個開源模型,阿裡的Qwen和Meta的Llama,蒸餾出來六個小模型供你隨便用。它們的跑分都相當高 ——
這些蒸餾出來的小模型很不簡單。其中一個有320億參數的小模型,數學和程式設計性能直接超越了o1-mini。
還有一個只有15億參數的迷你小模型,數學和程式設計性能已經超過了當今最主流的兩個非推理模型,也就是GPT-4o和Claude 3.5 Sonnet —— 而它小到可以運行在你的個人電腦,甚至是手機上!有人已經用上了 ——
這是非常不可思議的事情!你要知道,僅僅半年前,這兩個模型還是神一樣的存在……而你現在不用上網,自家手機就可以擁有它們至少是數學和程式設計方面的能力。
還有個哥們似乎是直接把整個R1下載運行了。為此他用了一台Mac筆記本和七台Mac Mini。
還有個前Deepmind的研究員,直接用R1蒸餾出一個自己的模型,數學和程式設計性能超過了o1-preview ——
什麼叫賦能,這就叫賦能。
✵
咱們再看DeepSeek介紹R1的論文 [1],這篇論文是一個珍寶!因為這是有史以來第一篇公開了推理模型的秘密的論文。你要知道此前只有OpenAI有推理模型,連Anthropic和Meta都沒有發佈自己的推理模型,而OpenAI對o1怎麼推理實行保密,外界只能猜測……
所以有人說,現在所有AI實驗室都在閱讀DeepSeek這篇論文 ——
DeepSeek的秘密是什麼呢?是沒有人為干預的強化學習。就如同當年的AlphaZero不看任何棋譜,自己跟自己下圍棋一樣,工程師並沒有告訴模型如何推理,只是你做對了我給獎勵 —— 它完全靠自己摸索,就掌握了推理方法。研究者首先訓練了一個叫DeepSeek-R1-Zero的基礎模型,它在訓練過程中自行湧現出來了幾個解題方法 ——
- 解數學題會寫下步驟,自動檢查每一步是否正確;
- 解題中間如果意識到錯誤,會中斷思考,重新推導;
- 解完一道題會反思回顧自己的解題步驟,嘗試不同的方法,尋找最優解;
- 能自動生成非常詳細的解題步驟;
- 如果感覺題目比較難,會自動延長推理步驟,增加推理時間……
簡單說,它就像是人一樣在做題。而我再強調一遍,訓練者並沒有*告訴*模型你應該這麼解題,這些都是模型自己摸索出來的能力!
更有甚者,模型在推理過程中還湧現出一個「aha 時刻」,也就是解決關鍵一步,恍然大悟的時刻 ——
在場研究者第一次目睹這個現象都震驚了。模型就好像活了一樣,它有像人一樣的思想爆發火花,你甚至可以說它的智慧自行升級了。
R1-Zero有時候喜歡中英文混合輸出,介面不太友好,所以研究者又把它進一步人性化,才得到R1。
最近OpenAI的研究者也出來講話,說是用的是強化學習自動湧現,聽起來跟DeepSeek論文裡的路數一致。但OpenAI從未提供過任何細節,DeepSeek等於是不但自己探索,而且還公之於眾了。
還有個有意思之處是R1每一次輸出的時候,都提供了自己的思考過程 —— 這也是OpenAI不願意全給的。很多人表示單純閱讀那些思考過程也很有收穫。比如沃頓商學院教授伊桑·莫利克(Ethan Mollick)感慨說,目睹R1第一人稱的思考過程,你不能不強烈感覺它是一個人……
所有這些,都是R1之前我們不知道的。請允許我再說一遍:現在是一家來自中國的小公司,給人類貢獻了決定性的AI新知。
✵
主流程式設計軟體Cursor中已經可以直接調用R1,大量的程式師會每天用它。中國沒有對美國用戶施加任何限制,甚至Google帳號可以直接登錄DeepSeek官網。你再對比一下OpenAI的種種限制,到底誰更open?
最後我再說一點展望。
DeepSeek用這麼少的算力就能做到這麼好,對所有人都是重大啟發,我相信OpenAI也會琢磨這到底是為什麼。如果DeepSeek找到了低算力高效率的大門,對整個人類都是好消息。
但是,OpenAI投入那麼大算力不是白費的。我理解R1是專門在數學和程式設計這兩項上做的優化,它完成別的任務的水準還不夠強。我自己的體感是,比如用來搞清楚一個什麼科學問題,它能力不如o1-pro。
我懷疑這裡面可能有個二八定律。你用比較少的算力資源,就能應對比如說工作中80%的問題 —— 但是要想覆蓋剩下的20%,你需要投入多的多的資源。而後者恰恰是OpenAI要做的事情。
這兩天另一個大新聞是OpenAI和軟銀等公司聯手,要搞個5000億美元的大項目,叫「星際之門計畫(The Stargate Project)」,對標當年美國搞原子彈的曼哈頓計畫和後來的登月計畫。這個項目要做的事情不是程式設計和解數學題,甚至不是AGI —— 而是ASI,是用於加速各個領域的科研,是探索未知世界。
前幾天還有消息爆出,OpenAI一年多前就搞了個生物學模型叫GPT-4b mini,目前已經找到了把普通細胞變成幹細胞的方法,有望給人類增加10年壽命。
這次的星際之門,幾個領導人談論的都是科幻級的科學突破,比如用AI探測癌症並且在48小時內用基因編輯+mRNA的方式給你提供疫苗,從而治癒一切癌症;山姆·奧特曼甚至說很快一切疾病都可以治癒。
所以我們不能低估算力的作用,更不能低估美國的野心。這是一場國運之爭。也許當你讀到這期專欄的時候,OpenAI的Operator功能就已經上線了。OpenAI仍然大幅度領先。
但是中國現在至少有個DeepSeek!這不是追趕更不是複製,這是獨樹一幟的重量級存在。
沒有留言:
張貼留言