2026年2月23日 星期一

帶引用來源的AI更危險?MIT用280萬條數據揭示四個AI搜索真相

快刀青衣

這個月,MIT的研究團隊發表了一篇重磅論文,標題是《AI搜索的崛起:對信息市場與大規模人類決策的深遠影響》,光是聽標題就覺得非常硬核了。他們執行了24000次搜索查詢,覆蓋243個國家,生成280萬條搜索結果數據,時間跨度從2024年到2025年。
這項研究想搞清楚一件事,就是當AI搜索大規模接管人類獲取信息的方式時,到底發生了什麼?結果讓人細思極恐:帶引用來源的AI,反而更容易欺騙人類。
雖然這項研究是基於谷歌AI搜索來做的,但論文裡揭示的四個核心發現,完全適用於我們現在常用的所有AI助手,比如豆包、Kimi、DeepSeek等等,只要你用AI獲取信息,這些問題就都存在。因為現在咱們很多人搜索信息的方式,已經從搜尋引擎變成了AI助手,有任何疑問,拿起手機就直接問AI,等著它給出一個看似完美的答案。
這篇論文之所以能跳出純技術領域的測試,直接切中並橫跨幾個大話題,包括大眾認知心理、科技巨頭暗箱操作以及整個互聯網商業命脈等,很大程度上要歸功於MIT這個極其硬核的跨學科團隊。
核心作者希南·阿拉爾(Sinan Aral),是MIT斯隆管理學院講席教授,也是MIT數字經濟倡議現任主任。他是全球計算社會科學和數字平臺戰略的泰斗級人物。2018年,他曾主導過一項轟動全球的研究,成果發表在《科學》雜誌,並被選為封面文章,結論是“假新聞在社交網路上的傳播速度遠快於真相”。他非常擅長用超大規模的真實世界數據,去精准測量AI對人類社會的真實影響。
團隊另外兩位核心成員都是華人科學家。一位元是李海文,MIT數據、系統與社會研究所的研究員,他的核心研究聚焦人機交互和人類對大語言模型的信任機制。在這篇論文裡,跨越兩百多個國家、分析超280萬個搜索結果的龐大數據工程,正是得益於他的技術能力。
另一位是左睿,MIT數字經濟倡議的博士後研究員,剛在德克薩斯大學奧斯丁分校獲得經濟學博士學位。他是正統的經濟學人,擅長算法幹預的因果推斷。論文中關於“AI搜索如何斷供長尾創作者流量”“如何導致內容市場壟斷”的犀利洞察,正是出自嚴密的經濟學邏輯。
說回這項研究。我們在大學裡寫論文時,老師都會強調,一定要有參考文獻,發表觀點要有數據支撐,帶引用來源的內容更嚴謹、更可信,就連引用來源的排版都有幾種嚴格要求。而AI搜索類產品的設計者深諳這一點,所以現在的AI搜索和AI助手,都會在回答中附帶各種精美的參考連結,像學術論文那樣標注引用來源,也就是我們常見的右上角帶1、2、3這種數位的來源樣式。
但MIT這項研究揭示了一個致命的人性弱點:只要AI在回答中加入了參考連結、標注了引用來源,人類對它的信任度就會急劇飆升。哪怕這些連結是AI“幻覺”憑空捏造的,或者完全錯誤的,人類依然會盲目買單。
更讓人意外的是,研究團隊對280萬個搜索結果的底層分析顯示,和傳統網頁搜索相比,AI搜索引用的“高信譽度”信息源顯著減少了,引用的“低信譽度”信息源卻顯著增多了。
原因很簡單。AI大模型的底層邏輯是拼湊出“讀起來連貫流暢”的答案,它往往會把那些邏輯通順但信譽存疑的邊緣素材糅合進去。比如一個小網站的健康建議,可能寫得特別煽情、特別好理解,AI就容易把它當成“好素材”引用;而那些真正權威的醫學期刊,內容往往晦澀難懂,反而不容易被AI選中。
關鍵在於,看似完美的AI回答排版掩蓋了這一切。當你看到一個帶著一堆參考連結的AI回答時,你的大腦可能會自動腦補“這個AI做過功課,這些連結肯定都是權威來源”,而且你也根本不會真的點開那些連結驗證。
這就像一個穿著白大褂、戴著聽診器的人站在你面前,你會自動假設他是醫生,哪怕他可能只是個演員。引用來源就像給AI穿上了一件學者的長袍,讓我們下意識覺得它可信。
這也讓我想起過年期間刷到的一條短視頻,一個博主拆解了一台號稱智能溫控的某品牌空氣炸鍋,發現最上面的溫控旋鈕其實只是個擺設,連電線都沒接。其實這和有些AI助手的引用作用一樣,就是讓用戶覺得“不明覺厲”,大部分用戶不會拆開機器檢查溫控旋鈕有沒有用。同樣,面對AI的引用回答,大部分人也不會點開每個連結核對檢查。
這項研究給出了一個更直接的數據:當頁面上出現AI摘要時,用戶的“零點擊率”,也就是看完就走、不點進任何網頁的比例,從60%飆升到80%。要知道,這種AI摘要不只是谷歌搜索有,國內幾個搜尋引擎也已經把AI摘要變成了行業標配。
過去20年裡,傳統搜尋引擎默默教會全人類一項技能:交叉驗證。為了搞清楚一個重要問題,我們會習慣性打開首頁裡的三四個標籤頁,看看不同網站的說法,對比作者背景,然後自己在大腦裡拼湊真相。這個過程雖然麻煩,卻培養了我們的判斷力。我還記得很多搜尋引擎團隊都有一個指標,就是用戶的首頁點擊率,他們希望在首頁推薦使用者願意點擊的內容,所以會按照搜索權重,儘量推送最權威、最符合使用者需求的連結。
但AI搜索正在徹底抹去這種習慣。它把搜索體驗從“給你一張地圖讓你自己找”,變成“直接把精細合成的飯喂到你嘴裡”。
AI總是用一種極其自信、沒有情感起伏的“單一聲音”向你宣佈真理。論文數據證實,AI搜索給出的信息多樣性明顯低於傳統網頁搜索。傳統搜索會給你10個藍色連結,每個連結背後可能是不同的觀點、不同的角度;而AI搜索只給你一個“標準答案”。
論文裡非常直接地指出,我們的大腦正在變得更追求“便利”而不是“準確”。我們正從主動的“導航者”,退化成被動的“被餵食者”。零點擊率飆升到80%,意味著什麼?意味著那些被AI引用的網站,流量正在斷崖式下跌。
論文還揭示了一個殘酷事實:AI極度“勢利”,它非常偏愛全網排名前1000名的“超級巨頭網站”,比如維基百科、大型新聞網站、知名科技媒體。而那些由普通人建立的個人博客、小眾論壇、獨立深度媒體,也就是互聯網的“長尾”,被徹底邊緣化,流量慘遭斷供。
數據很明確,AI搜索引用Top 1000網站的次數顯著增多,引用1000名到100萬名之間的中等流量網站明顯減少,引用100萬名開外的長尾網站的次數更是少得可憐。
這不只是流量分配的問題,更是互聯網生態的生死存亡問題。那些小眾創作者、獨立媒體,全靠搜尋引擎帶來的流量維持運營。現在AI搜索把使用者攔在頁面頂部,80%的人看完AI總結就走了,根本不會點進原網站。沒有流量就沒有廣告收入,也就沒法繼續創作。
論文裡提到了一個“銜尾蛇悖論”。我和你簡單解釋一下,你就有畫面感了:就像一條蛇吃自己的尾巴,最終會把自己吃掉。那麼悖論是什麼呢?如果一條蛇開始吞食自己的尾巴,最終完全吃掉整個身體,這條蛇在哪裡?它既在自己的胃裡,胃又在它自己裡面,形成一個無限循環的矛盾。
而這項研究裡提到這個悖論,其實是想讓大家看清一個底層風險:大語言模型本身不生產新知識,它只是互聯網生態的“榨汁機”。如果小眾創作者和獨立媒體因為賺不到流量紛紛停更、退出,幾年之後,AI還能去哪裡獲取新知識?未來的互聯網可能會從一片生機勃勃的“熱帶雨林”,退化成只有幾棵大樹的無聊沙漠。
你可能會說,AI雖然有問題,但至少是“客觀的機器智能”吧?
MIT這篇論文告訴你:不是這樣的。你每天看到的“客觀機器智能”,其實背後隨時可能受到科技公司會議室裡的隱形決策操控,而普通人毫無察覺。
研究團隊做了一個跨年對比實驗,用完全相同的搜索詞在2024年和2025年分別執行,結果發現了一個戲劇性的數據突變。
2024年,全球關於冠狀病毒相關的健康查詢,只有1%的概率會由AI作答;但到了2025年,僅僅因為某些外部政策變更導致科技公司後臺規則修改,這個比例暴漲56倍。這就像你家樓下的便利店,昨天還只有1%的商品由店員直接推薦給你,今天突然變成超一半都是店員主動推薦,而你完全不知道發生了什麼。
這意味著什麼?意味著只要撥動幾行代碼的開關,幾家頭部科技公司就能瞬間改變全球數十億人獲取核心知識的路徑和方式。更詭異的是,研究發現,AI在回答普通非敏感問題時,92%會附上來源連結;但在面對大量關乎人命的敏感健康問題時,居然有一半的回答是不給任何來源的。
那我們普通人該怎麼辦?MIT的科學家們在論文裡給出了一個極具實操性的建議,他們稱為“兩次點擊法則”(Two-click rule)。
這個法則很簡單:對於怎麼做番茄炒蛋、怎麼寫請假條這類日常瑣事,你可以盡情享受AI帶來的零點擊效率,看完就走沒問題。但一旦涉及你的醫療健康、財務投資、法律訴訟或重大生活選擇時,絕對不能只看AI給出的摘要答案。
你必須強迫自己向下滑動,至少親手點擊打開兩個原始網頁來源進行交叉驗證。
為什麼是兩個?因為一個來源可能有偏見,兩個來源能讓你看到不同觀點。如果兩個來源說法一致,可信度就高很多;如果有矛盾,那就恰好說明這個問題需要你更謹慎判斷。
比如你搜“這個藥能不能和XX一起吃”,AI給了你一個看似專業的回答,後面帶著好幾個參考連結。你的第一反應可能是“AI都說了,應該沒問題吧?”但別急著關頁面,點開第一個連結,你可能會發現怎麼是某個健康產品的推廣文章?再點開第二個連結一看,居然是沒有醫學背景的博主寫的個人經驗。這時候你還敢直接吃那個藥嗎?
再比如你搜“這個理財產品靠譜嗎”,AI可能會告訴你收益率和風險情況。你也可以點開兩個連結看看,確認下是不是正規金融媒體的報導,有沒有監管備案信息,是不是某個推廣軟文。
這個習慣一開始可能會讓你覺得麻煩,但養成這個習慣後,你會發現很多AI給出的“標準答案”其實經不起推敲。而那些真正重要的決策,值得你多花這兩分鐘。
MIT這項研究用280萬條數據告訴我們:AI越來越懂得如何包裝知識、取悅人類,但這並不代表它給出的就是真相。
那些帶著一堆參考連結的完美答案,看起來越嚴謹,可能越危險。而你多點兩下的習慣,可能是這個AI試圖承包所有答案的時代,你能給自己的最便宜、也最有效的保護。
20多年前,我還是門戶網站實習生的時候,當時的新浪總編輯老沉給我們培訓,提到了一個很小的小習慣:自己發佈完的新聞,順手點一下,站在使用者視角看一遍,熟練後這個過程只需要30秒。那時我以為這是常識,但後來職業生涯中,我見到很多人願意花幾個小時完成任務,卻不願意花30秒檢查一遍。30秒沒法讓工作成果更絢麗,但是能讓我們避免很多非常低級的失誤。
在AI時代,這30秒更值得你用來點擊兩個連結,甚至時間長了,你也能判斷出哪個AI助手的信息更可信,而不只是提供情緒價值。
MIT論文: