原創連夜撤稿！DeepSeek新論文都有哪些關鍵資訊？

AIPress.com.cn報道

昨晚，DeepSeek多模態團隊負責人陳小康在X上發了條推文，是一篇題為《Thinking with Visual Primitives》的新論文論文。

結果今天早上，推文沒了論文。

GitHub上的論文倉庫也顯示撤稿論文。

但普瑞斯已經在它消失前把全文讀完了論文。

只能說，這篇論文被撤，大機率不是因為內容有問題論文。

恰恰相反，它透露得太多了論文。

指出GPT和Claude集體栽倒的瓶頸

引用鴻溝

展開全文

過去兩年，多模態大模型的軍備競賽集中在讓模型看得更清楚論文。

高解析度切割、動態分塊、把圖片放大再塞進去論文。OpenAI、Google、Anthropic都在幹這件事。

DeepSeek管這叫"感知鴻溝"（Perception Gap）論文。

但這篇論文指出了一個被忽視更久的問題：引用鴻溝（Reference Gap）論文。

什麼意思論文？

模型確實看清了圖裡的內容，但在思考過程中，它根本沒法精確地說出自己在看哪個東西論文。

想象一張25個人的足球隊合照，密密麻麻站在一起論文。

你用語言去描述"左邊第三排穿藍色球衣那個人旁邊的那個"，描述本身就是模糊的論文。

模型數著數著就丟了上下文，忘了剛才數到誰論文。

這就是前幾天DeepSeek識圖模式數手指數到"自己吐槽數暈了"的根本原因論文。

怎麼解決論文？

給AI裝一根"手指"

人類怎麼解決數不清楚的問題論文？

夠原始的：伸出手指，指一個數一個論文。

DeepSeek的方案几乎一樣樸素：讓模型在思考過程中直接輸出圖片上的座標論文。

以前模型輸出座標是作為最終答案，比如"目標在這裡"論文。

現在座標嵌入了思考過程本身，變成了草稿紙上的標記論文。

看到一張圖裡有很多人，模型的思維鏈不再是"我看到左邊有個穿藍衣服的人"，而是"我看到這個人"，然後附上一個框的座標，把人圈出來論文。

每數一個人就圈一個框，圈完數框的數量就行論文。

論文裡展示了數足球隊合照的完整過程：模型一次性輸出25個框，每個人身上圈一個論文。

然後按排統計，前排4個加中排9個加後排8個，再加兩側教練，剛好25個論文。

它真的在逐個檢查，不是在猜論文。

這兩種座標格式被命名為"視覺原語"（Visual Primitives）論文：

框（bounding box）：畫矩形圈住物體論文，適合標定位置和尺寸；

點（point）：在圖上戳一個位置，適合追蹤路徑和走迷宮論文。

7056倍壓縮

用90個格子打平別人1000個

模型底座是DeepSeek-V4-Flash，一個284B引數的MoE模型論文。推理時只啟用13B引數，相當於百人團隊每次只派五個人上場。

視覺編碼這邊做了三級壓縮論文：

一張756×756的圖片，57萬畫素，先切成小方格，生成2916個影像塊token；然後每9個合併成1個，變成324個；最後再透過壓縮稀疏注意力機制把KV快取壓縮4倍論文。

最終只剩81個視覺資訊單元論文。

從原始畫素到最終快取，壓縮比7056倍論文。

作為對比，同樣800×800的圖，Gemini-3-Flash消耗約1100個token，Claude-Sonnet-4.6約870個，GPT-5.4約740個論文。DeepSeek只用約90個。

別人的模型用一千多個格子來記一張圖，DeepSeek用90個格子就夠了論文。省下來的算力，全拿去"指"。

論文的核心論點就在這裡：精確的空間指代能力，可以在一定程度上彌補視覺token的不足論文。

在迷宮導航任務上

把GPT-5.4甩開17個百分點

論文在11個基準測試上跟主流模型正面硬剛，結果在常規任務上互有勝負，但在兩類問題上差距懸殊論文。

第一類是數數論文。

Pixmo-Count精確匹配：DeepSeek拿到89.2%，超過Gemini-3-Flash的88.2%，大幅領先GPT-5.4的76.6%和Claude-Sonnet-4.6的68.7%論文。

第二類是拓撲推理，也就是迷宮和路徑追蹤論文。

迷宮導航任務裡，題目給一張迷宮圖，問從起點到終點有沒有路論文。這題只有兩種答案，有或者沒有，隨機猜正好50%。

結果GPT-5.4拿了50.6%，Gemini-3-Flash 49.4%，Claude-Sonnet-4.6 48.9%，Qwen3-VL 49.6%論文。全在50%附近晃，跟擲硬幣沒什麼區別。

DeepSeek拿了66.9%論文。

不算完美，但它確實是在一步步走，不是蒙的論文。

路徑追蹤任務更直觀論文。一堆線纏在一起，問C線通向哪個終點。所有線顏色粗細都一樣，不能靠顏色區分，只能靠曲線本身的連續性判斷。

Claude只拿到30.6%，比瞎猜強不了多少論文。

DeepSeek拿到56.7%論文。

4000萬條資料

和一套防作弊機制

這麼具體的"指"的能力論文，是怎麼訓出來的？

資料層面，團隊從Huggingface等平臺爬了將近10萬個帶"目標檢測"標籤的資料集，做了兩輪狠篩選論文。

最後剩下3.17萬個資料來源，產出4000萬條高質量樣本論文。

這裡有個很有意思的細節：防作弊設計論文。

迷宮訓練如果只按最終答對沒答對給分，模型很快會學精論文。

與其費勁搜尋還可能答錯，不如直接猜一個，反正認真走了答錯跟沒走答錯，分數一樣論文。

但DeepSeek的解法是把過程也算進分數論文。

每一步合法的探索都給分，穿牆扣分，走得越遠越好論文。

哪怕最後沒到終點，只要認真搜尋了大部分割槽域，也能拿到不錯的成績論文。

原創連夜撤稿！DeepSeek新論文都有哪些關鍵資訊？

上海慧鋮貿易有限公司

熱門標籤

相關詞彙

分站導航