MonkeyOCR 是一款基于大型語(yǔ)言模型(LLM)的輕量級(jí)文檔解析模型,專注于結(jié)構(gòu)化文檔解析任務(wù)。其核心創(chuàng)新在于采用“結(jié)構(gòu)-識(shí)別-關(guān)系”(SRR)三元組范式,將非結(jié)構(gòu)化文檔中的文本、表格、公式等內(nèi)容精準(zhǔn)轉(zhuǎn)換為機(jī)器可讀的結(jié)構(gòu)化數(shù)據(jù)。該模型在英文文檔解析任務(wù)中超越了Gemini 2.5 Pro和Qwen2.5-VL-72B等頂級(jí)模型,展現(xiàn)出卓越的性能。
MonkeyOCR項(xiàng)目官網(wǎng)入口網(wǎng)址:https://github.com/Yuliang-Liu/MonkeyOCR

MonkeyOCR 的模型參數(shù)量?jī)H為3B,具有輕量級(jí)架構(gòu),支持中英文文檔解析,適配10+文檔類型,包括學(xué)術(shù)論文、發(fā)票、報(bào)表等復(fù)雜文檔類型。其處理速度達(dá)到每秒0.84頁(yè),顯著優(yōu)于其他同類工具(如MinerU和Qwen2.5-VL-7B)。該模型支持多語(yǔ)言支持、復(fù)雜文檔處理、表格與結(jié)構(gòu)化數(shù)據(jù)提取等功能,適用于金融、教育、醫(yī)療等領(lǐng)域的文檔自動(dòng)化處理。
MonkeyOCR 的部署方式靈活,支持本地和云端部署,可在單個(gè)NVIDIA 3090 GPU上高效運(yùn)行,滿足不同規(guī)模應(yīng)用需求。其開源資源豐富,包括GitHub倉(cāng)庫(kù)、在線Demo和論文,便于開發(fā)者和研究人員使用。
MonkeyOCR 采用結(jié)構(gòu)-識(shí)別-關(guān)系(SRR)三元組范式,將文檔解析過程分為結(jié)構(gòu)檢測(cè)、內(nèi)容識(shí)別和關(guān)系預(yù)測(cè)三個(gè)階段,有效提升復(fù)雜文檔處理的效率和準(zhǔn)確性。該模型在公式識(shí)別、表格還原等難點(diǎn)任務(wù)上表現(xiàn)突出,性能提升顯著。
MonkeyOCR 是當(dāng)前文檔智能領(lǐng)域最具實(shí)用價(jià)值的技術(shù)方案之一,為文檔數(shù)字化和自動(dòng)化處理提供了強(qiáng)大的支持。



