職場(chǎng)網(wǎng)站IT技術(shù)網(wǎng)
Tesseract.js
一款基開源 OCR庫,核心實(shí)現(xiàn)源自Tesseract OCR 引擎,并通過 WebAssembly 將其移植到瀏覽器和 Node.js 環(huán)境中,使得前端開發(fā)者可以直接在網(wǎng)頁或服務(wù)器端完成圖像文字的提取。
標(biāo)簽:IT技術(shù)網(wǎng)Tesseract.jsTesseract.js 是一個(gè)基于 JavaScript 的開源 OCR(光學(xué)字符識(shí)別)庫,使用 WebAssembly 將 Google 的 Tesseract OCR 引擎移植到瀏覽器和 Node.js 環(huán)境中。它可以在前端直接對(duì)圖片進(jìn)行文字提取,支持 100 多種語言(包括中、英、法、德等),適用于文檔掃描、實(shí)時(shí)視頻識(shí)別、移動(dòng)端離線 OCR 等場(chǎng)景。
- Tesseract.js官網(wǎng)入口網(wǎng)址:http://tesseract.projectnaptha.com/
- Tesseract.js開源項(xiàng)目地址:https://github.com/naptha/tesseract.js

主要特性
- 跨平臺(tái):同時(shí)支持瀏覽器(通過 <script>、CDN、Webpack 等)和 Node.js 環(huán)境。
- 多語言:內(nèi)置 100+ 語言的訓(xùn)練數(shù)據(jù),中文(簡(jiǎn)體/繁體)識(shí)別效果良好。
- WebAssembly 加速:核心 OCR 引擎以 WASM 形式運(yùn)行,內(nèi)存占用低、識(shí)別速度快。
- 并行處理:支持 createWorker 多線程工作者,可在后臺(tái)并行識(shí)別多張圖片。
- 模塊化:提供 tesseract.js-core、語言數(shù)據(jù)(tessdata)分離,便于自行托管 CDN,避免網(wǎng)絡(luò)不穩(wěn)定導(dǎo)致加載失敗。
- 輕量化:最新的 v6.0.0 進(jìn)一步壓縮文件體積、優(yōu)化內(nèi)存管理,適合長(zhǎng)時(shí)間運(yùn)行的 Web 應(yīng)用。
Tesseract.js 通過 WebAssembly 將強(qiáng)大的 Tesseract OCR 引擎帶到前端,具備跨平臺(tái)、多語言、低內(nèi)存、高性能等優(yōu)勢(shì)。只需幾行代碼即可在瀏覽器或 Node.js 中完成文字識(shí)別,配合 createWorker 與本地語言數(shù)據(jù)即可實(shí)現(xiàn)離線、批量、實(shí)時(shí)的 OCR 需求。
相關(guān)導(dǎo)航
暫無評(píng)論...



