當前位置: 華文頭條 > 推薦

一款一站式、開源、高品質的數據提取工具(支持PDF/網頁/多格式電子書提取)

2024-08-15推薦

我們致力於探索、分享和推薦最新的實用技術棧、開源計畫、框架和實用工具。每天都有新鮮的開源資訊等待你的發現!


計畫介紹

MinerU 是一款一站式、開源、高品質的數據提取工具,支持PDF/網頁/多格式電子書提取。包含Magic-PDF和Magic-Doc兩個核心功能。

Magic-PDF

Magic-PDF 是一款將 PDF 轉化為 markdown 格式的工具。支持轉換本地文件或者位於支持S3協定物件儲存上的檔。

  • 功能定位:PDF文件轉換為Markdown格式。

  • 支持輸入:多種前端模型輸入。

  • 內容處理:移除頭部、尾部、註腳和頁碼,保留原文件結構和格式。

  • 特殊元素:提取和顯示影像和表格,將方程式轉換為LaTeX格式。

  • 自動檢測:自動檢測和轉換亂碼PDF。

  • 相容性:支持CPU和GPU環境,適用於Windows、Linux、macOS平台。

  • Magic-Doc

    Magic-Doc 是一款支持將網頁或多格式電子書轉換為 markdown 格式的工具。

  • 功能定位:將網頁或多格式電子書轉換為Markdown格式。

  • 跨模態解析:精確解析文本、影像、表格和公式資訊。

  • 文件格式支持:支持epub、mobi等多種文件格式。

  • 語言辨識:準確辨識176種語言。

  • 開源地址

    https://github.com/opendatalab/MinerU