我们致力于探索、分享和推荐最新的实用技术栈、开源项目、框架和实用工具。每天都有新鲜的开源资讯等待你的发现!
项目介绍
MinerU 是一款一站式、开源、高质量的数据提取工具,支持PDF/网页/多格式电子书提取。包含Magic-PDF和Magic-Doc两个核心功能。
Magic-PDF
Magic-PDF 是一款将 PDF 转化为 markdown 格式的工具。支持转换本地文档或者位于支持S3协议对象存储上的文件。
功能定位:PDF文档转换为Markdown格式。
支持输入:多种前端模型输入。
内容处理:移除头部、尾部、脚注和页码,保留原文档结构和格式。
特殊元素:提取和显示图像和表格,将方程转换为LaTeX格式。
自动检测:自动检测和转换乱码PDF。
兼容性:支持CPU和GPU环境,适用于Windows、Linux、macOS平台。
Magic-Doc
Magic-Doc 是一款支持将网页或多格式电子书转换为 markdown 格式的工具。
功能定位:将网页或多格式电子书转换为Markdown格式。
跨模态解析:精确解析文本、图像、表格和公式信息。
文档格式支持:支持epub、mobi等多种文档格式。
语言识别:准确识别176种语言。
开源地址
https://github.com/opendatalab/MinerU