当前位置: 华文头条 > 推荐

一款一站式、开源、高质量的数据提取工具(支持PDF/网页/多格式电子书提取)

2024-08-15推荐

我们致力于探索、分享和推荐最新的实用技术栈、开源项目、框架和实用工具。每天都有新鲜的开源资讯等待你的发现!


项目介绍

MinerU 是一款一站式、开源、高质量的数据提取工具,支持PDF/网页/多格式电子书提取。包含Magic-PDF和Magic-Doc两个核心功能。

Magic-PDF

Magic-PDF 是一款将 PDF 转化为 markdown 格式的工具。支持转换本地文档或者位于支持S3协议对象存储上的文件。

  • 功能定位:PDF文档转换为Markdown格式。

  • 支持输入:多种前端模型输入。

  • 内容处理:移除头部、尾部、脚注和页码,保留原文档结构和格式。

  • 特殊元素:提取和显示图像和表格,将方程转换为LaTeX格式。

  • 自动检测:自动检测和转换乱码PDF。

  • 兼容性:支持CPU和GPU环境,适用于Windows、Linux、macOS平台。

  • Magic-Doc

    Magic-Doc 是一款支持将网页或多格式电子书转换为 markdown 格式的工具。

  • 功能定位:将网页或多格式电子书转换为Markdown格式。

  • 跨模态解析:精确解析文本、图像、表格和公式信息。

  • 文档格式支持:支持epub、mobi等多种文档格式。

  • 语言识别:准确识别176种语言。

  • 开源地址

    https://github.com/opendatalab/MinerU