专业编程教程与实战项目分享平台

网站首页 > 技术文章 正文

一款一站式、开源、高质量的数据提取工具(支持PDF/网页/多格式电子书提取)

ins518 2024-12-12 12:41:14 技术文章 14 ℃ 0 评论

我们致力于探索、分享和推荐最新的实用技术栈、开源项目、框架和实用工具。每天都有新鲜的开源资讯等待你的发现!


项目介绍

MinerU 是一款一站式、开源、高质量的数据提取工具,支持PDF/网页/多格式电子书提取。包含Magic-PDF和Magic-Doc两个核心功能。

Magic-PDF

Magic-PDF 是一款将 PDF 转化为 markdown 格式的工具。支持转换本地文档或者位于支持S3协议对象存储上的文件。

  • 功能定位:PDF文档转换为Markdown格式。
  • 支持输入:多种前端模型输入。
  • 内容处理:移除头部、尾部、脚注和页码,保留原文档结构和格式。
  • 特殊元素:提取和显示图像和表格,将方程转换为LaTeX格式。
  • 自动检测:自动检测和转换乱码PDF。
  • 兼容性:支持CPU和GPU环境,适用于Windows、Linux、macOS平台。

Magic-Doc

Magic-Doc 是一款支持将网页或多格式电子书转换为 markdown 格式的工具。

  • 功能定位:将网页或多格式电子书转换为Markdown格式。
  • 跨模态解析:精确解析文本、图像、表格和公式信息。
  • 文档格式支持:支持epub、mobi等多种文档格式。
  • 语言识别:准确识别176种语言。

开源地址

https://github.com/opendatalab/MinerU

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表