微软开源MarkItDown项目支持将PDF/办公文档/图片/音视频转换为Markdown格式 – 蓝点网

微软开源MarkItDown项目支持将PDF/办公文档/图片/音视频转换为Markdown格式

#开源项目微软开源 MarkItDown 项目，支持将 PDF、办公文档、音频、图像、各种 CSV/JSON/HTML/XML 转换为 Markdown 格式。其用途是开发者可以将各种格式的数据转为 MD 格式方便后续索引和文本分析等。该项目采用 MIT 许可证。查看全文：https://ourl.co/107095

Markdown 格式是开发者们比较喜欢的书写格式，所以现在微软向开发者们开源了 MarkItDown 的新项目，该项目可以将大量内容基于 AI 转换为 Markdown 格式。

例如可以将以下格式进行转换：

PDF
PowerPoint / PPTX
Excel / XLSX
Word / DOCX
图片 / EXIF 元数据和 OCR
音频 / EXIF 元数据和语音转录
HTML / 维基百科等的特殊处理
其他基于文本的格式例如 CSV、JSON、XML 等

诸如图片和音频是没法直接转换为文本格式的，在这种情况下借助人工智能就可以很方便的使用了，例如图片使用 EXIF 元数据和 OCR 进行光学识别，音频则可以使用 AI 进行语音转录为文本。

那这个项目有什么用的？其实就是帮助开发者将大量各种格式的文件统一为 Markdown 格式方便用于后续的索引和文本分析等，确实有实际使用场景。

该项目采用 MIT 许可证进行开源，有兴趣的开发者们可以在这里获取项目：https://github.com/microsoft/markitdown

下面是简单的操作示例：

可以使用 pip 安装：pip install markitdown

从源头安装：pip install -e .

API 用法也非常简单：

from markitdown import MarkItDown

markitdown = MarkItDown()
result = markitdown.convert("test.xlsx")
print(result.text_content)

也可以使用大型语言模型来描述图像，这种情况下需要提供模型客户端和参数等：

from markitdown import MarkItDown
from openai import OpenAI

client = OpenAI()
md = MarkItDown(mlm_client=client, mlm_model="gpt-4o")
result = md.convert("example.jpg")
print(result.text_content)