微软开源MarkItDown项目 支持将PDF/办公文档/图片/音视频转换为Markdown格式
Markdown 格式是开发者们比较喜欢的书写格式,所以现在微软向开发者们开源了 MarkItDown 的新项目,该项目可以将大量内容基于 AI 转换为 Markdown 格式。
例如可以将以下格式进行转换:
- PowerPoint / PPTX
- Excel / XLSX
- Word / DOCX
- 图片 / EXIF 元数据和 OCR
- 音频 / EXIF 元数据和语音转录
- HTML / 维基百科等的特殊处理
- 其他基于文本的格式例如 CSV、JSON、XML 等
诸如图片和音频是没法直接转换为文本格式的,在这种情况下借助人工智能就可以很方便的使用了,例如图片使用 EXIF 元数据和 OCR 进行光学识别,音频则可以使用 AI 进行语音转录为文本。
那这个项目有什么用的?其实就是帮助开发者将大量各种格式的文件统一为 Markdown 格式方便用于后续的索引和文本分析等,确实有实际使用场景。
该项目采用 MIT 许可证进行开源,有兴趣的开发者们可以在这里获取项目:https://github.com/microsoft/markitdown
下面是简单的操作示例:
可以使用 pip 安装:pip install markitdown
从源头安装:pip install -e .
API 用法也非常简单:
from markitdown import MarkItDown markitdown = MarkItDown() result = markitdown.convert("test.xlsx") print(result.text_content)
也可以使用大型语言模型来描述图像,这种情况下需要提供模型客户端和参数等:
from markitdown import MarkItDown from openai import OpenAI client = OpenAI() md = MarkItDown(mlm_client=client, mlm_model="gpt-4o") result = md.convert("example.jpg") print(result.text_content)