Softonic 评论

md-anything:将本地文档转换为 LLM 的结构化 Markdown

md-anything,由Ojspace开发,是一个MCP服务器,可以将本地文档转换为Markdown,以便LLM可以直接使用它们。它使用MarkItDown驱动的管道和自动提取工具将办公文件和图像转换为干净、结构化的文本。主要功能包括多格式摄取、图像OCR和MCP客户端钩子。该应用程序面向需要可靠的设备文档摄取以进行模型辅助分析、本地化或检索增强生成工作流的开发者和AI研究人员。

您可以将许多常见文档类型以 Markdown 格式提供给 LLMs

md-anything 支持多种文件格式,将它们转换为模型可以读取的单一文本优先输出。支持的输入包括 PDF、DOCX、XLSX、PPTX、HTML 和带有嵌入文本的图像文件。服务器从表格和幻灯片中提取文本,并将多样的布局扁平化为 Markdown,这有助于期望纯文本上下文窗口而非二进制办公格式的工具。

转换后的 Markdown 保留结构线索,但可能需要人工检查

转换旨在保持保真度,通过使用 MarkItDown 库保持标题、列表和基本表格结构的完整性,生成优化为模型上下文窗口的输出。具有密集、非线性布局或装饰性格式的文档仍可能生成嘈杂的 Markdown,因此在将提取的内容用于高风险提示之前,建议对复杂页面进行抽查。

为集成到开发者 MCP 工作流程而构建

服务器可连接到与 MCP 兼容的客户端和标准 MCP 设置文件,允许模型辅助访问本地数据。与 Claude Desktop 等客户端的原生集成消除了手动上传的需要,MCP 开发者的社区反馈指出配置简单且代码库友好,托管在 GitHub 上。

OCR 和布局提取在清晰来源上表现良好,在低质量上下降

图像文本提取和复杂布局解析在输入清晰时有效,但在低分辨率扫描、重噪声或不寻常字体上准确性下降。该工具自动从嵌入文档中的图像中提取,但用户应在源图像或扫描页面包含伪影时验证 OCR 结果。

优选技术团队的实用选择,优先考虑设备上的文档摄取

md-anything 是一个务实的选项,适合需要本地文档到 Markdown 转换的开发者和研究人员,但需要注意的是,它需要运行 Node.js MCP 主机并编辑 MCP 设置。请期待验证转换后的文本以适应布局敏感的页面。对于能够操作轻量级本地服务器的团队,该应用可靠地支持以模型驱动的文档工作流程,同时将数据保留在设备上。

  • 赞成

    • 处理 PDF、DOCX、XLSX、PPTX、HTML 和基于图像的文本提取
    • 使用 MarkItDown 保持标题、列表和基本表格的完整性
    • 与MCP客户端如Claude Desktop集成,以实现自主访问
    • 在本地处理文件,避免将源文档上传到云端
  • 反对

    • 在低分辨率扫描或噪声图像上,准确性下降
    • 需要一个 Node.js 环境和 MCP 兼容的主机
    • 复杂的文档布局可能需要手动清理

应用参数

  • 许可证

    免费

  • 版本

    v0.3.0

  • 更新日期

  • 平台

    MCP

  • 语言

    英语

  • 开发者

应用程式 提供其他语言版本



用户对 md-anything 的评分

您是否尝试过 md-anything?成为第一个离开您的意见!

添加评论
有关使用此软件的法律因国家/地区而异。 如果违反这些法律,我们不鼓励或纵容此程序的使用。