视觉理解

适合做什么
OpenAI 兼容格式示例
使用建议

视觉理解适合图片问答、截图分析、票据识别、商品图理解、内容审核和多模态 Agent。

适合做什么

图片问答

让模型根据图片内容回答问题。

截图分析

分析 UI、报错页面、数据图表和产品截图。

票据和文档

结合发票 OCR、表格理解和结构化抽取。

商品和内容审核

识别图片主体、属性、风险和质量问题。

OpenAI 兼容格式示例

curl https://api.agicto.cn/v1/chat/completions \
  -H "Authorization: Bearer $API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "MODEL_NAME",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": "请描述这张图片，并提取其中的重要信息。"
          },
          {
            "type": "image_url",
            "image_url": {
              "url": "https://example.com/image.png"
            }
          }
        ]
      }
    ]
  }'

使用建议

图片 URL 需要能被服务端访问。
大图先压缩到业务可接受的清晰度。
如果你要稳定提取字段，要求模型返回 JSON，并在服务端校验。
发票场景优先使用专用发票 OCR 或发票查验接口。

图像输入接口

查看图像会话接口。

发票 OCR

使用专用工具识别发票。

函数调用

图像生成

⌘I

开始使用

模型与价格

按场景接入

应用集成

AI 编程工具

适合做什么

图片问答

截图分析

票据和文档

商品和内容审核

OpenAI 兼容格式示例

使用建议

图像输入接口

发票 OCR

开始使用

模型与价格

按场景接入

应用集成

AI 编程工具

​适合做什么

图片问答

截图分析

票据和文档

商品和内容审核

​OpenAI 兼容格式示例

​使用建议

图像输入接口

发票 OCR

适合做什么

OpenAI 兼容格式示例

使用建议