跳转到主要内容
视觉理解适合图片问答、截图分析、票据识别、商品图理解、内容审核和多模态 Agent。

适合做什么

图片问答

让模型根据图片内容回答问题。

截图分析

分析 UI、报错页面、数据图表和产品截图。

票据和文档

结合发票 OCR、表格理解和结构化抽取。

商品和内容审核

识别图片主体、属性、风险和质量问题。

OpenAI 兼容格式示例

curl https://api.agicto.cn/v1/chat/completions \
  -H "Authorization: Bearer $API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "MODEL_NAME",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": "请描述这张图片,并提取其中的重要信息。"
          },
          {
            "type": "image_url",
            "image_url": {
              "url": "https://example.com/image.png"
            }
          }
        ]
      }
    ]
  }'

使用建议

  • 图片 URL 需要能被服务端访问。
  • 大图先压缩到业务可接受的清晰度。
  • 如果你要稳定提取字段,要求模型返回 JSON,并在服务端校验。
  • 发票场景优先使用专用发票 OCR 或发票查验接口。

图像输入接口

查看图像会话接口。

发票 OCR

使用专用工具识别发票。