Skip to main content

Claude 多模态对话示例

以下示例展示如何使用Claude的多模态功能,让AI理解和分析图片内容,进行图文结合的智能对话。

快速开始

只需要替换 <API-KEY> 为你的实际API密钥即可运行。
curl -X POST "https://model-api.skyengine.com.cn/v1/messages" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer <API-KEY>" \
  -H "anthropic-version: 2023-06-01" \
  -d '{
    "model": "claude-3-7-sonnet-20250219",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": "这张图片里有什么?请详细描述一下。"
          },
          {
            "type": "image",
            "source": {
              "type": "base64",
              "media_type": "image/jpeg",
              "data": "iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAYAAAAfFcSJAAAADUlEQVR42mNk+M9QDwADhgGAWjR9awAAAABJRU5ErkJggg=="
            }
          }
        ]
      }
    ]
  }'

Claude多模态功能特点

1. 支持的图片格式

  • JPEG/JPG: 最常用的图片格式
  • PNG: 支持透明背景
  • GIF: 静态GIF图片
  • WebP: 现代图片格式,文件更小

2. 图片大小限制

  • 最大文件大小: 20MB
  • 推荐大小: 5MB以下以获得更好的处理速度
  • 分辨率: 支持高分辨率图片,但会自动调整以优化处理

3. 分析能力

  • 对象识别: 识别图片中的人、动物、物体等
  • 场景理解: 理解图片的环境和背景
  • 文字识别: 提取图片中的文字内容 (OCR)
  • 情感分析: 分析图片传达的情感和氛围
  • 技术分析: 评估构图、光影、色彩等技术要素

消息格式说明

文本和图片组合

{
  "role": "user",
  "content": [
    {
      "type": "text",
      "text": "请分析这张图片"
    },
    {
      "type": "image",
      "source": {
        "type": "base64",
        "media_type": "image/jpeg",
        "data": "base64编码的图片数据"
      }
    }
  ]
}

多张图片对比

{
  "role": "user",
  "content": [
    {
      "type": "text",
      "text": "请比较这两张图片"
    },
    {
      "type": "image",
      "source": {
        "type": "base64",
        "media_type": "image/jpeg",
        "data": "第一张图片的base64数据"
      }
    },
    {
      "type": "image",
      "source": {
        "type": "base64",
        "media_type": "image/png",
        "data": "第二张图片的base64数据"
      }
    }
  ]
}

应用场景

内容创作

  • 图片描述: 为图片生成标题和描述
  • 社交媒体: 创建有吸引力的文案
  • 博客写作: 根据图片内容创作文章

商业应用

  • 产品分析: 分析产品图片的特点
  • 品牌监控: 识别品牌元素和标识
  • 市场调研: 分析竞品图片内容

教育培训

  • 学习辅助: 解释图表、公式、示意图
  • 作业检查: 分析学生提交的图片作业
  • 知识问答: 基于图片内容回答问题

技术应用

  • 文档数字化: 提取纸质文档的文字内容
  • 数据录入: 从图片中提取结构化信息
  • 质量检测: 分析产品图片的质量问题

最佳实践

1. 图片质量优化

  • 清晰度: 确保图片清晰,避免模糊
  • 光线: 保持良好的光线条件
  • 角度: 选择合适的拍摄角度
  • 背景: 避免复杂的背景干扰

2. 提示词设计

  • 具体明确: 提出具体的问题和要求
  • 结构化: 使用编号或标题组织问题
  • 上下文: 提供必要的背景信息
  • 格式要求: 明确指定输出格式

3. 性能优化

  • 图片压缩: 适当压缩图片以提高传输速度
  • 批量处理: 合理安排批量图片分析的时间
  • 缓存结果: 对重复分析的图片进行结果缓存

注意事项

  1. 隐私保护: 不要上传包含个人隐私信息的图片
  2. 内容合规: 确保图片内容符合使用政策
  3. 网络稳定: 大文件上传需要稳定的网络连接
  4. 费用控制: 多模态功能的费用通常高于纯文本
  5. 准确性: AI分析结果可能存在误差,重要信息需人工验证