Claude 多模态对话示例

以下示例展示如何使用Claude的多模态功能，让AI理解和分析图片内容，进行图文结合的智能对话。

快速开始

只需要替换 <API-KEY> 为你的实际API密钥即可运行。

curl -X POST "https://model-api.skyengine.com.cn/v1/messages" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer <API-KEY>" \
  -H "anthropic-version: 2023-06-01" \
  -d '{
    "model": "claude-3-7-sonnet-20250219",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": "这张图片里有什么？请详细描述一下。"
          },
          {
            "type": "image",
            "source": {
              "type": "base64",
              "media_type": "image/jpeg",
              "data": "iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAYAAAAfFcSJAAAADUlEQVR42mNk+M9QDwADhgGAWjR9awAAAABJRU5ErkJggg=="
            }
          }
        ]
      }
    ]
  }'

Claude多模态功能特点

1. 支持的图片格式

JPEG/JPG: 最常用的图片格式
PNG: 支持透明背景
GIF: 静态GIF图片
WebP: 现代图片格式，文件更小

2. 图片大小限制

最大文件大小: 20MB
推荐大小: 5MB以下以获得更好的处理速度
分辨率: 支持高分辨率图片，但会自动调整以优化处理

3. 分析能力

对象识别: 识别图片中的人、动物、物体等
场景理解: 理解图片的环境和背景
文字识别: 提取图片中的文字内容 (OCR)
情感分析: 分析图片传达的情感和氛围
技术分析: 评估构图、光影、色彩等技术要素

消息格式说明

文本和图片组合

{
  "role": "user",
  "content": [
    {
      "type": "text",
      "text": "请分析这张图片"
    },
    {
      "type": "image",
      "source": {
        "type": "base64",
        "media_type": "image/jpeg",
        "data": "base64编码的图片数据"
      }
    }
  ]
}

多张图片对比

{
  "role": "user",
  "content": [
    {
      "type": "text",
      "text": "请比较这两张图片"
    },
    {
      "type": "image",
      "source": {
        "type": "base64",
        "media_type": "image/jpeg",
        "data": "第一张图片的base64数据"
      }
    },
    {
      "type": "image",
      "source": {
        "type": "base64",
        "media_type": "image/png",
        "data": "第二张图片的base64数据"
      }
    }
  ]
}

应用场景

内容创作

图片描述: 为图片生成标题和描述
社交媒体: 创建有吸引力的文案
博客写作: 根据图片内容创作文章

商业应用

产品分析: 分析产品图片的特点
品牌监控: 识别品牌元素和标识
市场调研: 分析竞品图片内容

教育培训

学习辅助: 解释图表、公式、示意图
作业检查: 分析学生提交的图片作业
知识问答: 基于图片内容回答问题

技术应用

文档数字化: 提取纸质文档的文字内容
数据录入: 从图片中提取结构化信息
质量检测: 分析产品图片的质量问题

最佳实践

1. 图片质量优化

清晰度: 确保图片清晰，避免模糊
光线: 保持良好的光线条件
角度: 选择合适的拍摄角度
背景: 避免复杂的背景干扰

2. 提示词设计

具体明确: 提出具体的问题和要求
结构化: 使用编号或标题组织问题
上下文: 提供必要的背景信息
格式要求: 明确指定输出格式

3. 性能优化

图片压缩: 适当压缩图片以提高传输速度
批量处理: 合理安排批量图片分析的时间
缓存结果: 对重复分析的图片进行结果缓存

注意事项

隐私保护: 不要上传包含个人隐私信息的图片
内容合规: 确保图片内容符合使用政策
网络稳定: 大文件上传需要稳定的网络连接
费用控制: 多模态功能的费用通常高于纯文本
准确性: AI分析结果可能存在误差，重要信息需人工验证

API端点参考

使用示例

Claude 多模态对话示例

Claude 多模态对话示例

快速开始

Claude多模态功能特点

1. 支持的图片格式

2. 图片大小限制

3. 分析能力

消息格式说明

文本和图片组合

多张图片对比

应用场景

内容创作

商业应用

教育培训

技术应用

最佳实践

1. 图片质量优化

2. 提示词设计

3. 性能优化

注意事项

API端点参考

使用示例

​Claude 多模态对话示例

​快速开始

​Claude多模态功能特点

​1. 支持的图片格式

​2. 图片大小限制

​3. 分析能力

​消息格式说明

​文本和图片组合

​多张图片对比

​应用场景

​内容创作

​商业应用

​教育培训

​技术应用

​最佳实践

​1. 图片质量优化

​2. 提示词设计

​3. 性能优化

​注意事项

Claude 多模态对话示例

快速开始

Claude多模态功能特点

1. 支持的图片格式

2. 图片大小限制

3. 分析能力

消息格式说明

文本和图片组合

多张图片对比

应用场景

内容创作

商业应用

教育培训

技术应用

最佳实践

1. 图片质量优化

2. 提示词设计

3. 性能优化

注意事项