🤖
visual-understanding
智谱 GLM-4.6V 多模态视觉模型集成插件。支持本地图像解析(Base64)及公网链接读取。优先提供 zai SDK 接入,并包含 cURL 原生降级方案。
安全通过
🔗API
技能说明
name: glm-4.6v-vision-connector description: "智谱 GLM-4.6V 多模态视觉模型集成插件。支持本地图像解析(Base64)及公网链接读取。优先提供 zai SDK 接入,并包含 cURL 原生降级方案。" version: "1.1.0" homepage: "https://github.com/zai-org/GLM-V" repository: "https://github.com/zai-org/GLM-V.git" authors: ["IsabellaZhangYM"] license: "MIT"
requirements: environment_variables: - ZHIPUAI_API_KEY dependencies: python: - "zai" install_command: "pip install zai"
credentials: ZHIPUAI_API_KEY: description: "智谱 AI 开放平台 (bigmodel.cn) API Key" required: true source: "environment_variable"
👁️ GLM-4.6V 图像理解集成指南
本 Skill 为开发者提供接入智谱 GLM-4.6V 视觉大模型的能力,支持精准的图像内容描述、多图对比及信息提取。
🛡️ 安全与数据合规
- 凭据安全:禁止硬编码 API Key,必须通过环境变量
ZHIPUAI_API_KEY读取。 - 隐私提醒:使用 Base64 上传本地图片时,请确保已脱敏处理图片中的个人隐私信息(PII)或机密数据。
🚀 方式一:Python SDK 请求(⭐️ 推荐)
适用场景:已安装 Python 环境,且需要处理本地图片(通过 Base64 编码上传)。此方式最稳定且支持高级应用封装。
1. 安装依赖
pip install zai
2. 调用代码示例
import os
import base64
from zai import ZhipuAiClient
# 安全规范:通过环境变量读取凭据
client = ZhipuAiClient(api_key=os.environ.get("ZHIPUAI_API_KEY"))
def encode_image(image_path):
"""将本地图像编码为 base64 格式"""
with open(image_path, 'rb') as image_file:
return base64.b64encode(image_file.read()).decode('utf-8')
# ==========================================
# 场景 A:使用公网图像 URL
# ==========================================
response_url = client.chat.completions.create(
model="glm-4.6v",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "这张图片里有什么?请详细描述。"},
{"type": "image_url", "image_url": {"url": "[https://example.com/image.jpg](https://example.com/image.jpg)"}}
]
}]
)
print("URL 解析结果:", response_url.choices[0].message.content)
# ==========================================
# 场景 B:使用本地图片 (Base64)
# ==========================================
local_image_path = 'path/to/your/image.jpg'
if os.path.exists(local_image_path):
base64_image = encode_image(local_image_path)
response_base64 = client.chat.completions.create(
model="glm-4.6v",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "分析这张图片中的内容"},
{"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{base64_image}"}}
]
}]
)
print("本地图片解析结果:", response_base64.choices[0].message.content)
⚡ 方式二:cURL 原生请求(降级方案)
适用场景:受限环境(如 CI/CD 管道、轻量级容器),无法安装 zai SDK。
- 注意:此方式不支持直接上传本地文件,图片必须具备可公开访问的公网下载地址 (URL)。
调用示例(支持多图对比)
请在终端中执行,系统将自动读取已配置的 $ZHIPUAI_API_KEY 环境变量:
curl --request POST \
--url [https://open.bigmodel.cn/api/paas/v4/chat/completions](https://open.bigmodel.cn/api/paas/v4/chat/completions) \
--header "Authorization: Bearer $ZHIPUAI_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"model": "glm-4.6v",
"messages": [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": "[https://cdn.bigmodel.cn/static/logo/register.png](https://cdn.bigmodel.cn/static/logo/register.png)"
}
},
{
"type": "image_url",
"image_url": {
"url": "[https://cdn.bigmodel.cn/static/logo/api-key.png](https://cdn.bigmodel.cn/static/logo/api-key.png)"
}
},
{
"type": "text",
"text": "What are the pics talk about?"
}
]
}
]
}'
💡 最佳实践与避坑指南
| 请求方式 | 优点 | 局限性 |
|---|---|---|
| zai SDK | 支持本地图片、易于与 RAG 或 Agent 工作流集成 | 需要 Python 环境及 pip install 权限 |
| cURL | 零依赖,随处可用,非常适合自动化 Shell 脚本 | 只能读取公网图床,本地图片需自行搭建图床中转 |
如何使用「visual-understanding」?
- 打开小龙虾AI(Web 或 iOS App)
- 点击上方「立即使用」按钮,或在对话框中输入任务描述
- 小龙虾AI 会自动匹配并调用「visual-understanding」技能完成任务
- 结果即时呈现,支持继续对话优化