lobehub/docs/changelog/2023-11-14-gpt4-vision.zh-CN.mdx
CanisMinor 549735be7f
📝 docs: Update changelog docs and release skills (#13897)
* 🔨 chore: update .vscode/settings.json (#13894)

* 🐛 fix(builtin-tool-local-system): honor glob scope in local system tool (#13875)

Made-with: Cursor

* 📝 docs: Update changelog docs and release skills (#13897)

- Update changelog documentation format across all historical changelog files
- Merge release-changelog-style skill into version-release skill
- Update changelog examples with improved formatting and structure

Made-with: Cursor

---------

Co-authored-by: YuTengjing <ytj2713151713@gmail.com>
Co-authored-by: Innei <i@innei.in>
2026-04-16 22:24:48 +08:00

35 lines
1.7 KiB
Text
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: '视觉识别:与图片对话,不只是文字'
description: LobeHub 现已支持多模态模型,包括 GPT-4 Vision、Google Gemini Pro Vision 和 GLM-4 Vision。上传或拖拽图片到对话中助理将理解视觉内容并作出回应。
tags:
- 视觉识别
- 多模态交互
- LobeHub
- GPT-4
- Google Gemini Pro
---
# 支持模型视觉识别
LobeHub 的对话不再局限于纯文字。我们现已支持多个具备视觉识别能力的大语言模型,包括 OpenAI 的 [`gpt-4-vision`](https://platform.openai.com/docs/guides/vision)、Google Gemini Pro Vision以及智谱 GLM-4 Vision。
## 自然地分享图片
上传图片或直接拖拽到对话框,助理就能理解视觉内容并基于上下文继续对话。无论是截图、照片、图表还是任何视觉参考,都能轻松分享。
这为日常场景和专业场景带来了更自然的多模态体验:
- 分享生活中的照片并展开讨论
- 上传界面截图获取设计反馈
- 分享图表并获得解读
- 引用视觉内容而无需用文字描述
## 上下文感知的视觉理解
助理不只是 "看见" 图片 —— 它能在持续对话中理解图片内容。你可以针对特定细节追问、比较多张图片,或将视觉资料作为复杂讨论的参考。
对于专业领域,这意味着更清晰的上下文和更实用的回复。医学影像讨论、建筑方案评审或技术图表分析,当双方都能看到相同的视觉参考时,交流变得更加自然高效。
## 个性化的语音交互
为了更好地服务不同地区和偏好的用户,我们还加入了 OpenAI Audio 和 Microsoft Edge Speech 的高品质语音选项。选择符合你风格或场景的声音,获得更个性化的交互体验。