mirror of
https://github.com/lobehub/lobehub
synced 2026-04-21 09:37:28 +00:00
* 🔨 chore: update .vscode/settings.json (#13894) * 🐛 fix(builtin-tool-local-system): honor glob scope in local system tool (#13875) Made-with: Cursor * 📝 docs: Update changelog docs and release skills (#13897) - Update changelog documentation format across all historical changelog files - Merge release-changelog-style skill into version-release skill - Update changelog examples with improved formatting and structure Made-with: Cursor --------- Co-authored-by: YuTengjing <ytj2713151713@gmail.com> Co-authored-by: Innei <i@innei.in>
35 lines
1.7 KiB
Text
35 lines
1.7 KiB
Text
---
|
||
title: '视觉识别:与图片对话,不只是文字'
|
||
description: LobeHub 现已支持多模态模型,包括 GPT-4 Vision、Google Gemini Pro Vision 和 GLM-4 Vision。上传或拖拽图片到对话中,助理将理解视觉内容并作出回应。
|
||
tags:
|
||
- 视觉识别
|
||
- 多模态交互
|
||
- LobeHub
|
||
- GPT-4
|
||
- Google Gemini Pro
|
||
---
|
||
|
||
# 支持模型视觉识别
|
||
|
||
LobeHub 的对话不再局限于纯文字。我们现已支持多个具备视觉识别能力的大语言模型,包括 OpenAI 的 [`gpt-4-vision`](https://platform.openai.com/docs/guides/vision)、Google Gemini Pro Vision,以及智谱 GLM-4 Vision。
|
||
|
||
## 自然地分享图片
|
||
|
||
上传图片或直接拖拽到对话框,助理就能理解视觉内容并基于上下文继续对话。无论是截图、照片、图表还是任何视觉参考,都能轻松分享。
|
||
|
||
这为日常场景和专业场景带来了更自然的多模态体验:
|
||
|
||
- 分享生活中的照片并展开讨论
|
||
- 上传界面截图获取设计反馈
|
||
- 分享图表并获得解读
|
||
- 引用视觉内容而无需用文字描述
|
||
|
||
## 上下文感知的视觉理解
|
||
|
||
助理不只是 "看见" 图片 —— 它能在持续对话中理解图片内容。你可以针对特定细节追问、比较多张图片,或将视觉资料作为复杂讨论的参考。
|
||
|
||
对于专业领域,这意味着更清晰的上下文和更实用的回复。医学影像讨论、建筑方案评审或技术图表分析,当双方都能看到相同的视觉参考时,交流变得更加自然高效。
|
||
|
||
## 个性化的语音交互
|
||
|
||
为了更好地服务不同地区和偏好的用户,我们还加入了 OpenAI Audio 和 Microsoft Edge Speech 的高品质语音选项。选择符合你风格或场景的声音,获得更个性化的交互体验。
|