lobehub/docs/changelog/2023-11-14-gpt4-vision.zh-CN.mdx

---
title: '视觉识别：与图片对话，不只是文字'
description: LobeHub 现已支持多模态模型，包括 GPT-4 Vision、Google Gemini Pro Vision 和 GLM-4 Vision。上传或拖拽图片到对话中，助理将理解视觉内容并作出回应。
tags:
  - 视觉识别
  - 多模态交互
  - LobeHub
  - GPT-4
  - Google Gemini Pro
---

# 支持模型视觉识别

LobeHub 的对话不再局限于纯文字。我们现已支持多个具备视觉识别能力的大语言模型，包括 OpenAI 的 [`gpt-4-vision`](https://platform.openai.com/docs/guides/vision)、Google Gemini Pro Vision，以及智谱 GLM-4 Vision。

## 自然地分享图片

上传图片或直接拖拽到对话框，助理就能理解视觉内容并基于上下文继续对话。无论是截图、照片、图表还是任何视觉参考，都能轻松分享。

这为日常场景和专业场景带来了更自然的多模态体验：

- 分享生活中的照片并展开讨论
- 上传界面截图获取设计反馈
- 分享图表并获得解读
- 引用视觉内容而无需用文字描述

## 上下文感知的视觉理解

助理不只是 "看见" 图片 —— 它能在持续对话中理解图片内容。你可以针对特定细节追问、比较多张图片，或将视觉资料作为复杂讨论的参考。

对于专业领域，这意味着更清晰的上下文和更实用的回复。医学影像讨论、建筑方案评审或技术图表分析，当双方都能看到相同的视觉参考时，交流变得更加自然高效。

## 个性化的语音交互

为了更好地服务不同地区和偏好的用户，我们还加入了 OpenAI Audio 和 Microsoft Edge Speech 的高品质语音选项。选择符合你风格或场景的声音，获得更个性化的交互体验。