mirror of
https://github.com/lobehub/lobehub
synced 2026-04-22 01:57:22 +00:00
* update document * update documents * update auth * move * update database * move auth * move auth * update
72 lines
2.6 KiB
Text
72 lines
2.6 KiB
Text
---
|
||
title: LobeHub 知识库 / 文件上传
|
||
description: 了解 LobeHub 的文件上传和知识库管理核心组件,助力成功部署。
|
||
tags:
|
||
- LobeHub
|
||
- 文件上传
|
||
- 知识库管理
|
||
- PostgreSQL
|
||
- OpenAI
|
||
---
|
||
|
||
# 知识库 / 文件上传
|
||
|
||
LobeHub 支持文件上传 / 知识库管理。该功能依赖于以下核心技术组件,了解这些组件将有助于你成功部署和维护知识库系统。
|
||
|
||
## 核心组件
|
||
|
||
### 1. PostgreSQL 与 PGVector
|
||
|
||
PostgreSQL 是一个强大的开源关系型数据库系统,而 PGVector 是其扩展,为向量操作提供支持。
|
||
|
||
- **用途**:存储结构化数据和向量索引
|
||
- **部署建议**:使用 ParadeDB Docker 镜像可以快速部署包含 pgvector 和 pg\_search 插件的 PostgreSQL
|
||
|
||
示例部署脚本:
|
||
|
||
```
|
||
docker run -p 5432:5432 -d --name pg -e POSTGRES_PASSWORD=mysecretpassword paradedb/paradedb:latest-pg17
|
||
```
|
||
|
||
- **注意事项**:确保分配足够的资源以处理向量操作
|
||
|
||
### 2. S3 兼容的对象存储
|
||
|
||
S3(或兼容 S3 协议的存储服务)用于存储上传的文件。
|
||
|
||
- **用途**:存储原始文件
|
||
- **选项**:可以使用 AWS S3、RustFS、ceph 或其他兼容 S3 协议的存储服务
|
||
- **注意事项**:配置适当的访问权限和安全策略
|
||
|
||
### 3. OpenAI Embedding
|
||
|
||
OpenAI 的嵌入(Embedding)服务用于将文本转化为向量表示。
|
||
|
||
<Callout type={'info'}>
|
||
LobeHub 当前默认使用 OpenAI `text-embedding-3-small` 模型,请确保你的 API Key 可以访问该模型。
|
||
</Callout>
|
||
|
||
- **用途**:生成文本的向量表示,用于语义搜索
|
||
- **注意事项**:
|
||
- 需要有效的 OpenAI API 密钥
|
||
- 实施适当的 API 调用限制和错误处理机制
|
||
|
||
### 4. Unstructured.io(可选)
|
||
|
||
Unstructured.io 是一个强大的文档处理工具。
|
||
|
||
- **用途**:处理复杂的文档格式,提取结构化信息
|
||
- **应用场景**:处理 PDF、Word 等非纯文本格式的文档
|
||
- **注意事项**:评估处理需求,根据文档复杂度决定是否部署
|
||
|
||
通过正确配置和集成这些核心组件,您可以为 LobeHub 构建一个强大、高效的知识库系统。每个组件都在整体架构中扮演着关键角色,共同支持高级的文档管理和智能检索功能。
|
||
|
||
### 5. 自定义 Embedding(可选)
|
||
|
||
- **用途**: 使用不同的嵌入模型(Embedding)生成文本的向量表示,用于语义搜索
|
||
- **选项**: 支持的模型提供商:zhipu/github/openai/bedrock/ollama
|
||
- **部署建议**: 使用环境变量配置默认嵌入模型
|
||
|
||
```
|
||
environment: DEFAULT_FILES_CONFIG=embedding_model=openai/embedding-text-3-small
|
||
```
|