TextServiceQwen3

基于 Qwen3 ONNX 模型的文本处理服务，提供文本嵌入、重排序和分块功能。支持 FastAPI REST API 和 gRPC 两种接口方式。

功能特性

🔤 文本嵌入：使用 Qwen3-Embedding-0.6B ONNX 模型生成文本向量
🔄 文本重排序：使用 Qwen3-Reranker-0.6B ONNX 模型对文本块进行相关性排序
✂️ 文本分块：智能分割长文本为可处理的块
🌐 双接口支持：同时提供 REST API 和 gRPC 接口
🐳 Docker 支持：完整的容器化部署方案
📊 API 文档：内置 Swagger UI 文档

快速开始

方式一：本地运行

1. 环境准备

# 克隆项目
git clone https://github.com/iwaitu/TextServiceQwen3.git
cd TextServiceQwen3

# 创建虚拟环境
python -m venv venv
venv\Scripts\activate  # Windows
# source venv/bin/activate  # Linux/Mac

# 安装依赖
pip install -r requirements.txt

2. 模型下载

确保在 Models/ 目录下有以下 ONNX 模型目录：

qwen3-embedding-0.6b-onnx/
qwen3-reranker-seq-cls-onnx/

3. 启动服务

# 启动 FastAPI 服务（REST API）
python main.py

# 或者启动 gRPC 服务
python grpc_service.py

方式二：Docker 部署

当前 Docker 镜像默认启动的是 gRPC 服务，不会启动 FastAPI REST 服务。容器暴露端口为 32688，并依赖 NVIDIA GPU 运行时以及 Models/ 目录挂载。

1. 使用 Docker Compose（推荐）

# 构建并启动服务
docker-compose up -d

# 查看日志
docker-compose logs -f

# 查看容器健康状态
docker-compose ps

2. 手动 Docker 构建

# 构建镜像
docker build -t qwen3-text-service .

# 运行容器
docker run -d --gpus all -p 32688:32688 \
  -e CUDA_VISIBLE_DEVICES=0 \
  -e EMBEDDING_MODEL_DIR=/app/Models/qwen3-embedding-0.6b-onnx \
  -e RERANKER_MODEL_DIR=/app/Models/qwen3-reranker-seq-cls-onnx \
  -e ONNX_EXECUTION_PROVIDERS=CUDAExecutionProvider,CPUExecutionProvider \
  -v ${PWD}/Models:/app/Models:ro \
  qwen3-text-service

如果你使用的是 Windows CMD，可以将卷挂载改为：

docker run -d --gpus all -p 32688:32688 ^
  -e CUDA_VISIBLE_DEVICES=0 ^
  -e EMBEDDING_MODEL_DIR=/app/Models/qwen3-embedding-0.6b-onnx ^
  -e RERANKER_MODEL_DIR=/app/Models/qwen3-reranker-seq-cls-onnx ^
  -e ONNX_EXECUTION_PROVIDERS=CUDAExecutionProvider,CPUExecutionProvider ^
  -v %cd%\Models:/app/Models:ro ^
  qwen3-text-service

API 文档

REST API

服务启动后，访问以下地址查看 API 文档：

Swagger UI: http://localhost:8000/docs
ReDoc: http://localhost:8000/redoc

主要接口

1. 文本嵌入

POST /embed_text
Content-Type: application/json

{
  "input": ["文本1", "文本2"]
}

2. 文本重排序

POST /rerank
Content-Type: application/json

{
  "query": "查询文本",
  "documents": ["候选文本1", "候选文本2"],
  "instruction": "可选的指令文本"
}

3. 文本分块

POST /split_text
Content-Type: application/json

{
  "text": "要分块的长文本",
  "chunksize": 1000,
  "overlap_size": 100
}

gRPC 接口

gRPC 服务运行在端口 32688，提供以下服务：

EmbedText: 文本嵌入
SimpleRerank: 文本重排序
SplitTextIntoChunks: 文本分块
HealthCheck: 健康检查
GetModelInfo: 模型信息

使用示例

Python 客户端示例

import requests

# REST API 示例
base_url = "http://localhost:8000"

# 文本嵌入
response = requests.post(f"{base_url}/embed_text", json={
    "input": ["Hello world", "你好世界"]
})
embeddings = response.json()

# 文本重排序
response = requests.post(f"{base_url}/rerank", json={
    "query": "人工智能技术",
  "documents": [
        "机器学习是人工智能的核心技术",
        "今天天气很好",
        "深度学习推动了AI的发展"
  ],
  "instruction": "Given a web search query, retrieve relevant passages that answer the query"
})
ranked_results = response.json()

gRPC 客户端示例

import grpc
import text_service_pb2
import text_service_pb2_grpc

# 连接 gRPC 服务
channel = grpc.insecure_channel('localhost:32688')
stub = text_service_pb2_grpc.TextGrpcServiceStub(channel)

# 健康检查
health = stub.HealthCheck(text_service_pb2.HealthCheckRequest())
print(health.status)

# 模型信息
model_info = stub.GetModelInfo(text_service_pb2.ModelInfoRequest())
print(model_info.embedding_model.model_name)
print(model_info.reranker_model.model_name)

# 文本嵌入
embed_request = text_service_pb2.EmbedTextRequest(input=["Hello world"])
embed_response = stub.EmbedText(embed_request)

# 文本重排序
rerank_request = text_service_pb2.SimpleRerankRequest(
    prompt="人工智能技术",
    text_blocks=[
        "机器学习是人工智能的核心技术",
        "今天天气很好",
        "深度学习推动了AI的发展"
    ]
)
rerank_response = stub.SimpleRerank(rerank_request)

配置说明

环境变量

CUDA_VISIBLE_DEVICES: 指定使用的 GPU 设备
EMBEDDING_MODEL_DIR: Embedding ONNX 模型目录
RERANKER_MODEL_DIR: Reranker ONNX 模型目录
EMBEDDING_MAX_LENGTH: Embedding 最大输入长度，默认 8192
RERANK_MAX_LENGTH: Rerank 最大输入长度，默认 8192
EMBEDDING_BATCH_SIZE: Embedding 推理批大小，默认 8
ONNX_EXECUTION_PROVIDERS: 显式指定 ONNX Runtime Provider 链
ONNX_PREFERRED_PROVIDER: 指定首选 Provider
ONNX_PROVIDER: 兼容单 Provider 配置

模型配置

嵌入模型: qwen3-embedding-0.6b-onnx
重排序模型: qwen3-reranker-seq-cls-onnx
支持设备: CPU / CUDA GPU

项目结构

TextServiceQwen3/
├── main.py                 # FastAPI 主服务
├── grpc_service.py         # gRPC 服务
├── requirements.txt        # Python 依赖
├── Dockerfile              # Docker 构建文件
├── docker-compose.yml      # Docker Compose 配置
├── protos/                 # gRPC Protocol Buffers 定义
│   └── text_service.proto
├── static/                 # 静态文件（Swagger UI）
├── Models/                 # 模型文件目录（被 .gitignore 忽略）
│   ├── qwen3-embedding-0.6b-onnx/
│   └── qwen3-reranker-seq-cls-onnx/
├── test_rerank.py          # 测试脚本
├── test_grpc_client.py     # gRPC smoke test
├── benchmark_service.py    # REST benchmark
└── benchmark_grpc.py       # gRPC benchmark

开发指南

生成 gRPC 代码

# 从 .proto 文件生成 Python 代码
python -m grpc_tools.protoc -I./protos --python_out=. --grpc_python_out=. ./protos/text_service.proto

运行测试

# 运行重排序测试
python test_rerank.py

基准测试

gRPC Benchmark

当前仓库新增了 benchmark_grpc.py，用于对 gRPC 服务执行健康检查、Embedding 吞吐测试、Rerank 吞吐测试和准确性评估。

在 Windows CMD 中，如果你的服务运行在 conda 的 agent 环境，推荐直接使用以下命令：

C:\Users\iwaitu\anaconda3\envs\agent\python.exe benchmark_grpc.py --target 127.0.0.1:32688

如果只想快速验证性能而跳过准确性样本，可以使用：

C:\Users\iwaitu\anaconda3\envs\agent\python.exe benchmark_grpc.py --target 127.0.0.1:32688 --skip-accuracy

最近一次 gRPC 实测结果

测试环境：Windows CMD + conda agent 环境
服务地址：127.0.0.1:32688
健康状态：healthy
模型加载状态：Embedding 与 Reranker 均已加载
Embedding 压测：32 条文本，稳态平均 79.34 ms，P95 81.24 ms，吞吐量 403.35 条/秒，向量维度 1024
Rerank 压测：50 条候选文本，稳态平均 147.46 ms，P95 156.39 ms，吞吐量 339.07 条/秒
Rerank 准确性：5 个样本，Top1 Accuracy = 1.0，Top3 Accuracy = 1.0，MRR = 1.0

REST Benchmark

仓库中的 benchmark_service.py 可用于 REST API 的同类测试。若 REST 服务已启动，可使用：

C:\Users\iwaitu\anaconda3\envs\agent\python.exe benchmark_service.py --base-url http://127.0.0.1:8000

性能优化

使用 GPU 加速（推荐 CUDA）
批量处理请求以提高吞吐量
根据硬件配置调整 max_length 参数
使用 Docker 容器限制资源使用

故障排除

常见问题

模型加载失败
- 确保 Models/ 目录下有正确的模型文件
- 检查模型文件权限
CUDA 内存不足
- 减少批处理大小
- 使用 CPU 模式运行
端口冲突
- 修改 docker-compose.yml 中的端口映射
- 检查防火墙设置

许可证

本项目采用 MIT 许可证 - 详见 LICENSE 文件。

贡献

欢迎提交 Issue 和 Pull Request！

更新日志

v1.0.0

初始版本发布
支持文本嵌入、重排序和分块功能
提供 REST API 和 gRPC 双接口
Docker 容器化支持

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
__pycache__		__pycache__
protos		protos
static		static
tools		tools
.dockerignore		.dockerignore
.gitignore		.gitignore
Dockerfile		Dockerfile
LICENSE		LICENSE
README-Docker.md		README-Docker.md
README.md		README.md
benchmark_grpc.py		benchmark_grpc.py
benchmark_service.py		benchmark_service.py
build-docker.bat		build-docker.bat
build-docker.sh		build-docker.sh
docker-compose.yml		docker-compose.yml
grpc_service.py		grpc_service.py
main.py		main.py
memory_probe_grpc.py		memory_probe_grpc.py
onnx_provider_utils.py		onnx_provider_utils.py
requirements.txt		requirements.txt
start_grpc_service.bat		start_grpc_service.bat
start_service.bat		start_service.bat
test_rerank.py		test_rerank.py
text_service_pb2.py		text_service_pb2.py
text_service_pb2_grpc.py		text_service_pb2_grpc.py

Folders and files

Latest commit

History

Repository files navigation

TextServiceQwen3

功能特性

快速开始

方式一：本地运行

1. 环境准备

2. 模型下载

3. 启动服务

方式二：Docker 部署

1. 使用 Docker Compose（推荐）

2. 手动 Docker 构建

API 文档

REST API

主要接口

1. 文本嵌入

2. 文本重排序

3. 文本分块

gRPC 接口

使用示例

Python 客户端示例

gRPC 客户端示例

配置说明

环境变量

模型配置

项目结构

开发指南

生成 gRPC 代码

运行测试

基准测试

gRPC Benchmark

最近一次 gRPC 实测结果

REST Benchmark

性能优化

故障排除

常见问题

许可证

贡献

更新日志

v1.0.0

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages