AI对话助手探索过程
需求
需要能够在系统中增加一个对话助手的功能,她必须能够介绍公司,理解基本对话需求,我个人理解最好是不需要思考的,直接能快速对话的,硬件要求不高的。
解决方案
市面上的训练模型的方案不太适合,最好的办法就是RAG方案使用适合的模型大小再结合文档库
dify ×
dify强大且配置功能极多,使用下来就是占用过高了,试用过后放弃了
maxkb
是一款国产的开源框架,占用不高,开箱即用,配置相对简单
docker直接运行
[]: https://github.com/1Panel-dev/MaxKB/blob/v2/README_CN.md
ollama
windows直接安装之后可以像运行docker镜像一样运行模型镜像
模型选择
qwen3-8B
qwen3.5-4B
qwen3.5:0.8b
qwen2.5:7b
kamekichi128/qwen3-4b-instruct-2507:latest
hf.co/unsloth/Qwen3.5-4B-GGUF:latest
文档分词模型bge-m3
最终选择
最终测试选择了对话增强版本kamekichi128/qwen3-4b-instruct-2507:latest
配合bge-m3
运行再ollama上,并且maxkb引用ollama的模型创建对话助手,为其指定身份提示词并且关闭思考和调整小参数以快速回答
结合maxkb给定的API,可以实现流式http问答
小问题:小程序一般不支持流式http
解决方法:统一由java后端配置权限,websocket连接前端并交互请求,使用okhttp中转发送请求,收到响应之后回复前端