网易有道 QAnything 开源:探索个性化问答的新纪元

网易有道最新开源力作:QAnything 引擎。是基于 RAG(Retrieval Augmentated Generation) 的引擎,可以用于建立本地知识库做问答,解锁本土 ChatGPT 般的问答体验。☝

「QAynthing」是一个成熟的系统,有着准确率高、速度快、纯离线,易于使用(一键部署),占用资源小(只要 16G 显存即可)的特点。

目前,「QAynthing」已经在有道的多个产品中落地应用,包括有道词典的文档问答,有道速读,以及有道课程业务(高中、少儿围棋等)的客服系统等,在有道合作的 2B 客户的场景中已经落地应用。

up-3a44e1a3842061c69c8d841262c86d5ea68

chatgpt 的大模型能力很强,但其训练耗时很长,无法利用用户的私有数据,且有胡乱编造的幻觉问题。

与 ChatGPT 相比,有道自研的「QAynthing」有自己的突出优势。它能够快速塞入各种格式的文档,如 doc、ppt、excel、图片、pdf 等,系统将在很短的时间内对这些文档进行处理并根据语义建立知识库,用户可以基于这样的知识库做各种问答。系统将理解用户的意图,在全库中寻找相关的内容,理解、提取用户关心的要点,并加以总结后呈现给用户。

up-28dd89cb825ae0ca3ded8dd7b632f332405

「QAynthing」包含的模型和系统代码,我们都全面开源了。此次开源还包含了一个应用系统,用户可以通过前端页面上传文档,直接使用。也可以通过我们提供的 API 接口做二次开发,搭建诸如智能客服等应用。用户直接一键下载我们的代码和模型即可开始使用。

 

up-b05477f7eac27220217144c83707d9f1048

在模型部分,我们开源了有道自研的 BCE embedding 和 rerank,用来做语义检索和相关性排序。得益于有道在翻译领域的积累,有道自研的 embedding/rerank 模型在跨语种场景下表现尤其好。比如知识库的文档有中文、英文混合语种的内容,当用中文去问问题的时候,我们能够很好的检索出英文内容。目前所有的开源 embedding 模型都忽略了跨语种检索的问题,在跨语种上表现不佳。此外,开源的 embedding 很多时候忽略了 RAG 的问题,只是单纯追求语义相似。而我们的 embedding 和 rerank 模型专门针对 RAG 的场景做了训练,所以有着更高的准确率

up-c8fb3f4f844d6a2d5ac3608bae03fc309f2

系统部分,我们对文档的解析、切片、建库、embedding/LLM 的推理做了大量的优化,具有稳定、速度快、易于安装使用的特点。

目前该项目还处于不断迭代的阶段,欢迎大家参与开发,并给予我们更多反馈

官网地址:https://github.com/netease-youdao/QAnything

订阅评论
提醒
guest的头像

0 评论
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x