Skip to content

014. 知识库、Agent 与模型微调项目

学习目标

这一节继续介绍后续实战项目,重点放在企业知识库、智能客服、出差管家和模型微调。

学完后,你应该能理解:

  • 企业文档知识库项目要解决什么问题;
  • LlamaIndex 和 Milvus 在 RAG 里分别承担什么;
  • 在线文档和普通知识库的区别;
  • 日报周报为什么也可以进入知识库;
  • 智能客服如何基于知识库回答问题;
  • 为什么报销审核场景会涉及模型微调和私有化部署。

企业文档知识库

企业知识库的目标,是让系统能够围绕企业内部资料做问答。

项目里会用到:

  • LlamaIndex 做文档处理和检索编排;
  • Milvus 存向量数据;
  • 文档分块;
  • 向量化;
  • 检索;
  • 基于检索结果回答问题。

你可以先把它理解成:把企业文档拆成很多片段,转成适合检索的向量,用户提问时先找相关片段,再交给模型组织答案。

知识库管理

知识库管理负责上传和管理文档。

基本流程是:

  1. 创建知识库;
  2. 上传文档;
  3. 系统解析文档内容;
  4. 对文本进行分块;
  5. 把分块内容向量化;
  6. 存入 Milvus;
  7. 在对话测试里验证能检索到哪些内容。

这和传统文档管理系统不同。传统系统只负责存文件,RAG 知识库还要让模型能“查到并使用”文件里的内容。

在线文档是一种特殊知识库

在线文档可以理解成可编辑的知识库。

普通知识库通常通过上传文件来更新内容。在线文档则允许用户直接在系统里编辑文本。

编辑完成后,系统需要重新处理:

  • 保存文档内容;
  • 重新分块;
  • 重新建立索引;
  • 重新向量化;
  • 更新到向量数据库。

所以在线文档不是单纯的富文本编辑器,它背后还连接着知识库检索流程。

日报周报也能进入知识库

项目里还有日报周报功能。

员工每天或每周写的工作内容,也可以被系统分块、索引和向量化。

这样后续可以问:

  • 某个项目去年做了哪些工作;
  • 某个员工一段时间内主要负责什么;
  • 某个模块以前是谁维护的;
  • 新同事接手时应该先看哪些历史记录。

这类功能的价值在于沉淀团队经验。

如果员工离职,原来只有他知道的项目背景、决策和问题记录,不应该跟着人一起消失。

知识问答和智能客服

知识问答可以把某个知识库发布成机器人。

发布后,外部用户或商家可以通过链接和机器人对话。

例如知识库里有台灯说明书,用户问“护眼台灯有哪些”,系统会:

  1. 检索相关文档分块;
  2. 找到匹配产品信息;
  3. 把检索结果交给模型;
  4. 按提示词要求生成回答。

如果提示词要求英文回答,模型可能会用英文回答;如果用户明确要求中文回答,也可能按中文输出。

这里要理解:智能客服不是凭空回答,而是围绕知识库里的资料回答。

出差管家和审批流程

出差管家项目会把对话和业务系统连起来。

用户表达出差需求后,Agent 可以一步步收集信息,例如:

  • 出差城市;
  • 酒店;
  • 预算;
  • 出差时间;
  • 审批项目。

信息足够后,系统可以自动创建出差审批单。审批结束后,还可以继续创建报销单。

这种项目体现的是 Agent 的工具调用能力:模型不只聊天,还会调用业务接口完成动作。

报销审核和模型微调

报销审核涉及企业内部数据,很多公司不希望把敏感数据发给外部模型平台。

这时可以考虑私有化部署模型。

但私有化部署不一定要上很大的模型。针对垂直场景,可以用较小模型配合微调,让它在某个任务上更强。

例如报销单审核场景:

  • 不需要模型擅长写诗、历史或化学;
  • 更需要它理解发票、金额、报销规则和审核理由;
  • 可以用领域数据增强它在报销审核上的表现;
  • 其他无关能力可以弱一些。

这就是微调的核心思路:用场景数据换取特定任务上的能力提升。

应用方向和算法方向

AI 转型大致有两类方向。

方向重点
算法研究模型结构、训练算法、论文、数学能力
应用开发把模型接入业务系统,完成真实业务功能

本课程更偏应用开发。

对于有 JS 经验的人来说,更现实的路径是先把 AI 能力接进前后端系统:能部署、能调用、能落库、能和业务流程结合。

这条路不要求一开始就做模型底层研究,但要求你理解模型服务、数据、后端接口和前端交互如何连在一起。

AI Agent 课程学习文档。