-
TOP
-
TOP
超详细!用Ingress-nginx搭建一个简单网关
讲解了什么是 Ingress 以及 Ingress Controller,为什么要用 Ingress-nginx 来做流量转发。并通过 Helm Chart 搭建了一个 Ingress-nginx 控制器,配置了 HTTP 和 HTTPS 的代理规则,最后演示了如何基于不同域名访问不同的后端服务。
-
TOP
Graph Algorithm
图论的常见算法与应用,涵盖图的存储结构、图的遍历、拓扑排序、最小生成树(Kruskal 和 Prim)、最短路径算法(Floyd、Dijkstra、Bellman-Ford、SPFA、Johnson)等。还涉及分层图、差分约束、二分图、欧拉图及树相关算法,如 LCA、树的直径、重构树和树链剖分等。
-
RAG 检索缓存的双层架构:L1 精确匹配 + L2 语义匹配的设计权衡
在 RAG 系统中,检索延迟和 API 成本是两大痛点。本文记录了我们在 CookHero 项目中设计的 L1+L2 双层缓存架构——用 Redis 做精确匹配,用 Milvus 做语义匹配——以及这个设计背后的思考和踩过的坑。
-
对话式 RAG 的预处理链路:意图识别与查询重写的工程取舍
在对话式 RAG 系统中,用户的输入往往不能直接拿去检索——“它怎么做”指代不明,“好的”根本不需要检索。本文记录了 CookHero 项目中意图识别和查询重写模块的设计过程,包括我们在 Prompt 工程上的反复迭代,以及一些”看起来简单但容易做错”的细节。
-
多轮对话场景下的上下文压缩:从爆 token 到稳定运行的工程实践
在构建一个真实的多轮对话系统时,上下文管理是绕不开的痛点。本文记录了我们在 CookHero 项目中如何从”对话几轮就爆 token”走向”稳定运行”的完整过程,包括踩过的坑、做过的权衡,以及最终的压缩策略设计。
-
理解 LLM 推理中的 KV Cache 机制
在大型语言模型(LLM)的推理过程中,KV Cache(键值缓存)是一个至关重要的优化机制。它显著提升了模型在生成长文本时的效率和响应速度。本文将深入解析 KV Cache 的工作原理及其在推理中的应用。
-
More Attention is all you need
本章在之前对注意力机制的基础上,介绍几种改进的注意力机制,包括多查询注意力(MQA)、分组查询注意力(GQA)以及FlashAttention等技术,这些技术在提升模型性能和推理效率方面发挥了重要作用。
-
Pre-trained Language Models介绍
本文详细介绍了预训练语言模型(Pre-trained Language Models, PLM)的核心架构与代表模型,重点分析了 Encoder-only、Encoder-Decoder 和 Decoder-only 三种主流设计思路及其在自然语言处理任务中的应用优势。
-
Transformer架构详解
本章我们将介绍如何搭建一个完整的 Transformer 模型。
The Steadfast Determination of An Ordinary Soul.|