-
TOP
-
TOP
超详细!用Ingress-nginx搭建一个简单网关
讲解了什么是 Ingress 以及 Ingress Controller,为什么要用 Ingress-nginx 来做流量转发。并通过 Helm Chart 搭建了一个 Ingress-nginx 控制器,配置了 HTTP 和 HTTPS 的代理规则,最后演示了如何基于不同域名访问不同的后端服务。
-
TOP
Graph Algorithm
图论的常见算法与应用,涵盖图的存储结构、图的遍历、拓扑排序、最小生成树(Kruskal 和 Prim)、最短路径算法(Floyd、Dijkstra、Bellman-Ford、SPFA、Johnson)等。还涉及分层图、差分约束、二分图、欧拉图及树相关算法,如 LCA、树的直径、重构树和树链剖分等。
-
为什么我用 C++/Java 而非 Python 写算法题
写算法题这件事,说到底是一场「思考」与「表达」的博弈。语言选对了,思路才能跟上;选错了,代码写得再快也是返工的命。
-
RAG 评估的黄金陷阱:为何高召回率不等于高质量答案
在构建 RAG 系统时,我们往往习惯盯着检索指标如精确率和召回率,却忽略了生成环节的真实表现。本文剖析了为何高召回率可能掩盖生成幻觉,强调忠实性和答案相关性才是评估核心,并分享从人工评测到 LLM-as-Judge 的演进路径,以及构建分层评估流水线的实践建议。读完后,你将明白如何避免评估误区,确保 RAG 系统真正可靠。
-
RAG 检索缓存的双层架构:L1 精确匹配 + L2 语义匹配的设计权衡
在 RAG 系统中,检索延迟和 API 成本是两大痛点。本文记录了我们在 CookHero 项目中设计的 L1+L2 双层缓存架构——用 Redis 做精确匹配,用 Milvus 做语义匹配——以及这个设计背后的思考和踩过的坑。
-
对话式 RAG 的预处理链路:意图识别与查询重写的工程取舍
在对话式 RAG 系统中,用户的输入往往不能直接拿去检索——“它怎么做”指代不明,“好的”根本不需要检索。本文记录了 CookHero 项目中意图识别和查询重写模块的设计过程,包括我们在 Prompt 工程上的反复迭代,以及一些”看起来简单但容易做错”的细节。
-
多轮对话场景下的上下文压缩:从爆 token 到稳定运行的工程实践
在构建一个真实的多轮对话系统时,上下文管理是绕不开的痛点。本文记录了我们在 CookHero 项目中如何从”对话几轮就爆 token”走向”稳定运行”的完整过程,包括踩过的坑、做过的权衡,以及最终的压缩策略设计。
-
理解 LLM 推理中的 KV Cache 机制
在大型语言模型(LLM)的推理过程中,KV Cache(键值缓存)是一个至关重要的优化机制。它显著提升了模型在生成长文本时的效率和响应速度。本文将深入解析 KV Cache 的工作原理及其在推理中的应用。
-
More Attention is all you need
本章在之前对注意力机制的基础上,介绍几种改进的注意力机制,包括多查询注意力(MQA)、分组查询注意力(GQA)以及FlashAttention等技术,这些技术在提升模型性能和推理效率方面发挥了重要作用。
The Steadfast Determination of An Ordinary Soul.|