本报告介绍大语言模型推理过程中的关键技术挑战与架构解决方案。主要内容包括:1. GPU内存与带宽挑战:以DeepSeek-R1(6710亿参数)为例,指出单设备需至少671GB显存(FP8精度),带宽需求高达740GB/s,强调GPU-centric架构的局限性。2. Mooncake架构:以存储换计算:支持KVCache复用,显著减少重复计算,提升推理效率。已应用于Kimi、阿里、蚂蚁集团等,并获USENIX FAST最佳论文奖。3.KTransformers:CPU-GPU异构协同推理:支持在低配置设备(如单CPU+GPU)上运行千亿级模型(如DeepSeek-R1),通过主机内存与显存协同、注意力层与MoE层分离,降低部署门槛,推动AI PC落地。4.行业应用与开源生态:Mooncake与vLLM、SGLang等推理引擎深度集成,支持多硬件平台(NVIDIA、昇腾),已在科大讯飞、阿里巴巴等企业级场景中验证高效性能。通过“以存储换计算”(Mooncake)和“以存储增强计算”(KTransformers)两大策略,显著降低LLM推理成本与硬件门槛,推动大模型技术向普及化、个人化发展,标志着AI PC从概念走向现实。