构建运行超大语言模型的基础
2026-04-16
我们构建了一套定制的技术栈,用于在 Cloudflare 基础设施上运行快速加载的大语言模型 (LLM)。本篇博客文章将介绍实现高性能 AI 推理所需的工程权衡与技术优化。...

Senior Manager, Engineering
2026-04-16
我们构建了一套定制的技术栈,用于在 Cloudflare 基础设施上运行快速加载的大语言模型 (LLM)。本篇博客文章将介绍实现高性能 AI 推理所需的工程权衡与技术优化。...
2026-03-19
Kimi K2.5 现已在 Workers AI 上推出,助您在 Cloudflare 开发人员平台上全方位支持智能体。了解我们如何优化推理栈,降低内部智能体用例的推理成本。 ...