軽量化:品質を犠牲にせずにLLMを22%圧縮した方法
2026-04-17
Cloudflareのネットワーク全体でLLMを実行するには、GPUメモリ帯域幅についてよりスマートで効率的になる必要があります。そこで当社は、最高22%のモデルフットプリント削減を実現するロスレスな推論時間圧縮システムUnweightを開発しました。これにより、かつてないほど高速かつ安価な推論を提供できるようになりました。...

2026-04-17
Cloudflareのネットワーク全体でLLMを実行するには、GPUメモリ帯域幅についてよりスマートで効率的になる必要があります。そこで当社は、最高22%のモデルフットプリント削減を実現するロスレスな推論時間圧縮システムUnweightを開発しました。これにより、かつてないほど高速かつ安価な推論を提供できるようになりました。...
2025-10-29
WARPの初期実装は、インターネットアクセスを許可するVPNに似ていました。当社がどのようにして構築したのか、そして、その方法をご紹介します。 ...
2025-10-29
Cloudflareの製品の多くは、ネットワークハードウェアとソフトウェアの限界を押し広げて、パフォーマンスの向上、効率性の向上、あるいはデータセンター間でIPサブネットを共有する方法であるソフトunicastなどの新しい機能を実現するために、必ず使用できます。幸いなことに、ほとんどの人は、オペレーティングシステムがネットワークやインターネットアクセスをどのように処理するかという複雑な情報を知る必要はありません。そう、Cloudflare内のほとんどの人がそうなのです。しかし、CloudflareはLinuxのネットワークスタックの設計意図を十分に超えようとすることがあります。これは、その試みの1つについて話します。...