Unweight: 품질을 희생하지 않고 LLM을 22% 압축한 방법
2026-04-17
Cloudflare의 네트워크에서 LLM을 실행하려면 GPU 메모리 대역폭에 대해 더 현명하고 더 효율적이어야 합니다. 그래서 당사에서는 최대 22%의 모델 공간 축소를 달성하는 무손실 추론 시간 압축 시스템인 Unweight를 개발하여 그 어느 때보다 더 빠르고 저렴하게 추론을 제공할 수 있습니다....

2026-04-17
Cloudflare의 네트워크에서 LLM을 실행하려면 GPU 메모리 대역폭에 대해 더 현명하고 더 효율적이어야 합니다. 그래서 당사에서는 최대 22%의 모델 공간 축소를 달성하는 무손실 추론 시간 압축 시스템인 Unweight를 개발하여 그 어느 때보다 더 빠르고 저렴하게 추론을 제공할 수 있습니다....
2025-10-29
WARP의 초기 구현은 VPN을 통해 인터넷에 액세스할 수 있도록 하는 것과 유사했습니다. Cloudflare가 구축한 방법을 소개하며, 여러분도 그렇게 할 수 있습니다. ...
2025-10-29
성능 개선, 효율성 향상, 데이터 센터 간에 IP 서브넷을 공유하는 Cloudflare의 방법인 소프트 unicast와 같은 새로운 기능을 제공하기 위한 네트워크 하드웨어 및 소프트웨어의 한계에 도전하지 않고는 Cloudflare의 많은 제품을 만들 수 없습니다. 다행히 대부분의 사람은 운영 체제에서 네트워크와 인터넷 액세스를 일반적으로 처리하는 방법의 복잡한 내용을 알 필요가 없습니다. 대부분의 Cloudflare 직원도 마찬가지입니다. 하지만 때로는 Linux 네트워킹 스택의 설계 의도를 훨씬 넘어서도록 구현하려고 시도하기도 합니다. 다음은 그러한 시도 중 하나에 대한 이야기입니다....