2024年2月6日に、テキスト生成、分類、コード生成のユースケースのカタログに追加した8つの新しいモデルを発表しました。本日、Cloudflareは17以上 (!) のモデルを用いて、Workers AIでの新しいタイプのタスクとユースケースの実現に焦点を当てます。現在、カタログには40近くのモデルがあるため、ユーザーが新しいモデルを簡単に検索して発見できるように、開発者向けドキュメントの刷新も行うことにしました。
新しいモデルは以下のとおりです。Workers AIの完全版カタログは、新しい開発者向けドキュメントでご覧いただけます。
テキスト生成
@cf/deepseek-ai/deepseek-math-7b-instruct
@cf/openchat/openchat-3.5-0106
@cf/microsoft/phi-2
@cf/tinyllama/tinyllama-1.1b-chat-v1.0
@cf/thebloke/discolm-german-7b-v1-awq
@cf/qwen/qwen1.5-0.5b-chat
@cf/qwen/qwen1.5-1.8b-chat
@cf/qwen/qwen1.5-7b-chat-awq
@cf/qwen/qwen1.5-14b-chat-awq
@cf/tiiuae/falcon-7b-instruct
@cf/defog/sqlcoder-7b-2
要約
@cf/facebook/bart-large-cnn
テキストから画像
@cf/lykon/dreamshaper-8-lcm
@cf/runwayml/stable-diffusion-v1-5-inpainting
@cf/runwayml/stable-diffusion-v1-5-img2img
@cf/bytedance/stable-diffusion-xl-lightning
画像からテキスト
@cf/unum/uform-gen2-qwen-500m
新しい言語モデル、ファインチューニング、量子化
本日のカタログアップデートには、開発者がユースケースに最適なLLMを選択できるように、新しい言語モデルが多数含まれています。ほとんどのLLMはどのインスタンスでも機能するように一般化できますが、特定のユースケースに合わせてモデルを選択することには多くの利点があるのです。私たちは、新しい大規模言語モデル(LLM)、小規模言語モデル(SLM)、多言語サポート、そしてファインチューニングおよび量子化されたモデルをご紹介できることを嬉しく思っています。
最新のLLMには、falcon-7b-instruct
が含まれています。これは、高精度のレスポンスを生成するためにマルチクエリーアテンションを革新的に使用する点で、特にエキサイティングです。また、discolm_german_7b
とqwen1.5
モデルでは、言語サポートが向上しています。これらのモデルは多言語データでトレーニングされており、英語だけでなくドイツ語(discolm
)と中国語(qwen1.5
で優れたLLM出力を誇っています。Qwenモデルは、0.5Bから14Bのパラメーター範囲で、当社のテストでは特に優れた精度を示しています。新しいSLMもいくつかリリースしており、これは、精度を損なうことなく、より速く、より安価に推論を行うことができるため、人気が高まっています。SLMには、Llamaの1.1Bパラメーターバージョン(tinyllama-1.1b-chat-v1.0
)やMicrosoftの1.3Bパラメーターモデル(phi-2
)など、小さいながらも性能の高いモデルを導入しています。
AI業界が加速し続ける中、優秀な人材はモデルのパフォーマンスと精度を向上させ、最適化する方法を見出してきました。また、条件付き強化学習ファインチューニング(C-RLFT)を実装するファインチューニングモデル(openchat-3.5)を追加しました。C-RLFTは、簡単に収集可能な混在品質データを使用して、オープンソース言語モデルの開発を可能にする技術です。
これらの新しいテキスト生成モデルすべてを、今日当社のプラットフォームに導入できることを本当に嬉しく思います。オープンソースコミュニティは、新しいAIのブレークスルーの開発においてすばらしい成果を上げており、これらのモデルのトレーニング、ファインチューニング、量子化に向け貢献してくださった皆さんに感謝しています。開発者がAIを使用して新しいアプリケーションを迅速かつ簡単に構築するために、これらのモデルをホストし、誰もが利用できるようになることに感激しています。新しいモデルとそのAPIスキーマについては、開発者向けドキュメントをご覧ください。
新たな画像生成モデル
新しいStable Diffusionパイプラインと最適化を追加し、強力な新しい画像編集と生成のユースケースを可能にします。わずか2回の推論ステップで高画質画像を生成するStable Diffusion XL Lightningのサポートを追加しました。テキストから画像へのテキストプロンプトを取得し、その入力に基づいてモデルに画像を生成させたい人にとって非常に人気のあるタスクですが、Stable Diffusionは、実際にははるかに多くの機能を備えています。この新しいWorkers AIリリースによって新しいパイプラインが解放されたことで、Stable Diffusionで入力とタスクのさまざまな様相を試せるようになります。
Workers AIで、Stable Diffusionを、画像から画像への適用、またはユースケースの修復に使用できるようになりました。Image-to-imageでは、入力画像を別の画像に変換することが可能です。例えば、Stable Diffusionに依頼して、肖像画の漫画バージョンを作成することができます。インペインティングでは、ユーザーが画像をアップロードして、同じ画像を新しいものに変換することができます。インペインティングの例には、写真の背景の「拡大」やモノクロ写真の色付けなどがあります。
インペインティングを使用するには、画像、マスク、およびプロンプトを入力する必要があります。画像は修正する元の写真で、マスクは塗り替えたい領域を強調するモノクロの画面で、プロンプトはその領域に何を生成するべきかをモデルに指示します。以下は、インペインティングを実行するための入力とリクエストテンプレートの例です。
新たなユースケース
import { Ai } from '@cloudflare/ai';
export default {
async fetch(request, env) {
const formData = await request.formData();
const prompt = formData.get("prompt")
const imageFile = formData.get("image")
const maskFile = formData.get("mask")
const imageArrayBuffer = await imageFile.arrayBuffer();
const maskArrayBuffer = await maskFile.arrayBuffer();
const ai = new Ai(env.AI);
const inputs = {
prompt,
image: [...new Uint8Array(imageArrayBuffer)],
mask: [...new Uint8Array(maskArrayBuffer)],
strength: 0.8, // Adjust the strength of the transformation
num_steps: 10, // Number of inference steps for the diffusion process
};
const response = await ai.run("@cf/runwayml/stable-diffusion-v1-5-inpainting", inputs);
return new Response(response, {
headers: {
"content-type": "image/png",
},
});
}
}
また、Workers AIには、数学の問題を解決することに特化したLLM(deepseek-math-7b-instruct
)、SQLコード生成(sqlcoder-7b-2
)、テキスト要約(bart-large-cnn
)、画像キャプション(uform-gen2-qwen-500m
)など、さまざまな特殊なタスクやユースケースを可能にする新たなモデルを追加しました。
私たちはこの新しいモデルを一般に公開して、あなたがこれらを使って構築を始められるようにしたいのですが、今後数週間の間にさらにデモとチュートリアルコンテンツを公開する予定です。これら新しいモデルの使用方法の詳細については、Xアカウントと開発者向けドキュメントにて、今後の動きにご注目ください。
モデルカタログの最適化
AIモデルのイノベーションは急速に進歩しており、高速かつ効率的な推論を実現するためのツールや技術も急速に進歩しています。すべての人に最高の推論プラットフォームを提供できるように、モデルの最適化に役立つ新しいツールを組み込むことを嬉しく思います。通常、AI推論を最適化する際、モデルをONNXなどのフォーマットにシリアル化すると有用です。ONNXは、このユースケースで最も一般的に適用可能なオプションの1つであり、広範なハードウェアとモデルアーキテクチャをサポートするものです。ONNXモデルは、TensorRTエンジンに変換することでさらに最適化することができます。このフォーマットはNvidia GPU用に特別に設計されたもので、推論の遅延を短縮し、LLMからの合計スループットの向上が可能になります。適切なフォーマットを選択することは、通常、特定のモデルアーキテクチャと推論に利用できるハードウェアから、最適なサポートを受けることになります。当社は、新しいStable Diffusionパイプラインには、TensorRTとONNXの両方のフォーマットを活用することにしました。これらのパイプラインは、特定のタスクに適用された一連のモデルを表しています。
新しい開発者向けドキュメントを活用する
これらの新しいモデルは、新しい開発者向けドキュメントで読むことができます。ここでは、個々のモデル、プロンプトテンプレート、コンテキストトークンの制限などのプロパティの詳細について学ぶことができます。私たちはモデルページを刷新し、開発者が新しいモデルを検討してその使用方法を学習しやすいように、よりシンプルなものにしました。検索しやすくするためにすべてのモデルを1つのページに表示し、右側にタスクタイプを表示するようにしました。そして、個々のモデルのページをクリックすると、それらのモデルの使用方法に関するコード例を確認することができます。
これらの新しいモデルを試し、Workers AIで新しくなにかを構築していただけることを願っています。デモ、チュートリアル、Workers AIの価格設定など、さらなる最新情報が近日中に発表される予定です。あなたが現在取り組んでいるものや、Discordでご覧になりたい他のモデルがある場合は、当社までお気軽にお知らせください。