みなさん、こんばんは。サニービュー事業部の小寺です。
re:Invent 2022のキーノートで「Amazon EC2 Inf2」が発表されました。

https://aws.amazon.com/jp/about-aws/whats-new/2022/11/aws-announces-amazon-ec2-inf2-instances-preview/

Inf2インスタンスとは

Amazon EC2 Inf2インスタンスは、企業がより複雑な機械学習モデルを構築すると、機械学習モデルのトレーニングと実行するためのコストが課題になります。
AWSでは、コスト削減に役立つ一連のカスタムインスタンスの作成を進めてきて、本日のキーノートセッションでより大きなワークロードからのデータをより効率的に処理するように設計された、新しい Inf2 インスタンスのプレビュー版を発表しました。

Inf2インスタンスの特徴

Inf1 は小規模から中程度の複雑さのモデルには最適ですが、大規模なモデルの場合、顧客は推論に最適なリソース構成を実際に持っていないため、よりスペックの高いインスタンスを必要とすることが多くあります。
サイズアップしたインスタンスが必要だったのは、大規模なワークロードを処理するコストと複雑さを軽減するのに役立つ他のソリューションがなかったためです。

そんな課題を解決してくれるのが、Inf2の特徴です。
セッションでは、「特定のニーズに最適なソリューションを選択したいので、今日、新しい推論 2 チップを搭載した Inf2 インスタンスのプレビューを発表できることを嬉しく思います」と発表がありました。

Inf2 インスタンスは、第 2 世代の AWS Inferentia アクセラレーターである AWS Inferentia2 を利用しています。 Inf1 インスタンスと比較して、Inf2 インスタンスは、3 倍のコンピューティング パフォーマンス、4 倍のアクセラレータ メモリ、最大 4 倍のスループット、および最大 10 倍のレイテンシーを実現します。 Inf2 インスタンスは、大規模な言語モデル (LLM) やビジョン トランスフォーマーなど、ますます複雑になるモデルを大規模にデプロイするように最適化されています。 Inf2 インスタンスは、アクセラレーター間の超高速接続を備えたスケールアウト分散推論をサポートする、Amazon EC2 で最初の推論最適化インスタンスです。単一の Inf2 インスタンスで、複数のアクセラレータにわたって推論用の 175B パラメーター モデルを効率的にデプロイできるようになりました。
また、Inf2 インスタンスは、小規模なモデルの場合、Inf1 よりも優れた価格パフォーマンスを提供します。

Inf2 インスタンスはプレビュー版として利用ができます。

本内容は昨日のキーノートセッションのコストとパフォーマンスのバランスに通じる話だなと思い聞いていました。