みなさん、こんばんは。小寺です。
re:Invent 2022で発表されたInf2インスタンスがGAになりました。

https://aws.amazon.com/about-aws/whats-new/2023/04/amazon-ec2-inf2-instances-generative-ai-generally-available/

re:Inventでの発表時の記事はこちらから。

改めてInf2の特徴を振り返る

Amazon EC2 Inf2 インスタンスAWSが設計した最新のMLチップの「AWS Inferentia2」が使われています。
EC2初!!「推論最適化インスタンス」です。

サイズはGA時点では4つが利用できます。

インスタンス名
vCPUAWS Inferentia2 チップアクセラレーターメモリNeuronLinkインスタンスメモリインスタンスネットワーク
inf2.xlarge4132 GB該当なし16 GB最大 15 Gbps
inf2.8xlarge32132 GB該当なし128 GB最大 25 Gbps
inf2.24xlarge966192 GBあり384 GB50 Gbps
inf2.48xlarge19212384 GBあり768 GB100 Gbps

AWS Inferentia2って初めて聞かれたことがある方もいらっしゃるかと思います。
Amazon Inferentiaは、INT8やFP16(半精度浮動小数)を使って計算精度を下げることで、チップ内の計算密度を上げ、効率的に推論処理が行えます。 チップ間の超高速 NeuronLink 相互接続が特徴です。
第2世代となるAmazon Inferentia2では、Inferentia と比較して、最大 4 倍のスループットと最大 10 倍のレイテンシーになっているとのことです。

AWS Neuron SDKは、PyTorch や TensorFlow などの一般的な機械学習フレームワークと統合されています。
そのため、既存のフレームワークとコードを継続利用ができます。そのままInf2 にデプロイできるのがメリットです。
AWS Deep Learning AMI、AWS Deep Learning Containers、または Amazon Elastic Container Service (Amazon ECS)、Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon SageMaker などのマネージド サービスを使用して Inf2 インスタンスを開始できます。

どんなときに使うインスタンスなの?

高性能な DL推論用に使うものです。大規模なアプリ向けです。 自然言語処理や言語翻訳、動画、画像生成、音声認識などが利用シーンとして想定されますかね。

対象リージョン

GAになったのは、US East (N. Virginia) and US East (Ohio)の2つです。
オンデマンド、リザーブドインスタンス、スポットインスタンス、Savings Plansの一部のプランで利用可能です。