こんばんは、小寺です。
Amazon BedrockのKnowledge baseがハイブリッド検索をサポートしました。
https://aws.amazon.com/about-aws/whats-new/2024/03/knowledge-bases-amazon-bedrock-hybrid-search/

Amazon BedrockのKnowledge baseとは?

]Amazon BedrockのKnowledge baseとは、昨年のre:Invent 2023で発表された新機能です。(既に懐かしい・・)ナレッジ ベースを使用すると、取得拡張生成 (RAG) を利用するアプリケーションを簡単に構築できます。マネージメントコンソールから、セットアップを行うこともできます。

ナレッジベース設定を行う際に

・ナレッジ ベースに追加するデータ ソースを準備しておくこと
・ナレッジベース用のデータを Amazon S3 バケットにアップロードしておくこと
・基盤モデルを使用してエンベディングを生成し、サポートされているベクターデータベースへ保管されます。その後、データ取り込みへ
・ナレッジ ベースにクエリを実行し、RAGアプリケーションまたはエージェントを設定

今回のアップデートのメリット

ハイブリッド検索がサポートされました。ハイブリッド検索については次に触れたいと思いますが、メリットを先にお伝えします! ユーザーの質問に意味的に近いテキストのかたまり(チャンク)を 取ってくることで、検索結果の精度向上がされ、関連性が高まることがメリットといえるかと思います。

使い方としては、ナレッジベース内の優先検索オプションとしてハイブリッド検索を選ぶことができます。ナレッジベース SDK またはコンソールで有効にすることができます。

AWS側にお任せしてAWS がデータに使用する最適な検索方法をインテリジェントに決定する(良きに計らう)デフォルトの検索オプションを選ぶことができます。

Amazon Bedrock のナレッジベースは現在、次の 4 つのベクターストアをサポートしています。 Amazon OpenSearch サーバーレス、 AmazonAuroraPostgreSQL互換版Pinecone、 Redis エンタープライズ クラウドです。3月1日のGA時点では、ハイブリッド検索機能は OpenSearch Serverlessで利用が可能で、他のサービスはサポート予定が発表されています。

ハイブリッド検索の概要

キーワード検索とセマンティック検索の2つがハイブリッド検索と呼ばれます。

  • 精度の向上 – 基盤モデル(FM)から生成される応答の精度は、取得された結果の関連性に直接依存します。データに基づき、セマンティック検索のみ使って用アプリケーションの精度を向上させるのは難しい場合があります。ハイブリッド検索を使用する主な利点は、取得結果の品質が向上し、FM がより正確な回答を生成できるようになることです。
  • 拡張された検索機能 – キーワード検索はより広い網を広げ、関連性はあるものの文書全体に意味構造が含まれていない可能性のある文書を検索します。テキストの意味以外にキーワードも検索できるため、検索機能が拡張され、品質向上が期待されますよね。

対象リージョン

対象リージョンは以下の通りです。

・米国東部 (バージニア北部)
・米国西部 (オレゴン)