生成AI―新たな働き方革命の波に乗る―テクノロジー最前線 生成AI(Generative AI)編(16)

社内データの活用を高度化するRAGシステムの設計と実装

  • 2026-04-24

個人が持つ経験やプロジェクトで得た知見を組織全体で共有し、さらに深めていくことは、専門性を高めるうえで欠かせません。こうしたナレッジを誰もが瞬時に活用できる状態をつくり、同時に資料作成などの定型業務を効率化して高付加価値業務に集中できるようにするため、PwCコンサルティングは生成AIを用いた「Knowledge Fusion Platform」を開発し、当社だけでなくPwC Japanグループの他メンバーファームに向けにもリリースしています。

本システムはRetrieval Augmented Generation(RAG)アーキテクチャを採用し、パブリッククラウド環境上に構築しています。IaC(Infrastructure as Code)ツールを用いて環境構築および構成管理を行い、閉域ネットワーク構成(仮想ネットワーク統合およびプライベート接続)を前提とした設計としています。外部公開点はアプリケーションゲートウェイ(Web Application Firewallを含む)に集約し、バックエンドサービスを保護しています。

本稿では、全体アーキテクチャと主要コンポーネントの役割、ならびにデータパイプラインとアプリケーションの処理について解説します。

アーキテクチャ全体図

最初に、Knowledge Fusion Platformのアーキテクチャ全体図を示します。

図表1:アーキテクチャ全体図

  • 閉域接続
    アプリケーション実行基盤は仮想ネットワークと統合されています。
    検索基盤、NoSQLデータベース、ストレージ、シークレット管理基盤、AI関連のPaaSサービスはすべてプライベート接続を介して仮想ネットワーク内に公開され、インターネット経由の直接アクセスは遮断しています。
  • 境界防御
    外部との通信はアプリケーションゲートウェイに集約し、WAF機能によりバックエンドのアプリケーション実行基盤を保護しています。

コンポーネントと用途

次にKnowledge Fusion Platformのコンポーネントとそれぞれの用途について説明します。

サービス

用途

フロントエンド

プロンプト入力UI、進行状況表示、生成スライドの挿入/プレビュー

バックエンドエージェント

取得方針判定、RAGオーケストレーション

バックエンド(スライド生成)

スライドファイル生成

アプリケーションゲートウェイ

L7ロードバランス、SSL終端、WAF防御

ベクトルデータベース

ベクトル検索/ハイブリッド検索基盤

文書解析PaaS

テキスト抽出、埋め込み、生成

NoSQLデータベース

会話履歴、メタデータ、ユーザーログを保存

データ処理基盤

データ前処理・ベクトル化バッチ/インデックス登録処理の実行

データ連携基盤

ストレージからの収集オーケストレーション、差分取り込み、データ処理の起動・スケジューリング

ストレージ

収集したドキュメント、サムネイルなどの資材を保存

シークレット管理基盤

シークレット・証明書の保管

データパイプライン

Knowledge Fusion Platformが社内資料をナレッジ化し、ベクトルデータベースに保存するまでのフローは以下の通りです。

図表2:データパイプラインのフロー

図表2:データパイプラインのフロー
  • ステップ1:ジョブトリガー
  • ステップ2:テキスト抽出と前処理
  • ステップ3:ベクトル化とインデックス登録

アプリケーションのフロー

Knowledge Fusion Platformがナレッジを活用してスライドを生成するまでのフローを解説します。

図表3:アプリケーションのフロー

図表3:アプリケーションのフロー
  • ステップ1:プロンプト入力(フロントエンド)
    1. ユーザーはUIから、生成したいスライドのテーマや要件を自然言語で入力します。
    2. バックエンドAPIへプロンプトを送信します。
  • ステップ2:コンテキスト収集(バックエンドエージェント)
    1. バックエンドのエージェント(オーケストレーター)がプロンプト内容を解析し、実行内容を決定します。
    2. 社内データの取得はベクトルデータベースから、関連度の高い情報と出典ドキュメントを取得します。
    ウェブデータが必要と判定された場合はウェブ検索で最新情報を取得し、出典情報を取得します。
  • ステップ3:スライドコンテンツ生成とスライドファイル作成(生成・.NET連携)
    エージェントは取得した社内データ/ウェブデータをRAGコンテキストとしてLLMに提示し、スライド構成案とコンテンツを生成します。
    テンプレートを選択し、生成された構成とコンテンツをバックエンド(スライド生成)サーバーに渡し、スライドを生成します。
  • ステップ4:レスポンス返却とフロントエンドへの挿入
    1. バックエンドは生成したスライドのデータをフロントエンドへ返却します。
    フロントエンドは返却されたスライドをUI上に挿入します。

今後の展望

今後は、共有フォルダと連携した社内ドキュメントの自動収集機能をETL(抽出:Extract、変換:Transform、格納:Load)環境に整備し、データ収集の効率化を一層推進していく予定です。

私たちはKnowledge Fusion Platformのさらなるナレッジの拡充と、資料作成支援に限らない幅広い業務領域での活用を想定した新機能の検討を進めています。また、Knowledge Fusion Platform開発で培ったノウハウを活用してクライアントを支援します。

執筆者

吉田 壮夫

ディレクター, PwCコンサルティング合同会社

Email

木村 俊也

シニアアソシエイト, PwCコンサルティング合同会社

Email

{{filterContent.facetedTitle}}

{{contentList.dataService.numberHits}} {{contentList.dataService.numberHits == 1 ? 'result' : 'results'}}
{{contentList.loadingText}}

{{filterContent.facetedTitle}}

{{contentList.dataService.numberHits}} {{contentList.dataService.numberHits == 1 ? 'result' : 'results'}}
{{contentList.loadingText}}

本ページに関するお問い合わせ