Skip to the content.

English version

LLM Adapter — Provider Benchmarking

複数プロバイダの LLM 応答を比較・記録・可視化する実験用アダプタです。Shadow 実行ではなく、本番想定のプロンプトを同一条件で投げ、 レスポンス差分・レイテンシ・コスト・失敗分類を JSONL に追記します。datasets/golden/ のゴールデンタスクと adapter/config/providers/ の設定ファイルを組み合わせ、基準データに対する回帰テストを高速に行えます。

Highlights

Key Artifacts

How to Reproduce

  1. cd projects/04-llm-adapter で仮想環境を作成し、pip install -r requirements.txt を実行して依存関係を揃える。
  2. pip install -e . で CLI をインストールし、llm-adapter --provider adapter/config/providers/openai.yaml --prompt "日本語で1行、自己紹介して" --out out --json-logs を実行。--provider で単一プロバイダ設定を指定し、--out で指定したディレクトリ(例: out/metrics.jsonl)へ比較結果が追記される。単体確認では python -m adapter.cli.prompt_runner --provider adapter/config/providers/openai.yaml --prompt "hello" --out out/single のように prompt_runner を直接実行しても同じ --out ディレクトリ配下へ追記され、python adapter/run_compare.py ... を呼ぶ場合は既定で data/runs-metrics.jsonl に出力される。
  3. pytest -q を流して CLI・ランナー・メトリクスのユニットテストが通ることを確認。

Next Steps