メインコンテンツにスキップ
AdaptGauge

AdaptGauge

β版
0

LLMへの例示が逆効果になるケースを自動検出するOSSツール

個人開発
生成AI
無料
ツール
OSS
llm評価

概要

AdaptGaugeは、LLMにfew-shot exampleを追加したときの性能変化(学習曲線)を自動測定し、「例を増やすとむしろ性能が下がる」現象(few-shot collapse)を検出するオープンソースツールです。 # 開発の背景 LLMを業務で使うとき、プロンプトにexampleを追加するのは定番テクニックです。 しかし8モデルに対して4種類のプロンプトで検証したところ、例示の数や選び方で性能が悪くなる現象が発生しました。 1. Gemini 3 Flashが4-shotで64%に到達した後、8-shotで33%に逆戻り 2. 0-shotではGemini 3 Proの精度が一番良かったが、8-shotではGemini 2.5 Flashが一番高い精度になる 3. TF-IDFというアルゴリズムで「最適な」例を選んだら、むしろ精度がガタ下がりした この現象は2025年の複数の研究でも報告されています(Tang et al. 2025, NDSS 2025)。 個人の開発でLLMを使う分にはそこまで気にしなくても良いかもしれませんが、プロダクトに組み込む場合や、LLMを使ったソリューションを提供する場合は、事前にきちんと検証しておいた方が良い現象だと思い、AdaptGaugeを作りました。 # 主な機能 - 学習曲線の自動測定(0, 1, 2, 4, 8-shot) - 崩壊の自動検出(8-shotが0-shotの80%未満で警告) - 崩壊パターン分類(即時崩壊 / 漸減 / ピーク退行 / 安定) - レジリエンススコア - 例の選択方法の比較(固定 vs TF-IDF動的選択) - Streamlitビューアーで結果を可視化 - デモデータあり # 技術スタック Python / Streamlit / Gemini API / Claude API / LMStudio / scikit-learn (TF-IDF) MITライセンスでオープンソース公開中。 3 リンク GitHub: https://github.com/ShuntaroOkuma/adapt-gauge-core Zenn: https://zenn.dev/shuntaro_okuma/articles/few-shot-collapse

AdaptGauge - 画像 1

ディスカッション

U

メイカー 🛠️

最近人気のプロダクト 👀