【日本発】Sakana AI「Fugu」徹底解説 — 複数AIを1つのAPIに束ねる新発想と、Claude・GPTとのコスト比較
SINYBLOG — 【日本発】Sakana AI「Fugu」徹底解説 — 複数AIを1つのAPIに束ねる新発想と、Claude・GPTとのコスト比較

スポンサードリンク





Sakana AI · 2026年6月22日 一般提供開始

日本発「Sakana Fugu」徹底解説 — 複数AIを1つのAPIに束ねる発想

「世界中の最良モデルを動的に呼び分け、叩くのは1エンドポイントだけ」。東京のSakana AIが放ったFuguは、Fable 5やMythosと肩を並べる性能を、輸出規制リスクなしで実現したと主張します。本当にそうなのか、料金は得なのか——X投稿の見出しの先まで、事実・数字・独自視点で掘り下げます。読了 約12分。

1つのモデルAPIを叩くだけで、裏では複数のAIが勝手に協調して最適解を出す」——これがSakana Fuguの一行サマリです。ですが、速報ツイートやまとめ記事の多くは「すごい」で止まっています。本記事は、公式発表・海外メディアの実測値・各社の最新料金を突き合わせ、Fuguが本当に得なのか/誰に向くのかまで踏み込みます。[1]

  • 0
    LiveCodeBench(Fugu Ultra・同社測定)
  • 0
    モデル展開(Fugu / Fugu Ultra)
  • 0ドル〜
    サブスク月額の開始価格

user@sinyblog:~/article 01_digest.md90秒ダイジェスト:結論先出し

時間がない人向けに、本記事の結論を先に置きます。

  1. 正体:Fuguは「複数のLLMを束ねるマルチエージェント基盤」を、1本のOpenAI互換APIとして提供するサービス。指揮役のFugu自身がLLMで、どのモデルに任せるか・自分で解くかを内部で判断する。
  2. 性能:最上位のFugu Ultraは、LiveCodeBenchやSWE Bench Proなどの難関ベンチで、Claude Opus 4.8・Gemini 3.1 Pro・GPT-5.5を上回る数値を出している(すべて同社測定)。
  3. 料金:サブスク $20 / $100 / $200 の3段+従量課金。Fugu Ultraの従量は入力$5・出力$30/100万トークンで、これはGPT-5.5とほぼ同額・Claude Opus 4.8よりやや高い
  4. 本当のコストメリット:「1トークン単価が安い」わけではない。得になるのはオーケストレーションを自前で作る工数とベンダー分散を丸ごと外注できる点。単一モデルで足りる用途ならClaude Opus 4.8の方が安い。
  5. 注意点:ベンチは第三者検証なし/Fable 5・Mythosはプール非搭載/EU圏は提供外/オーケストレーションによるトークン増は非開示。
この記事の立場

Fuguは「日本発でここまで来たのは普通に凄い」——これは事実です。ただ本記事は提灯記事ではなく、確定事実・同社の主張・筆者の評価を分けて書きます。判断材料を渡すのがゴールです。

user@sinyblog:~/article 02_what.mdSakana Fuguとは何か

Sakana AIは東京を拠点とするAI研究所です。2026年4月25日からのベータを経て、6月22日にFuguを一般提供(GA)開始しました。[1]

Fuguの肝は一言で言えば「マルチエージェント・システムを、1個の基盤モデルのように見せる」こと。普通、複数のAIを連携させようとすると、どのモデルをいつ呼ぶか、結果をどう統合するか、エラーをどう処理するか——という配管(オーケストレーション)を全部自分のコードで書く必要があります。Fuguはその複雑さをAPIの向こう側に隠し、利用者は「1つのモデルに話しかける」だけで済みます。

公式の表現を借りれば、Fuguは「複雑で多段なタスクに取り組むために、世界最良のモデル群を動的にオーケストレーションする」存在で、それが「単一のモデルAPIからアクセスできる」のがウリです。[1] しかもこのAPIはOpenAI互換なので、既存のOpenAI SDKのコードからエンドポイントを差し替えるだけで動く、という設計になっています。

なぜ"Fugu(ふぐ)"なのか

Sakana AI(魚=Sakana)らしいネーミング。毒(複雑さ・リスク)を持つが、適切に捌けば美味——という含みを感じます。マルチエージェントの"毒抜き"を引き受ける、という製品コンセプトとよく合っています。

user@sinyblog:~/article 03_howitworks.md仕組み:Fugu自体が"指揮者LLM"

ここが他のルーティングサービスと決定的に違う点です。Fuguは単なる「振り分けスイッチ」ではありません。Fugu自身が、オーケストレーション専用に訓練されたLLMです。[1]

Fuguはタスクを受け取ると、まず「これは自分で解けるか/専門家チームを組むべきか」を判断します。チームを組む場合は、エージェントプール内の各種LLM(クローズド/オープン双方)を呼び分け、必要なら自分自身を再帰的に呼び出すこともできます。モデルの選定・委任・検証・統合まで、すべて内部で完結させる——だからマルチエージェントの複雑さがコード側に一切出てこない、というわけです。

この振る舞いの土台になっているのが、ICLR 2026に採択された2本の論文です。[2]

論文 テーマ arXiv
Trinity 進化的に最適化されたLLMコーディネーター(An Evolved LLM Coordinator) 2512.04695
Conductor 自然言語でエージェントを統率する学習(Learning to Orchestrate Agents in Natural Language) 2512.04388

つまりFuguの「指揮能力」は、ヒューリスティックなルールではなく査読付き研究に裏打ちされた学習済みの委任パターンだ、というのがSakanaの主張です。後述するOpenRouterのような"アグリゲーター型ルーティング"とは、ここで一線を画します。

OpenAI互換なので、利用イメージとしては既存コードのbase_urlとモデル名を差し替えるだけ。下記はあくまでイメージ(公式SDK仕様は[3]のドキュメントを参照)ですが、感覚は掴めるはずです。

python— openai_compatible.py(イメージ)


from openai import OpenAI

# OpenAI互換: base_url を Sakana に向けるだけ
client = OpenAI(
    base_url="https://console.sakana.ai/v1",
    api_key="YOUR_SAKANA_KEY",
)

# 難問は "fugu-ultra"、高速・低遅延は "fugu"
resp = client.chat.completions.create(
    model="fugu-ultra",
    messages=[{"role": "user",
               "content": "このリポジトリのバグを特定して修正案を出して"}],
)
print(resp.choices[0].message.content)
# 裏で複数モデルが協調するが、呼ぶ側は1エンドポイントのみ
※ 実際のエンドポイント/パラメータは公式ドキュメント [3] を必ず確認してください(上記は互換APIの利用イメージ)。

user@sinyblog:~/article 04_variants.mdFugu と Fugu Ultra の違い

Fuguには2つのモデルがあります。どちらも同じAPIの裏側にあり、モデル名を変えるだけで切り替え可能です。[1]

モデル キャラクター 向く用途
Fugu 性能と低遅延のバランス型。日常使いのデフォルト チャット、軽めのコード補助、一般的な業務タスク
Fugu Ultra より深い専門家プールを動員。難問・高難度特化 Kaggle、論文再現、サイバーセキュリティ診断、特許調査

ベータ段階では、Fugu Ultraが論文の再現実験・セキュリティ分析・コードレビュー・文献/特許調査・データサイエンス研究の自動化といった重い用途で実際に使われた、と公式は説明しています。[1] 「速さが欲しいならFugu、答えの質を最優先するならUltra」という棲み分けです。

user@sinyblog:~/article 05_benchmarks.mdベンチマークを実数値で読む

「フロンティア級」という言葉だけでは判断できません。海外メディアが報じた実数値を見ましょう。数値はすべて同社測定です。[3]

ベンチマーク Fugu Fugu Ultra Opus 4.8 Gemini 3.1 Pro GPT-5.5
LiveCodeBench 92.9 93.2 87.8 88.5 85.3
TerminalBench 2.1 80.2 82.1 74.6 70.3 78.2
SWE Bench Pro 59.0 73.7 69.2 54.2 58.6

読みどころは2つあります。第一に、低遅延寄りのFuguですらLiveCodeBenchで92.9とOpus/Gemini/GPTを上回っている点。第二に、SWE Bench Pro(実際のソフト開発タスク)ではFugu 59.0 → Fugu Ultra 73.7と差が大きい点です。実プロジェクトに近い難問ほど、Ultraの「深いプール動員」が効いていることがうかがえます。Humanity's Last Exam・GPQA-D・SciCode・MRCRv2などでも、Fugu UltraはFable 5やMythos Previewと互角〜上回る水準だと報じられています。[3]

user@sinyblog:~/article 06_caveats.mdベンチの"カラクリ"を見抜く

ここがX投稿では語られない部分です。Fuguの面白さは「Fable 5やMythos Previewと肩を並べる」点にありますが、その両モデルはFuguのエージェントプールに入っていません(非公開のため利用できない)。[3]

これは二重の意味を持ちます。ポジティブに読めば「非搭載の最上位モデルと互角=オーケストレーションだけで頂点に迫った」という驚き。慎重に読めば「実環境でFable 5/Mythosと直接戦ったわけではない」という留保です。海外メディアもこの点を指摘しています。[3]

数字を鵜呑みにしないための3点

第三者検証なし:ベンチは各モデル提供者・Sakana自身の測定値で、独立検証ではない。
コスト非開示:オーケストレーションがトークン使用量をどれだけ押し上げるかをSakanaは明示していない。
レイテンシの分散:複数モデルへのファンアウトは、応答時間とコストの「ばらつき」を広げうる。[4]

user@sinyblog:~/article 07_pricing.md料金体系を完全分解

料金は「サブスク」と「従量課金(PAYG)」の2系統です。[3]

サブスクリプション(月額)は3段階。いずれも日常利用向けです。

プラン 月額 利用量の目安
Standard $20 軽い日常使い(基準)
Pro $100 Standardの約10倍
Max $200 Standardの約20倍

2026年7月31日までに加入すると2か月目が無料になる期間限定特典も用意されています。[3]

従量課金(Fugu Ultra)は100万トークンあたりの単価です。

トークン種別 標準 コンテキスト272K超
入力 $5 $10
出力 $30 $45
キャッシュ入力 $0.50 $1.00
"モデル料金を二重取りしない"の意味

マルチエージェント(Fugu)で単一エージェントを使う場合、「その下層モデルの標準料金だけ」を払えばよく、複数モデルを束ねても「モデル料金を積み増さない」と公式は明言しています。[3] ただし最上位のFugu Ultraの従量は上表の通り定額で、ここが次章のコスト議論の核心です。

user@sinyblog:~/article 08_cost_vs_others.md【本題】OpenAI・Claudeとコスト比較

ここが読者の最大の関心事——「結局、得なのか?」です。主要モデルの従量単価(100万トークンあたり、入力/出力)を並べます。[3]

モデル 入力 出力 キャッシュ入力
Sakana Fugu Ultra $5 $30 $0.50
OpenAI GPT-5.5 $5 $30 $0.50
Claude Opus 4.8 $5 $25
Claude Fable 5 $10 $50
Claude Sonnet 4.6 $3 $15

この表から導ける、速報ツイートには無い結論はこうです。

  1. Fugu Ultraの単価は"激安"ではない。入力$5・出力$30は、GPT-5.5とほぼ同額、Claude Opus 4.8(出力$25)よりむしろ高い。最上位Fable 5($10/$50)よりは安いが、「フロンティア級なのに格安」という単純な話ではない。
  2. "コストメリット"の正体は単価ではない。本当の節約は、(a) 複数モデルを使い分けるオーケストレーションを自前で設計・運用する工数、(b) 複数のAPI契約・課金管理、(c) ベンダー分散の手間——これらをまとめて外注できる点にある。エンジニアの人件費まで含めれば、ここは大きい。
  3. 単一モデルで足りるなら、素直にOpus 4.8の方が安い。1モデルで完結する定型タスクに、わざわざオーケストレーション層のプレミアムを払う理由は薄い。Fuguが効くのは「タスクごとに最適モデルが変わる」混在ワークロード。
  4. ヘビーユーザーはサブスクが効く。Max($200/月・20倍)は、PAYGで月数百ドル使う使い方なら割安になりうる。ちょうどChatGPT/Claudeのサブスク階層と同じ価格帯($20/$100/$200)に揃えてきたのは戦略的。
¥

筆者の結論:Fuguは「単価で選ぶ」サービスではない
クリックすると弾みます — 選ぶ基準は"単価"ではなく"自前構築の工数 × モデル混在度"

user@sinyblog:~/article 09_lockin.mdベンダーロックイン回避という価値と限界

Fuguのもう一つの売りが「特定ベンダー依存リスクの回避」です。最近のAI業界では、単一ベンダーへの依存が露わなリスクになった出来事がありました(最上位モデルが輸出管理指令で一時遮断された件などが念頭にあります)。組織や国家にとって、重要インフラを一社のAPIに賭けるのは構造的な脆弱性だ——というのがSakanaの主張です。[5]

Fuguの裏側は差し替え可能なエージェント群なので、ある提供者が落ちても別のモデルに動的に切り替えられる、という発想です。これは確かに筋が通っています。

"主権"を語るには但し書きがある

海外の分析はここに冷静な留保をつけます。「強靭さは"多様性"から来るのであって"独立"から来るのではない」——Fuguは結局、同じベンダー群から知能を"借りている"。複数の主要提供者が同時にアクセスを制限すれば、Fuguの選択肢も縮む。[4] さらに皮肉なことに、ベンダー依存を最も問題視するEU/EEA圏では、GDPR対応の都合でローンチ時点では利用できない[5]

user@sinyblog:~/article 10_vs_diy.md自前構築・OpenRouterとの違い

「複数モデルを使い分ける」だけなら、選択肢はFuguだけではありません。3つのアプローチを整理します。[5]

方式 特徴 向く人
マネージド(Fugu) ブラックボックスだが楽。学習済みの動的委任 制御より"難問での答えの質"を優先する人
自前ルーティング(LangGraph/CrewAI等) どのモデルがいつ動くか透明。監査・調整が可能 コスト予測性・データ所在・決定論的制御が要る人
単一モデル 最もシンプル。オーケストレーション層なし 1モデルで品質が足りる用途

よく比較されるOpenRouterとの違いも明確です。OpenRouterが「アグリゲーター型ルーティング」——つまりカタログから選んで中継するのに対し、Fuguは学習で獲得した動的な協調パターンでモデルを使い分けます。[5] ただしその代償が"ブラックボックス性"です。どのモデルがいつ呼ばれたかの透明性は、自前構築に劣ります。

user@sinyblog:~/article 11_whoshould.md誰が使うべきか/避けるべきか

独立分析の整理が実用的なので、判断軸として引用します。[5]

向いている 避けたほうがよい
難易度が高く種類も多い混在ワークロード(研究・Kaggle・セキュリティ診断など)で、制御より答えの質を優先したい コストを正確に予測したい/規制地域で厳格なデータ所在が必要
マルチエージェントを自前で組む工数を払いたくない どのモデルが動くかを決定論的に制御したい
1社依存のリスクを薄めたい(完全排除でなくてよい) EU圏での利用が必須(ローンチ時点で提供外)

user@sinyblog:~/article 12_perspective.md独自視点:転換点としてのFugu

最後に、ニュースの"その先"を考えます。筆者がFuguで最も重要だと思うのは、性能の数字そのものより、「オーケストレーションが、自分で作るパターンから、買える製品になった」という構造変化です。[5]

これまでマルチエージェントは「フレームワークで自作するもの」でした。Fuguはそこに、生のモデルと、フルスタックのエージェントフレームワークの"中間"に位置する新しい製品カテゴリを切り拓いた可能性があります。AIアプリの作り手にとって、これは「どのモデルを選ぶか」から「モデル選定そのものを誰に委ねるか」へと問いが一段上がることを意味します。

そして日本発でこの抽象化レイヤーに先に手を付けたこと自体に、戦略的な意味があります。輸出規制で最上位モデルが止まりうる時代に、「特定の頂点モデルに賭けず、頂点級の"結果"を多様なプールから合成する」というアプローチは、技術的にも地政学的にも一貫しています。提灯抜きで言って、ここは素直に評価できるポイントです。

ただし繰り返すと、"主権"の本体は多様性であって独立ではない。Fuguは依然として大手の知能を借りています。本物の独立は、Sakana自身が頂点級の自社モデルをプールに持てるか——にかかっている、というのが筆者の見立てです。

user@sinyblog:~/article 99_summary.mdまとめ

Sakana Fuguは「複数AIを束ねて1つのAPIにする」発想を、研究の裏付けと実用的な料金で製品化した、日本発の意欲作です。要点を3つに集約します。

  1. 性能は本物(ただし同社測定)。Fugu UltraはLiveCodeBench 93.2・SWE Bench Pro 73.7など難関で上位。ただしFable 5/Mythosはプール非搭載で第三者検証もなく、留保つきで読むべき。
  2. コストメリットは"単価"ではなく"工数とリスクの外注"。Fugu Ultraの$5/$30はGPT-5.5並み・Opus 4.8よりやや高い。単一モデルで足りるならOpus 4.8が安い。Fuguが効くのは混在ワークロードと自前構築回避。
  3. "主権"には但し書き。ベンダー分散は強みだが独立ではなく、EU圏は提供外。それでも「頂点モデルに賭けず頂点級の結果を合成する」設計思想は、規制リスク時代に一貫していて評価できる。
本記事は Sakana AI 公式発表・ICLR 2026 論文・海外メディア(The Decoder / VentureBeat / DigitalApplied 等)の一次情報を WebFetch / WebSearch で精読・突き合わせしたうえで、運営者(現役 IT エンジニア・15 年以上の業界経験)が編集・構成しています。ベンチマーク数値はすべて各提供元の測定値であり、独立検証ではありません。料金・提供状況は変動するため、最新情報は Sakana AI 公式 をご確認ください。

おすすめの記事