AnthropicのAI「Claude Code」ソースコード51万行が流出――隠し機能「KAIROS」「アンダーカバーモード」「アンチ蒸留トラップ」の全貌

AnthropicのAI「Claude Code」ソースコード51万行が流出――隠し機能「KAIROS」「アンダーカバーモード」「アンチ蒸留トラップ」の全貌

2026年3月31日、AI業界に激震が走った。ChatGPTのライバルとして知られるAI企業Anthropicが開発するコーディングAIツール「Claude Code」のソースコード約51万2,000行が、誰でも閲覧・ダウンロードできる状態で数時間にわたってインターネット上に公開されてしまったのだ。

「流出」と言えば、外部からのハッキングや内部犯行を想像するかもしれないが、今回の事態はそれよりも皮肉な形で起きた。Anthropicが自ら、自社ツールのアップデートパッケージに誤ってソースコードを同梱し、公開してしまったのだ。

しかも中から出てきたのは、単なる実装コードではなかった。「KAIROS」と呼ばれる常駐型の自律エージェント機能、AIが書いたことをgitログから消し去る「アンダーカバーモード」、そして競合他社の学習データを意図的に汚染する「アンチ蒸留トラップ」――これらの存在が一挙に白日のもとに晒されることとなった。


スポンサーリンク

発端:.npmignoreの一行が引き起こした大事故

技術的な経緯から紐解こう。

Claude Codeは「npm」と呼ばれるJavaScriptのパッケージ配布システムを通じて開発者に配布されている。ユーザーはターミナルで npm install @anthropic-ai/claude-code と入力するだけで最新版を取得できる。

Anthropicはこのツールの開発に「Bun」という高速なJavaScriptランタイムを使用している。Bunには、デバッグを助けるために「ソースマップ(.mapファイル)」を自動生成する機能がある。ソースマップとは、難読化・圧縮されたコードと元のソースコードを対応づけるファイルで、開発中のデバッグには便利だが、本番環境の配布パッケージに含める必要は通常ない。

問題は「.npmignore」というファイルだ。これはnpmパッケージを公開する際に「含めるべきでないファイル」を指定するためのルール定義書で、いわばパッケージ梱包時の「除外リスト」。このリストから *.map ファイルの除外指定が抜け落ちていたために、デバッグ用のソースマップがそのまま本番パッケージに同梱されてしまった。

結果、npmパッケージをダウンロードしたユーザーは、59.8MBのZIPアーカイブとして約1,900ファイル・512,000行に及ぶTypeScriptの元ソースコードを自由に閲覧できる状態になっていた。

Anthropicがこの問題に気づいて修正パッケージを配布するまでの数時間、コードはすでにGitHubにミラー(コピー)されていた。そのリポジトリは公開から数時間で1,100件以上のスターを獲得し、「GitHub史上最速成長リポジトリ」と呼ばれるほどの注目を集めた。インターネットは決して忘れない。


今回が「2度目」だった事実

実は、今回の流出はAnthropicにとって数日の間に起きた「2度目」の情報漏洩だった。

3月下旬、Anthropicのコンテンツ管理システム(CMS)の設定ミスにより、約3,000件の機密ファイルが外部からアクセス可能な状態になっていたことが発覚している。その中には、まだ発表されていない次世代モデル「Claude Mythos」の詳細を記した草稿ブログ記事も含まれていた。

矢継ぎ早に起きた2件の情報漏洩は、急速に成長するAIスタートアップが抱えるリリース管理・セキュリティプロセスの脆弱性を浮き彫りにした。Anthropicは各インシデントについて「顧客データや認証情報は含まれていない」「人為的なミスであり、セキュリティ侵害ではない」と声明を出しているが、連続した失敗に対するIT業界の目は厳しい。


「KAIROS」:Claudeが眠らなくなる日

流出コードの中で最も注目を集めたのが、「KAIROS」という名の機能フラグだ。古代ギリシャ語で「適切な時」「絶好の機」を意味するこの名前は、ソースコード内に150回以上登場する。

KAIROSが目指すのは、AIの「常駐化」だ。

現在のClaude Codeは、ユーザーが指示を入力したときだけ動作する「リアクティブ(反応型)」のツールだ。しかしKAIROSが有効化された世界では、Claude Codeはバックグラウンドでデーモン(常駐プロセス)として動き続ける。GitHubのwebhookを購読し、コードの変更やIssueの更新を常時監視。定期的な「tickプロンプト」を受け取りながら、ユーザーに聞かれることなく自律的にアクションを起こす。

コードには autoDream というロジックも含まれており、Claudeが日々観察した内容を追記形式のログに蓄積し、矛盾する情報を除去しながら「確かな事実」へと変換していく処理が記述されている。眠らないAIが、毎日あなたのリポジトリを観察し続け、何かがあれば自分で判断して動く――そういった未来の姿がコードに刻まれていた。

KAIROSはまだリリースされていない機能だが、その存在は「AIエージェントの自律化」という業界全体のトレンドとぴったり合致する。OpenAIの「Operator」、GoogleのProject Astra、そしてAnthropicのKAIROSは、2026年におけるAI競争の主戦場が「チャット」から「自律エージェント」へとシフトしていることを示している。


「アンダーカバーモード」:AIはOSSに黙って貢献していた

undercover.ts というファイルに記述されていた機能も、大きな議論を呼んだ。

このファイルには、Claude CodeがパブリックなオープンソースリポジトリにGitコントリビュートする際に適用されるシステムプロンプトが含まれていた。内容を要約すると「AIが書いたという痕跡を一切残すな」というものだ。

具体的には以下が指示されている:

  • コミットメッセージに「Co-Authored-By: Claude」のような帰属表示を含めない
  • 内部コードネーム(Tengu、Capybaraなど)や未公開バージョン番号をgitログに書かない
  • AI関与のいかなるヒントもパブリックなリポジトリに露出させない

これはAnthropicが「ステルス」でオープンソースプロジェクトにAIコントリビュートを行っていたことを示している。

EU AI法やニューヨーク州の自動意思決定透明化法など、AIの関与を開示することを義務づける法規制が各地で整備されつつある中、この仕組みの存在は法的・倫理的な問題提起として受け取られた。Anthropicは「実験的な機能であり、現在の製品ポリシーを反映するものではない」とコメントを出したが、コード上に明記されていた事実は消えない。


「アンチ蒸留トラップ」:競合他社のデータを汚染せよ

AIビジネスの世界では「蒸留(distillation)」という手法がある。強力なAIモデルの出力を大量に収集し、それを学習データとして使うことで、より安く・速く似たような性能のモデルを作る方法だ。

AnthropicはOpenAIからのスピンアウト組が立ち上げた会社であり、AI業界における知的財産の重要性を誰よりもよく知っている。

claude.ts に埋め込まれていた ANTI_DISTILLATION_CC フラグは、この蒸留攻撃への対策だ。このフラグが有効になると、Claude CodeはAPIリクエストに anti_distillation: ['fake_tools'] というパラメータを含めて送信する。するとサーバー側がシステムプロンプトの中に「偽のツール定義」を密かに注入する。

もし競合他社がAPIトラフィックを記録して学習データとして使おうとした場合、存在しないツールへの参照が大量に混入したデータセットが出来上がる。そのデータで訓練されたモデルは、実際には存在しない機能を呼び出そうとする「幻覚」を起こすことになる。

「競合他社の学習データを毒する」という戦略は、知的財産保護の新しい形として注目を集めている。こうした防衛策がコードレベルで組み込まれていた事実は、AI開発が単なる技術競争を超えた「情報戦」になっていることを示している。


その他の未公開機能:107件のフラグが示すロードマップ

流出コードには、他にも107件の機能フラグが含まれていた。注目されるものを挙げると:

  • セッション横断記憶:前の会話セッションを参照・振り返る機能
  • リモートコントロール:スマートフォンや別ブラウザからClaude Codeを操作する機能
  • バックグラウンドエージェント:KAIROSとは別に、ユーザーの作業をサポートし続ける常駐型アシスタント

また、技術アーキテクチャの観点では、Claude Codeが以下のような構造を持つことが明らかになった:

  • プラグインアーキテクチャに基づく約40種のツール群
  • React + Inkを使ったゲームエンジン的ターミナルレンダリング
  • 46,000行規模のクエリエンジン
  • キャッシュを意識したモジュラーなシステムプロンプト設計

セキュリティ注意事項:悪意ある第三者も動いていた

一点、実害につながるリスクとして触れておかなければならない。

今回の流出が公知になったタイミングで、悪意ある第三者がこの混乱に乗じた。3月31日の00:21〜03:29 UTC(日本時間 午前9時21分〜12時29分)の間にClaude Codeをnpm経由でアップデートしたユーザーは、Anthropicの流出とは別に、Remote Access Trojan(RAT)を仕込まれた悪意あるaxiosパッケージを取得してしまった可能性がある。

この時間帯にアップデートを行った開発者は、セキュリティスキャンツールでシステムの確認を行うことが推奨されている。


今後のAI動向:この流出が示す5つの未来

1. AIの「常駐化・自律化」は止まらない

KAIROSの存在が明らかにしたのは、次世代AIが「聞かれたら答える」から「常に監視して先回りする」へと進化しつつあることだ。OpenAI、Google、Meta、そしてAnthropicが競い合う次のフロンティアは「自律エージェント」であり、2026〜2027年にかけて次々と商用化される見込みだ。

2. 知的財産防衛が「コード」に組み込まれる時代

アンチ蒸留トラップに象徴されるように、AIモデルの知的財産保護はもはや法廷闘争だけでなく、技術的な防衛策として実装される時代になった。「データを毒する」「偽の情報を混入させる」といった手法が業界標準として広がっていくだろう。

3. AI開示義務との法的衝突が不可避

アンダーカバーモードはEU AI法や米国各州のAI透明性規制と正面衝突する可能性がある。AI生成コンテンツの開示義務が強化される流れの中で、「AIが書いたことを隠す」ための仕組みを持つツールはいずれ規制の対象になりうる。

4. クローズドAIとオープンソースAIの戦略分岐

今回の流出はAnthropicにとって痛手だが、一方でオープンソース陣営(Mistral、Meta’s Llama系)はこの機会を「透明性」の観点から自社の強みとして打ち出している。クローズドソースのAI企業は今後、より厳格なリリース管理が求められる一方、オープンソース戦略が再評価される可能性もある。

5. 急成長スタートアップの「技術的負債」問題

Anthropicは設立からわずか3年足らずで数百億ドル規模の企業に成長した。この急成長の裏側で、リリースプロセスやセキュリティ管理が組織の成長速度に追いつけていない現実が浮かび上がった。AIユニコーン企業のガバナンスと成熟度は、今後の重要な評価軸になるだろう。


まとめ

.npmignore の一行の欠落が引き起こした今回の流出は、単なるうっかりミスの域をはるかに超えた意味を持っていた。KAIROSが示す「眠らないAI」の未来、アンダーカバーモードが問う「AIの透明性」、アンチ蒸留トラップが体現する「データ戦争」――これらはすべて、2026年のAI産業が直面している現実の縮図だ。

Anthropicはこの事態を「人為的ミス」として収拾を図っているが、インターネットに放たれた51万行のコードはすでに世界中の開発者・研究者・競合他社の手に渡っている。パンドラの箱は開いた。

私たちが注目すべきは、流出そのものではなく、その中から見えてきたAIの「素顔」だ。常駐し、自律し、正体を隠し、競合を妨害する――そういったAIが、もうすぐ私たちの日常に入り込もうとしている。

タイトルとURLをコピーしました