Jump to content

Openai/69747865-1f8c-8006-b944-019c41b1784a

From freem


This conversation was exported from ChatGPT[1]

gpt-5-2-thinking[edit | edit source]

User: https://x.com/EpochAIResearch/status/2014769359747744200[edit | edit source]

https://x.com/EpochAIResearch/status/2014769359747744200 投稿を翻訳してください。

Assistant: https://x.com/EpochAIResearch/status/2014769359747744200 httpsxcomEpochAIResearchsta…[edit | edit source]

https://x.com/EpochAIResearch/status/2014769359747744200 https_x_com_EpochAIResearch_sta…

Epoch AI(@EpochAIResearch) FrontierMath Tier 4で新記録!GPT-5.2 Proが31%を記録し、これまでの最高スコア19%を大きく上回りました。数学者からのコメントも含め、詳細は続きで。 画像リンク: https://pbs.twimg.com/media/G_XmDf1bEAAiaSK.png

Epoch AI(@EpochAIResearch) 私たちはChatGPTのウェブサイト上でGPT-5.2 Proを手作業で評価しました。スキャフォールド上のAPIでタイムアウト問題に遭遇したためです。これらの問題の解決に取り組んでいますが、その間も手動評価にはやる価値があると判断しました。

Epoch AI(@EpochAIResearch) 今回の実行前の時点で、Tier 4の問題のうち「これまでにどのモデルでも解けた」問題は13問でした。GPT-5.2 Proはそのうち11問を解き、さらにそれ以外の問題を4問解きました。したがって今回の合計は15/48(31%)で、Tier 4の「pass@the-kitchen-sink(これまで解かれたことのある全問題に対する成績)」は17/48(35%)に更新されました。

Epoch AI(@EpochAIResearch) OpenAIはTier 4の問題28問とその解答に独占的アクセス権を持っており、Epochは残り20問をホールドアウト(非公開)しています。GPT-5.2 Proは、非ホールドアウト集合で5問(18%)を解き、ホールドアウト集合で10問(50%)を解きました。言い換えると:過学習(over-fitting)の証拠はありません。 画像リンク: https://pbs.twimg.com/media/G_XmF9ybAAMucaK.png

Epoch AI(@EpochAIResearch) 評価中に2つの問題で不具合を見つけました。本来はGPT-5.2 ProとGPT-5.2(high)が両方とも2問について「解けた」としてクレジットされるべきで、さらにGPT-5.2(xhigh)、(medium)、およびGPT-5 Proも、そのうち1問について「解けた」としてクレジットされるべきでした。問題を修正し、ハブ上のスコアも更新しました。

Epoch AI(@EpochAIResearch) 新たに解けた問題の1つはJoel Hassによるもので、彼の研究分野は低次元トポロジーと幾何です。その後、彼は同じ問題の別の、より難しい定式化を試してみるよう提案しました。GPT-5.2 Proはそれも解きました。 画像リンク: https://pbs.twimg.com/media/G_XmHt_bYAAhi20.png

Epoch AI(@EpochAIResearch) 別の問題は数論研究者のKen Ono(@KenOno691)によるもので、当初GPT-5.2(xhigh)が解き、GPT-5.2 Proも解きました。Kenは解答を概ね好意的に評価しましたが、文章による厳密な説明(prose explanation)の厳密性がやや不足していると指摘しました。 画像リンク: https://pbs.twimg.com/media/G_XmIqSbAAEifBX.png

Epoch AI(@EpochAIResearch) さらに別の新規解決問題は数論研究者Dan Romikによるものです。彼は感銘を受けていました。 画像リンク: https://pbs.twimg.com/media/G_XmJlGakAAl59g.png

Epoch AI(@EpochAIResearch) 解析的組合せ論(analytic combinatorics)を研究するJay Pantone(@jpantone)による2問は以前に解かれており、1問はGPT-5が、もう1問はGPT-5.1が解いていました。GPT-5.2 Proもこれらを解きました。解答はいずれも妥当でしたが、Jayは両方とも、彼が意図していなかった数値的な近道(numerical shortcuts)を使っていたと指摘しました。 画像リンク: https://pbs.twimg.com/media/G_XmKikaIAAv1Ak.png

Epoch AI(@EpochAIResearch) 何が未解決のままか?ある著者は、モデルが自分の問題を誤るのは、証明を試みずにもっともらしい仮定を置いてしまうからだと考えています。もしその仮定を証明しようとしたなら――彼が自身の研究でその問題に遭遇したとき、そうせざるを得なかったように――真実はより微妙であることに気づくかもしれません。

Epoch AI(@EpochAIResearch) FrontierMathとAIの数学能力に関する分析の詳細は、私たちのウェブサイトで! https://epoch.ai/frontiermath

User: 解説してください。[edit | edit source]

解説してください。

Assistant: 投稿全体で言っていることを、ポイントごとに噛み砕いて整理します。[edit | edit source]

投稿全体で言っていることを、ポイントごとに噛み砕いて整理します。 https_x_com_EpochAIResearch_sta…

1) 何が「新記録」なのか[edit | edit source]

  • Epoch AIが運用している数学ベンチマーク FrontierMath のうち、最難関側に位置づけられている Tier 4 で、GPT-5.2 Pro が 31%(15/48) を取った、という報告です。
  • これまでの最高スコアは 19% だったので、かなり大きなジャンプだ、と強調しています。

2) どうやって評価したのか(「手動」評価の意味)[edit | edit source]

  • ふつうはAPI+スキャフォールド(評価用の枠組み)で回すところ、API側でタイムアウト問題が出たため、今回は ChatGPTのWeb画面で人手で実行して採点した、という説明です。
  • 「本当は自動化したいが、問題が解決するまでの暫定措置として手動でもやる価値があった」という立て付け。

3) 31%の内訳(“新規に解けた問題”が重要)[edit | edit source]

Tier 4は合計48問で、この投稿の数字は次の二段構えです。

(A) 今回のGPT-5.2 Proの結果[edit | edit source]
  • 「これまでに“どのモデルでも”解けたことがあるTier 4問題」は 13問 しかなかった(= ほとんど未踏)。
  • GPT-5.2 Proはそのうち 11問 を解けた。
  • さらに、今までどのモデルも解けていなかった問題を新たに4問解いた。 → 合計 15/48 = 31%(これが新記録の中身)
(B) “pass@the-kitchen-sink” の更新[edit | edit source]
  • Tier 4で「歴代で解けたことがある問題(誰かがいつか解いた)」の集合は、今回の成果で 17問 になった。
  • その“歴代解決集合”に対して、Tier 4は 17/48 = 35% が「一度は解かれたことがある」状態になった、と言っています。 ※ここは「GPT-5.2 Proが35%取った」という意味ではなく、Tier 4全体の“通算解決済み問題の割合”が35%まで増えたという指標。

4) 「過学習してない」の主張(ホールドアウトの切り分け)[edit | edit source]

この投稿の肝はここです。

  • Tier 4の48問は、事情により 2つの集合に分かれている: - OpenAIが問題と解答に独占アクセスできる28問(= 非ホールドアウト) - Epochが非公開で保持する20問(ホールドアウト)
  • GPT-5.2 Proは - 非ホールドアウト:5/28 = 18% - ホールドアウト:10/20 = 50%
  • つまり「OpenAIが中身を知り得る側で強く、未知側で弱い」という 過学習っぽいパターンではなく、むしろ逆。 → “over-fitting(過学習)の証拠はない” と結論しています。

(ただし、ここは“証拠がない”という言い方で、統計的に厳密な証明というより「少なくとも疑う材料は見えない」程度のニュアンスです。)

5) 採点・問題側の不具合修正(スコアの整合性の話)[edit | edit source]

  • 評価中に 2問で採点・問題側の不具合を見つけた。
  • 本来は複数モデルが「解けた」扱いになるべきだったので、修正して ハブ(スコアボード)を更新した、と言っています。 → ベンチマーク運用者としての「スコアの正しさ担保」のアピールでもあります。

6) 数学者コメントが示す「質」の話[edit | edit source]

単に点数だけでなく、解き方の質や限界が、数学者のコメントとして添えられています。

Joel Hass(低次元トポロジー・幾何)[edit | edit source]
  • 多項式で定義された曲面の幾何を認識して解いたのがすごい。
  • さらに、同じ問題を 点群(point cloud)として提示した難しい定式化でも解けた。
  • ただし手法は「既知の解を持つ曲面で近似→反復改善」で、一般には通用しないがこの問題ではうまくいった。 → “理解+発想”が出ている一方、万能ではないことも明示。
Ken Ono(数論)[edit | edit source]
  • 「必要な理論上のコツを理解し、計算も実行した。力任せではない」の評価は高い。
  • ただし 文章による厳密な説明の詰めが甘いので、博士課程学生なら厳密性は 6/10 くらい。 → “数学的には当たっているが、証明としての書きぶりが弱い”という典型的な弱点。
Dan Romik(数論)[edit | edit source]
  • 何層も難しさを仕込んだが、すべて超えて正解した、とかなり高評価。
  • ただし「有能な人間数学者なら可能な範囲」としつつ、専門家でも相当努力が要る難度だったことを強調。 → “人間上位層の作業にかなり寄ってきた”という含意。
Jay Pantone(解析的組合せ論)[edit | edit source]
  • 解答自体は妥当だが、意図していない数値的ショートカットで“最難所”を回避した。 → “正解は出すが、問題作成者が期待する構造的解法とは違う”というズレ。

7) 「何がまだ苦手か」の示唆(最後の一段)[edit | edit source]

最後に、未解決のタイプとして:

  • “もっともらしい仮定を置いて先に進むが、その仮定を証明しない”ために誤る、という指摘。
  • もし仮定を証明しに行けば、真実がもっと微妙であることに気づくはず、という趣旨。 → 要するに 「仮定の検証(証明)をサボらない」タイプの厳密さが、まだボトルネックになりがち、という示唆です。

まとめ(この投稿のメッセージ)[edit | edit source]

  • GPT-5.2 Proは FrontierMath Tier 4で 31%(15/48) を達成し、未踏だった問題を新たに複数解いた。
  • さらに、OpenAIがアクセスできない ホールドアウト側でより強い結果が出ており、少なくとも 過学習っぽさは見えない。
  • 一方で、数学者コメントからは - 問題によっては“発想”や“構造理解”が見える - ただし厳密な文章化や、意図された解法からのズレ(数値近道)など、まだ課題もある …という温度感が読み取れます。

References[edit | edit source]

  1. "New record on FrontierMath Tier 4! GPT-5.2 Pro scored 31% @EpochAIResearch". ChatGPT. Retrieved 2026-01-25.