Jump to content
Main menu
Main menu
move to sidebar
hide
Navigation
Main page
Recent changes
Random page
freem
Search
Search
Appearance
Create account
Log in
Personal tools
Create account
Log in
Pages for logged out editors
learn more
Contributions
Talk
Editing
Openai/69127c4e-8154-8004-855c-e7de26cf7221
(section)
Add languages
Page
Discussion
English
Read
Edit
Edit source
View history
Tools
Tools
move to sidebar
hide
Actions
Read
Edit
Edit source
View history
General
What links here
Related changes
Special pages
Page information
Appearance
move to sidebar
hide
Warning:
You are not logged in. Your IP address will be publicly visible if you make any edits. If you
log in
or
create an account
, your edits will be attributed to your username, along with other benefits.
Anti-spam check. Do
not
fill this in!
=== Assistant: 1. === # Простое объяснение Вы правы по сути: человек-эксперт сейчас сильнее ИИ на «краях» — в выборе постановки, в сомнениях и в «чувстве задачи». Lean даёт строгость шага, но не выбор цели. LLM-системы уже умеют решать часть задач и даже формализовывать, но сбойны вне знакомых шаблонов — там их и «ловит» Тао-уровня математика. Мы знаем: есть реальные успехи (IMO-уровень; формализация). Мы также знаем: автоформализация и рассуждение ломаются на OOD/«неразумных» задачах [1][2][3][4][5][6]. # Если глубже (3–5 механизмов) * Суждение vs. выкладка. Доверие к Тао — это какой вопрос ставить и как резать пространство идей. Доверие к Lean — корректность уже записанной формализации (ядро, de Bruijn) [6]. * Границы LLM. На формализации текст→Lean у моделей системные пробелы (дефицит пар «текст—доказательство», хрупкость к перефразам) [3][4]. * OOD-провал. На задачах вне тренда даже простое рассуждение «сыпется» — это и есть ваши «краевые эффекты» [5]. * Тем не менее прогресс. ИИ уже решал олимпиадные задачи на серебряном уровне и участвует в полном цикле «идея→доказательство→Lean» — значит, потенциал есть [1][2]. * Роль этики/процесса. Честная постановка и самоскепсис человека + формальная проверка машины → на сегодня лучшее сочетание. # Мини-диаграмма Человек (выбор задачи, сомнения) → Идея ↓ ИИ (поиск/набросок) → Lean (строгая проверка) → Артефакт (формальный файл) Если задача «краевая» → человек ведёт; если шаблонная → ИИ ускоряет. # Глоссарий * OOD (out-of-distribution) — случай «вне привычных данных»; там модели часто ломаются. * Автоформализация — перевод маттекста в Lean/Coq машиной. * Lean/ядро/de Bruijn — минимальный проверяющий модуль; независимая перепроверка каждым. * Deep Think / AlphaProof — модули для длинных рассуждений и формальной проверки. * IMO-уровень — метрика: очки на Международной математической олимпиаде. # Вопрос к вам Собрать короткий протокол: как делить работу «Человек↔ИИ↔Lean» на проектах (кто за что отвечает на «краях»)? Или разобрать пример «Какея (конечные поля)» с чек-листом «где ведёт человек, где машина»? ===== За (человек сильнее на краях): ===== * LLM-ы падают на OOD и «неразумных» постановках [5]. * Автоформализация в Lean у LLM-ов пока ограничена [3][4]. * Тао сам пишет: ИИ хорош на некоторых классах (напр., конечнополевые Какея/Никодим), но успех неравномерен [2]. Против: * ИИ уже демонстрирует серебряный/золотой IMO-уровень и связки «идея→Lean» — пространство, где человек раньше был один [1][2]. * Формальная проверка ловит чисто логические огрехи, которые пропускают люди [6]. Степень уверенности: высокая (~85%). Основания: первоисточники (арXiv/блоги DeepMind/блог Тао), новые бенчмарки. ===== [1] Успехи ИИ на IMO (AlphaProof/AlphaGeometry): ===== : [2] Тао о неравномерном успехе и Какея/Никодим: : [3] Бенчмарк автоформализации Lean4: ограничения LLM: : [4] Автоформализация 2025: перечислены ключевые барьеры: : [5] OOD-слабость логического вывода: : [6] De Bruijn-критерий (почему Lean даёт строгую проверку): : Список источников (макс 6): # DeepMind blog — IMO silver (2024-07-25). # Terry Tao’s blog — AlphaEvolve/Какея (2025-11-05). # arXiv:2406.06555 — Lean4 autoformalization benchmark (2024-06-01). # arXiv:2510.15681 — Auto-formalization in Lean 4 (2025-10-16). # Findings of ACL 2025 — OOD reasoning failures (2025-07). # ETHZ — de Bruijn criterion (slides). Checked: 2025-11-10 (America/Los_Angeles). Overall confidence: High. Все ли понятно? Объяснить ещё проще на примерах? Скажите «Да» и я поясню. Или выберите вопрос из списка, указав его номер: # «Да» # «И зачем это надо? В чем польза?» # «Как делить работу: человек↔ИИ↔Lean на “краях”?» (из текста: «краевые эффекты, роли») # «Пример OOD-срыва и как его чинить?» (из текста: «OOD-провал») # «Как измерять прогресс автоформализации без самообмана?» (из текста: «бенчмарки Lean») # «Другое — напишу свой вопрос.» Скажите «Да» для общего упрощения, или укажите номер вопроса (1–6).
Summary:
Please note that all contributions to freem are considered to be released under the Creative Commons Attribution-ShareAlike 4.0 (see
Freem:Copyrights
for details). If you do not want your writing to be edited mercilessly and redistributed at will, then do not submit it here.
You are also promising us that you wrote this yourself, or copied it from a public domain or similar free resource.
Do not submit copyrighted work without permission!
Cancel
Editing help
(opens in new window)