Đề dẫn.
❶. OpenAI & DeepMind tuyên bố “đoạt” huy chương vàng.
❷. MathArena (Đấu trường Toán): thậm chí chưa có mô hình nào đoạt huy
chương đồng.
❸. Thiết kế Prompt và quy trình để Gemini 2.5 Pro đoạt huy chương
vàng.
🤔. Suy
ngẫm chậm.
~
Để giúp anh/chị
quyết định có đọc tiếp hay không, tôi xin phép cung cấp các thông tin liên quan
đến bài post này như sau:
·
Chủ
đề: Toán sơ cấp,
Machine Learning
·
Tính
thời sự: tháng 7/2025
·
Thời
gian đọc: 10 phút, kể cả
thời gian uống cà phê (uống cà phê xong là đọc xong)
Đề dẫn.
Viết tắt:
·
LLM: Large Language Model (mô hình ngôn ngữ
lớn – chatbot)
·
IMO: International Mathematical Olympiad
(Olympic Toán quốc tế).
Chủ đề lần này
xin đàm luận cùng anh chị là LLM đi thi IMO. Việc LLM giải toán giờ đây là
“chuyện thường ngày ở huyện”. Tuy nhiên, việc LLM giải được các bài toán IMO vẫn
là một thách thức (ít nhất cho đến thời điểm hiện nay). Vì vậy, việc LLM đoạt
được huy chương vàng IMO là “big news” trên các trang báo quốc tế.
Năm nay (2025),
lần đầu tiên một số công ty AI đã được mời tham gia sự kiện bên lề tại IMO nhằm
giới thiệu cho các thí sinh mô hình mới nhất mà họ đã phát triển. Và họ cũng đã
cho các mô hình này thi (nguồn). Kết quả bài làm của “máy” cũng được ban giám khảo chấm
cùng tiêu chuẩn như với các thí sinh thông thường. Huy chương của “máy” (nếu
có) không được “trao” như các thí sinh.
Xin nhắc lại
quy chế thi và giải thưởng của IMO:
Mỗi bài thi IMO bao gồm 6 bài toán, mỗi bài tương đương tối
đa là 7 điểm, có nghĩa là thí sinh có thể đạt tối đa 42 điểm cho 6 bài. 6 bài
toán này sẽ được giải trong 2 ngày liên tiếp, mỗi ngày thí sinh giải 3 bài
trong thời gian 4 giờ 30 phút. Các bài toán được lựa chọn trong các vấn đề toán
học sơ cấp, bao gồm 4 lĩnh vực hình học, số học, đại số
và tổ hợp.
Giải thưởng của IMO bao gồm huy chương vàng, huy chương bạc
và huy chương đồng được trao theo điểm tổng cộng mà thí sinh đạt được. Số thí
sinh được trao huy chương là khoảng một nửa tổng số thí sinh, điểm để phân loại
huy chương sẽ theo nguyên tắc tỉ lệ thí sinh đạt huy chương vàng, bạc, đồng sẽ
là 1:2:3. Các thí sinh không giành được huy chương nhưng giải được trọn vẹn ít
nhất 1 bài (7/7 điểm) sẽ được trao bằng danh dự.
Năm 2025, 72 thí sinh đạt huy chương vàng; điểm chuẩn là
35/42. Trong số 72 thí sinh đó, 45 thí sinh đạt đúng 35 điểm. (Điểm chuẩn cho
huy chương thay đổi theo từng năm, phản ánh độ khó của kỳ thi. Năm 2024, điểm
chuẩn cho huy chương vàng là 29/42.) Năm nay có 5 thí sinh đạt điểm tuyệt đối
42/42.
❰Bên
lề❱
Đoàn Việt Nam năm nay đoạt 2 huy
chương vàng, 3 huy chương bạc và 1 huy chương đồng – xếp thứ 9 toàn đoàn. Có
112 nước và 641 thí sinh tham dự.
·
Võ Trọng Khải,
lớp 12, Chuyên Phan Bội Châu, Nghệ An: HCV (38 điểm)
·
Trần Minh Hoàng,
lớp 12, Chuyên Hà Tĩnh: HCV (35 điểm)
·
Nguyễn Đăng Dũng,
lớp 12, Chuyên KHTN Hà Nội: HCB (34 điểm)
·
Nguyễn Đình Tùng,
lớp 11, Chuyên KHTN Hà Nội: HCB (31 điểm)
·
Lê Phan Đức Mân,
lớp 12, Chuyên Lê Hồng Phong, TP. HCM: HCB (28 điểm)
·
Trương Thanh Xuân,
lớp 11, Chuyên Bắc Ninh: HCĐ (22 điểm)
❰/Bên
lề❱
-
Đề thi
-
❶. OpenAI & DeepMind tuyên bố “đoạt” huy chương vàng.
Ngày
19/07/2025, Alexander Wei thay mặt cho nhóm nghiên cứu tại OpenAI (Alexander
Wei, Sheryl Hsu và Noam Brown) tuyên bố trên mạng xã hội X (Twitter) là mô hình
thử nghiệm của họ đã đoạt được HCV IMO 2025 – 35/42 điểm (nguồn). Mô hình thử nghiệm của họ chưa được công bố. Lời giải
(bài 1-5) của họ đăng trên Github ở đây.
Ngày
21/07/2025, Google DeepMind đăng trên trang web của họ rằng mô hình Gemini Deep
Think nâng cao của họ đạt tổng điểm là 35/42 điểm và đoạt HCV IMO 2025 (nguồn). Lời giải các bài 1-5 đăng ở đây.
Cả
hai giải pháp (OpenAI và Google DeepMind) đều chỉ giải được bài 1 đến bài 5,
không giải được bài 6.
Các
mô hình giải được 5 bài toán của IMO 2025 của các OpenAI lẫn Google DeepMind không
(chưa) được công bố và vì vậy nên công chúng cũng chỉ biết vậy thôi – không
(chưa) có dịp được trải nghiệm.
-
⚠ Cập nhật 1/8/2025: Google thông báo họ đã triển khai mô
hình Deep Think cho các thuê bao Google AI Ultra. Điểm
đáng chú ý là mô hình Deep Think này là phiên bản khác (kém hơn) phiên bản mà họ
dùng để đoạt được huy chương vàng IMO. Phiên bản mới này chỉ cùng lắm là giành
được huy chương đồng IMO. 😊
⚠ Cập nhật 5/8/2025: Chú ý rằng ngay sau khi biết đề thi,
trên mạng có nhiều trang cho lời giải khá chi tiết, bằng văn bản hoặc bằng
video, ví dụ trang Art of Problem Solving. Đặc biệt, ngày 5/8/2025, Evan Chen – một
nhà toán học người Mỹ gốc Hoa (sinh năm 1996) – đã đăng lời giải đầy đủ tại đây.
Vì vậy, sau ngày thi chính thức của IMO (15,16/7/2025), nếu chúng ta nhờ LLM giải
bài thì lúc đó LLM đi tìm lời giải trên mạng chứ chúng không tự làm. Dữ liệu
bài thi lúc này được cho là đã bị ô nhiễm (contaminated).
⚠ Cập nhật 7/8/2025: OpenAI thông báo họ ra mắt GPT-5.
Như đã được Sam Altman – CEO của OpenAI thông báo từ trước
(19/7/2025), GPT-5 không tích hợp mô hình thử nghiệm đã giành được huy chương
vàng IMO!
Nói
ngắn gọn: chúng ta chỉ mới
“nghe nói” là các mô hình đó giành huy chương vàng IMO chứ chưa được trải
nghiệm. Biết làm thế nào – đành phải chờ tiếp vậy… 😊
-
❷. MathArena (Đấu trường Toán): thậm
chí chưa có mô hình nào đoạt huy chương đồng.
Trước
khi diễn ra thi IMO, trang MathArena đã “dựng” (setup) phòng thi cho các mô
hình tham gia dự thi IMO 2025 (nguồn). Bốn giám khảo (người thật) với trình độ tương đương giám
khảo IMO chấm điểm. Việc chấm điểm được thực thi ngay sau khi IMO 2025 ra đề
bài để tránh việc đề bị lộ và tích hợp vào các mô hình dự thi. Để đảm bảo công
bằng, có 2 giám khảo cùng chấm một bài làm một cách độc lập, bài thi được “rọc
phách” (nghĩa là giám khảo không biết được lời giải đó là của mô hình nào).
Các
mô hình dự thi gồm: o3, o4-mini, Gemini-2.5-Pro, Grok-4 và Deepseek-R1 (05/28).
(Mô
hình o3, o4-mini là của OpenAI, Gemini-2.5-Pro là của Google, Grok-4 là của xAI
và Deepseek-R1 (05/28) là của DeepSeek.)
Chọn bài làm tốt nhất trong 32 bài nộp.
·
Cách
làm của MathArena là lập cùng một Prompt chung cho tất cả các mô hình dự
thi.
·
Tạo
sinh ra 32 Response (bài làm)
·
Chọn
bài làm tốt nhất bằng cách so sánh từng cặp bài làm. Việc so sánh sử dụng giải
pháp LLM-as-a-judge (LLM phán xét) và sử dụng chính mô hình đấy để so sánh.
·
Quy
trình này được lặp cho đến lúc tìm ra bài làm tốt nhất.
·
Bài
nộp là bài tốt nhất của mô hình.
Kết quả:
Mô
hình đạt điểm cao nhất là Gemini-2.5-Pro là 31.55% (13 điểm), còn khá xa so với
mức huy chương đồng là 19/42.
Sau
khi MathArena đăng kết quả, thấy Grok-4 cho kết quả không như mong đợi nên xAI
đã liên lạc với họ để cho thêm một Prompt đặc trưng cho Grok-4. Kết quả chỉnh sửa
như dưới đây:
-
❸. Thiết
kế Prompt và quy trình để Gemini 2.5 Pro đoạt huy chương vàng.
Ngày
21/07/2025, một nhóm tác giả đăng bài báo “Gemini
2.5 Pro Capable of Winning Gold at IMO 2025” (Gemini 2.5 Pro có khả năng giành huy chương vàng tại IMO
2025).
Đại
ý là họ thiết kế một Prompt rất chi tiết rồi lập một framework theo sơ đồ 6 bước
(xem hình vẽ). Kết quả là mô hình này làm được 5 bài (1-5), không làm được bài
6, được 35 điểm nên đoạt huy chương vàng.
Tất nhiên giải pháp này hoàn toàn không thuyết phục vì khi đi thi “thí sinh” (trong trường hợp này là LLM) phải tự đọc bài làm và không được có bất kỳ trợ giúp hay gợi ý nào khác.
🤔. Suy ngẫm chậm.
① Thành tích đạt huy chương vàng IMO của LLM ấn tượng đến mức nào?
Phải
nói là cực kỳ ấn tượng. Các bài toán của IMO có mức độ khó khác nhau, từ khó đến
siêu khó. Huy chương vàng IMO là thành tích mà ngay cả những nhà toán học và
nhà khoa học rất thành công cũng nêu bật trong CV của họ suốt cuộc đời.
-
Phải
nói là các LLM đã tiến một bước dài. Còn nhớ cách đây 2 năm (2023), các LLM còn
chật vật với các phép tính cộng trừ nhân chia. Rồi năm ngoái (2024) Google đã
tiệm cận đến huy chương bạc nhưng giải pháp của họ có phần “kỳ lạ” và cần hỗ trợ
từ “con người” để đọc bài toán rồi chuyển sang ngôn ngữ hình thức trước khi
“máy” bắt đầu thực hiện. Năm nay, mô hình Deep Think của Google DeepMind đọc
“trực tiếp” đề bài và lời giải cũng được viết ra theo ngôn ngữ tự nhiên – được
trình bày rất đẹp – xem bài làm của Deep Think ở đây.
② LLM liệu có tham gia được vào nghiên cứu Toán như các nhà Toán học?
Nghĩa
là LLM có khả năng sáng tạo trong Toán học hay không? Có đưa ra các phát minh mới
về Toán không? Câu hỏi rất lý thú, đúng không ạ. Chỉ có thời gian mới trả lời
được câu hỏi này.
Đúng
là nhiều nhà toán học hàng đầu đã đạt thành tích tốt trong những cuộc thi như IMO
khi còn trẻ. Nhưng cũng đúng là nhiều nhà toán học hàng đầu đã không làm được
điều đó, và nhiều người đạt điểm cao trong kỳ thi IMO cuối cùng chỉ là những
nhà toán học có năng lực nhưng không xuất sắc. Nghĩa là các kỹ năng khi đi thi không
nhất thiết chuyển thành kỹ năng khi nghiên cứu.
AI
thì khác chăng?
-
Trân trọng
& vui nhã
LeVanLoi



.png)

