Science & Technology Learning: tháng 8 2025

Phác họa bài post:

Đề dẫn.

❶. OpenAI & DeepMind tuyên bố “đoạt” huy chương vàng.

❷. MathArena (Đấu trường Toán): thậm chí chưa có mô hình nào đoạt huy chương đồng.

❸. Thiết kế Prompt và quy trình để Gemini 2.5 Pro đoạt huy chương vàng.

🤔. Suy ngẫm chậm.

Để giúp anh/chị quyết định có đọc tiếp hay không, tôi xin phép cung cấp các thông tin liên quan đến bài post này như sau:

· Chủ đề: Toán sơ cấp, Machine Learning

· Tính thời sự: tháng 7/2025

· Thời gian đọc: 10 phút, kể cả thời gian uống cà phê (uống cà phê xong là đọc xong)

Đề dẫn.

Viết tắt:

· LLM: Large Language Model (mô hình ngôn ngữ lớn – chatbot)

· IMO: International Mathematical Olympiad (Olympic Toán quốc tế).

Chủ đề lần này xin đàm luận cùng anh chị là LLM đi thi IMO. Việc LLM giải toán giờ đây là “chuyện thường ngày ở huyện”. Tuy nhiên, việc LLM giải được các bài toán IMO vẫn là một thách thức (ít nhất cho đến thời điểm hiện nay). Vì vậy, việc LLM đoạt được huy chương vàng IMO là “big news” trên các trang báo quốc tế.

Năm nay (2025), lần đầu tiên một số công ty AI đã được mời tham gia sự kiện bên lề tại IMO nhằm giới thiệu cho các thí sinh mô hình mới nhất mà họ đã phát triển. Và họ cũng đã cho các mô hình này thi (nguồn). Kết quả bài làm của “máy” cũng được ban giám khảo chấm cùng tiêu chuẩn như với các thí sinh thông thường. Huy chương của “máy” (nếu có) không được “trao” như các thí sinh.

Xin nhắc lại quy chế thi và giải thưởng của IMO:

Mỗi bài thi IMO bao gồm 6 bài toán, mỗi bài tương đương tối đa là 7 điểm, có nghĩa là thí sinh có thể đạt tối đa 42 điểm cho 6 bài. 6 bài toán này sẽ được giải trong 2 ngày liên tiếp, mỗi ngày thí sinh giải 3 bài trong thời gian 4 giờ 30 phút. Các bài toán được lựa chọn trong các vấn đề toán học sơ cấp, bao gồm 4 lĩnh vực hình học, số học, đại số và tổ hợp.

Giải thưởng của IMO bao gồm huy chương vàng, huy chương bạc và huy chương đồng được trao theo điểm tổng cộng mà thí sinh đạt được. Số thí sinh được trao huy chương là khoảng một nửa tổng số thí sinh, điểm để phân loại huy chương sẽ theo nguyên tắc tỉ lệ thí sinh đạt huy chương vàng, bạc, đồng sẽ là 1:2:3. Các thí sinh không giành được huy chương nhưng giải được trọn vẹn ít nhất 1 bài (7/7 điểm) sẽ được trao bằng danh dự.

Năm 2025, 72 thí sinh đạt huy chương vàng; điểm chuẩn là 35/42. Trong số 72 thí sinh đó, 45 thí sinh đạt đúng 35 điểm. (Điểm chuẩn cho huy chương thay đổi theo từng năm, phản ánh độ khó của kỳ thi. Năm 2024, điểm chuẩn cho huy chương vàng là 29/42.) Năm nay có 5 thí sinh đạt điểm tuyệt đối 42/42.

❰Bên lề❱

Đoàn Việt Nam năm nay đoạt 2 huy chương vàng, 3 huy chương bạc và 1 huy chương đồng – xếp thứ 9 toàn đoàn. Có 112 nước và 641 thí sinh tham dự.

· Võ Trọng Khải, lớp 12, Chuyên Phan Bội Châu, Nghệ An: HCV (38 điểm)

· Trần Minh Hoàng, lớp 12, Chuyên Hà Tĩnh: HCV (35 điểm)

· Nguyễn Đăng Dũng, lớp 12, Chuyên KHTN Hà Nội: HCB (34 điểm)

· Nguyễn Đình Tùng, lớp 11, Chuyên KHTN Hà Nội: HCB (31 điểm)

· Lê Phan Đức Mân, lớp 12, Chuyên Lê Hồng Phong, TP. HCM: HCB (28 điểm)

· Trương Thanh Xuân, lớp 11, Chuyên Bắc Ninh: HCĐ (22 điểm)

❰/Bên lề❱

Đề thi

❶. OpenAI & DeepMind tuyên bố “đoạt” huy chương vàng.

Ngày 19/07/2025, Alexander Wei thay mặt cho nhóm nghiên cứu tại OpenAI (Alexander Wei, Sheryl Hsu và Noam Brown) tuyên bố trên mạng xã hội X (Twitter) là mô hình thử nghiệm của họ đã đoạt được HCV IMO 2025 – 35/42 điểm (nguồn). Mô hình thử nghiệm của họ chưa được công bố. Lời giải (bài 1-5) của họ đăng trên Github ở đây.

Ngày 21/07/2025, Google DeepMind đăng trên trang web của họ rằng mô hình Gemini Deep Think nâng cao của họ đạt tổng điểm là 35/42 điểm và đoạt HCV IMO 2025 (nguồn). Lời giải các bài 1-5 đăng ở đây.

Cả hai giải pháp (OpenAI và Google DeepMind) đều chỉ giải được bài 1 đến bài 5, không giải được bài 6.

Các mô hình giải được 5 bài toán của IMO 2025 của các OpenAI lẫn Google DeepMind không (chưa) được công bố và vì vậy nên công chúng cũng chỉ biết vậy thôi – không (chưa) có dịp được trải nghiệm.

⚠ Cập nhật 1/8/2025: Google thông báo họ đã triển khai mô hình Deep Think cho các thuê bao Google AI Ultra. Điểm đáng chú ý là mô hình Deep Think này là phiên bản khác (kém hơn) phiên bản mà họ dùng để đoạt được huy chương vàng IMO. Phiên bản mới này chỉ cùng lắm là giành được huy chương đồng IMO. 😊

⚠ Cập nhật 5/8/2025: Chú ý rằng ngay sau khi biết đề thi, trên mạng có nhiều trang cho lời giải khá chi tiết, bằng văn bản hoặc bằng video, ví dụ trang Art of Problem Solving. Đặc biệt, ngày 5/8/2025, Evan Chen – một nhà toán học người Mỹ gốc Hoa (sinh năm 1996) – đã đăng lời giải đầy đủ tại đây. Vì vậy, sau ngày thi chính thức của IMO (15,16/7/2025), nếu chúng ta nhờ LLM giải bài thì lúc đó LLM đi tìm lời giải trên mạng chứ chúng không tự làm. Dữ liệu bài thi lúc này được cho là đã bị ô nhiễm (contaminated).

⚠ Cập nhật 7/8/2025: OpenAI thông báo họ ra mắt GPT-5. Như đã được Sam Altman – CEO của OpenAI thông báo từ trước (19/7/2025), GPT-5 không tích hợp mô hình thử nghiệm đã giành được huy chương vàng IMO!

Nói ngắn gọn: chúng ta chỉ mới “nghe nói” là các mô hình đó giành huy chương vàng IMO chứ chưa được trải nghiệm. Biết làm thế nào – đành phải chờ tiếp vậy… 😊

❷. MathArena (Đấu trường Toán): thậm chí chưa có mô hình nào đoạt huy chương đồng.

Trước khi diễn ra thi IMO, trang MathArena đã “dựng” (setup) phòng thi cho các mô hình tham gia dự thi IMO 2025 (nguồn). Bốn giám khảo (người thật) với trình độ tương đương giám khảo IMO chấm điểm. Việc chấm điểm được thực thi ngay sau khi IMO 2025 ra đề bài để tránh việc đề bị lộ và tích hợp vào các mô hình dự thi. Để đảm bảo công bằng, có 2 giám khảo cùng chấm một bài làm một cách độc lập, bài thi được “rọc phách” (nghĩa là giám khảo không biết được lời giải đó là của mô hình nào).

Các mô hình dự thi gồm: o3, o4-mini, Gemini-2.5-Pro, Grok-4 và Deepseek-R1 (05/28).

(Mô hình o3, o4-mini là của OpenAI, Gemini-2.5-Pro là của Google, Grok-4 là của xAI và Deepseek-R1 (05/28) là của DeepSeek.)

Chọn bài làm tốt nhất trong 32 bài nộp.

· Cách làm của MathArena là lập cùng một Prompt chung cho tất cả các mô hình dự thi.

· Tạo sinh ra 32 Response (bài làm)

· Chọn bài làm tốt nhất bằng cách so sánh từng cặp bài làm. Việc so sánh sử dụng giải pháp LLM-as-a-judge (LLM phán xét) và sử dụng chính mô hình đấy để so sánh.

· Quy trình này được lặp cho đến lúc tìm ra bài làm tốt nhất.

· Bài nộp là bài tốt nhất của mô hình.

Kết quả:

Mô hình đạt điểm cao nhất là Gemini-2.5-Pro là 31.55% (13 điểm), còn khá xa so với mức huy chương đồng là 19/42.

Sau khi MathArena đăng kết quả, thấy Grok-4 cho kết quả không như mong đợi nên xAI đã liên lạc với họ để cho thêm một Prompt đặc trưng cho Grok-4. Kết quả chỉnh sửa như dưới đây:

Dù vậy, điểm của Grok-4 cũng chỉ đạt đến 21.43% (9 điểm).

❸. Thiết kế Prompt và quy trình để Gemini 2.5 Pro đoạt huy chương vàng.

Ngày 21/07/2025, một nhóm tác giả đăng bài báo “Gemini 2.5 Pro Capable of Winning Gold at IMO 2025” (Gemini 2.5 Pro có khả năng giành huy chương vàng tại IMO 2025).

Đại ý là họ thiết kế một Prompt rất chi tiết rồi lập một framework theo sơ đồ 6 bước (xem hình vẽ). Kết quả là mô hình này làm được 5 bài (1-5), không làm được bài 6, được 35 điểm nên đoạt huy chương vàng.

Tất nhiên giải pháp này hoàn toàn không thuyết phục vì khi đi thi “thí sinh” (trong trường hợp này là LLM) phải tự đọc bài làm và không được có bất kỳ trợ giúp hay gợi ý nào khác.

🤔. Suy ngẫm chậm.

① Thành tích đạt huy chương vàng IMO của LLM ấn tượng đến mức nào?

Phải nói là cực kỳ ấn tượng. Các bài toán của IMO có mức độ khó khác nhau, từ khó đến siêu khó. Huy chương vàng IMO là thành tích mà ngay cả những nhà toán học và nhà khoa học rất thành công cũng nêu bật trong CV của họ suốt cuộc đời.

Phải nói là các LLM đã tiến một bước dài. Còn nhớ cách đây 2 năm (2023), các LLM còn chật vật với các phép tính cộng trừ nhân chia. Rồi năm ngoái (2024) Google đã tiệm cận đến huy chương bạc nhưng giải pháp của họ có phần “kỳ lạ” và cần hỗ trợ từ “con người” để đọc bài toán rồi chuyển sang ngôn ngữ hình thức trước khi “máy” bắt đầu thực hiện. Năm nay, mô hình Deep Think của Google DeepMind đọc “trực tiếp” đề bài và lời giải cũng được viết ra theo ngôn ngữ tự nhiên – được trình bày rất đẹp – xem bài làm của Deep Think ở đây.

② LLM liệu có tham gia được vào nghiên cứu Toán như các nhà Toán học?

Nghĩa là LLM có khả năng sáng tạo trong Toán học hay không? Có đưa ra các phát minh mới về Toán không? Câu hỏi rất lý thú, đúng không ạ. Chỉ có thời gian mới trả lời được câu hỏi này.

Đúng là nhiều nhà toán học hàng đầu đã đạt thành tích tốt trong những cuộc thi như IMO khi còn trẻ. Nhưng cũng đúng là nhiều nhà toán học hàng đầu đã không làm được điều đó, và nhiều người đạt điểm cao trong kỳ thi IMO cuối cùng chỉ là những nhà toán học có năng lực nhưng không xuất sắc. Nghĩa là các kỹ năng khi đi thi không nhất thiết chuyển thành kỹ năng khi nghiên cứu.

AI thì khác chăng?

Trân trọng & vui nhã

(Credit: Gemini)

LeVanLoi

Science & Technology Learning

2025/08/10

☕ Nhàn đàm S&T: LLM thi IMO

Đề dẫn.

Đề thi

❶. OpenAI & DeepMind tuyên bố “đoạt” huy chương vàng.

❷. MathArena (Đấu trường Toán): thậm chí chưa có mô hình nào đoạt huy chương đồng.

Chọn bài làm tốt nhất trong 32 bài nộp.

Kết quả:

❸. Thiết kế Prompt và quy trình để Gemini 2.5 Pro đoạt huy chương vàng.

🤔. Suy ngẫm chậm.

① Thành tích đạt huy chương vàng IMO của LLM ấn tượng đến mức nào?

② LLM liệu có tham gia được vào nghiên cứu Toán như các nhà Toán học?

☕ Nhàn đàm S&T: Humanoid Robots 🤖

Báo cáo vi phạm