Phác họa bài post:
Ⓐ. Đề dẫn.
Ⓑ. Sơ lược về IMO.
Ⓒ. Một vài con số tương quan quốc tế & khu vực.
Ⓓ. “Máy” thi IMO.
Ⓔ. “Máy”
giải toán.
Ⓕ. Suy
ngẫm chậm.
~
Để giúp anh/chị
quyết định có đọc tiếp hay không, tôi xin phép cung cấp các thông tin liên quan
đến bài post này như sau:
·
Chủ
đề: Toán sơ cấp,
Machine Learning
·
Tính
thời sự: tháng 9/2024
·
Thời
gian đọc: 10 phút, kể cả
thời gian uống cà phê (uống cà phê xong là đọc xong)
Ⓐ. Đề dẫn.
Nhân kỷ niệm 50
năm (1974-2024) Việt Nam tham gia Olympic Toán học Quốc tế, hôm nay xin phép diễn
đàn có một vài dòng về International Mathematical Olympiad (IMO). Tôi
tin là trên diễn đàn này có rất nhiều người đã từng tham gia thi IMO. Ví dụ như
anh Hoàng Lê Minh đoạt huy chương vàng trong lần đầu Việt Nam tham gia. Đoàn Việt
Nam năm đó (1974) có 5 người đi thi. Ngoài anh Hoàng Lê Minh còn có anh Vũ Đình
Hòa đoạt huy chương bạc, anh Đặng Hoàng Trung và anh Tạ Hồng Quang đoạt huy
chương đồng. Đoàn còn có anh Nguyễn Quốc Thắng. Trưởng đoàn là thầy Lê Hải Châu
và phó trưởng đoàn là thầy Phan Đức Chính.
-
Bài post này có
cấu trúc như sau. Sau phần đề dẫn là phần giới thiệu sơ lược về IMO. Tiếp theo
là một vài con số tương quan quốc tế & khu vực. Phần cuối tôi xin bàn luận
đến việc “máy đi thi IMO” – nghĩa là máy đang tiệm cận đến việc giải các bài
toán IMO trong khung thời gian mà ban tổ chức giải quy định.
-
Toàn bộ thông
tin liên quan đến IMO tôi lấy từ các trang sau:
https://en.wikipedia.org/wiki/International_Mathematical_Olympiad
https://www.imo-official.org/results.aspx
https://en.wikipedia.org/wiki/International_Mathematical_Olympiad_selection_process
Ⓑ. Sơ lược về IMO.
Lịch sử
Kì thi IMO đầu tiên được tổ chức tại Romania năm 1959 với sự
tham gia của 7 quốc gia Đông Âu là chủ nhà Romania, Bulgaria, Tiệp Khắc, Đông
Đức, Hungary, Ba Lan và Liên Xô. Trong giai đoạn đầu, IMO chủ yếu là cuộc thi
của các quốc gia thuộc hệ thống xã hội chủ nghĩa và địa điểm tổ chức cũng chỉ
trong phạm vi các nước Đông Âu. Bắt đầu từ thập niên 1970, số lượng các đoàn
tham gia bắt đầu tăng lên nhanh chóng và IMO thực sự trở thành một kì thi quốc
tế về Toán dành cho học sinh.
Cho đến nay kì thi được tổ chức liên tục hàng năm, trừ duy
nhất năm 1980. Kì IMO có số lượng đoàn tham gia đông đảo nhất tính đến IMO 2011
chính là kì IMO 2011 tổ chức tại Amsterdam, Hà Lan với 101 đoàn tham dự.
Mỗi đoàn tham dự được phép có tối đa 6 thí sinh, một trưởng
đoàn, một phó đoàn và các quan sát viên. Theo quy định, thí sinh tham gia phải
dưới 20 tuổi và trình độ không được vượt quá cấp trung học phổ thông (high
school trong tiếng Anh, hay lycée trong tiếng Pháp), vì vậy một thí
sinh có thể tham gia tới 5 hoặc 6 kì IMO, riêng với Việt Nam do quy định của
việc chọn đội tuyển, một thí sinh chỉ tham dự được nhiều nhất là hai kì.
Quy chế thi
Mỗi bài thi IMO bao gồm 6 bài toán, mỗi bài tương đương tối
đa là 7 điểm, có nghĩa là thí sinh có thể đạt tối đa 42 điểm cho 6 bài. 6 bài
toán này sẽ được giải trong 2 ngày liên tiếp, mỗi ngày thí sinh giải 3 bài
trong thời gian 270 phút.
Các bài toán được lựa chọn trong các vấn đề toán học sơ
cấp, bao gồm 4 lĩnh vực hình học, số học, đại số và tổ
hợp. Bắt đầu từ tháng 3 hàng năm, các nước tham gia thi được đề nghị gửi
các đề thi mà họ lựa chọn đến nước chủ nhà, sau đó một ban lựa chọn đề thi của
nước chủ nhà sẽ lập ra một danh sách các bài toán rút gọn bao gồm những bài hay
nhất, không trùng lặp đề thi IMO các năm trước hoặc kì thi quốc gia của các
nước tham gia, không đòi hỏi kiến thức toán cao cấp, không quá khó hoặc quá dễ
nhưng yêu cầu được thí sinh phải vận dụng hết khả năng suy luận và kiến thức
toán được học. Một vài ngày trước kì thi, các trưởng đoàn sẽ bỏ phiếu lựa chọn
6 bài chính thức, chính họ cũng sẽ là người dịch đề thi sang tiếng nước mình để
thí sinh có thể giải toán bằng tiếng mẹ đẻ, sau đó các vị trưởng đoàn sẽ được
cách ly hoàn toàn với các thí sinh để tránh gian lận.
Bài thi của thí sinh sẽ được ban giám khảo và trưởng đoàn
của thí sinh đó chấm song song, sau đó hai bên sẽ hội ý để đưa ra kết quả cuối
cùng. Giám khảo và trưởng đoàn đều có thể phản biện cách chấm của nhau để điểm
bài thi đạt được là chính xác nhất. Nếu hai bên không thể đi tới đồng thuận thì
người quyết định sẽ là trưởng ban giám khảo và giải pháp cuối cùng là tất cả
các trưởng đoàn bỏ phiếu. Riêng bài thi của thí sinh nước chủ nhà sẽ do giám
khảo đến từ các nước có đề thi được chọn chấm.
Giải thưởng
Tại IMO việc xét giải chỉ là cho cá nhân từng thí sinh tham
gia thi, còn việc xếp hạng thành tích các đoàn đều do các nước tham gia tự tính
toán và không có ý nghĩa chính thức.
Giải thưởng của IMO bao gồm huy chương vàng, huy chương bạc
và huy chương đồng được trao theo điểm tổng cộng mà thí sinh đạt được. Số thí
sinh được trao huy chương là khoảng một nửa tổng số thí sinh, điểm để phân loại
huy chương sẽ theo nguyên tắc tỉ lệ thí sinh đạt huy chương vàng, bạc, đồng sẽ
là 1:2:3. Các thí sinh không giành được huy chương nhưng giải được trọn vẹn ít
nhất 1 bài (7/7 điểm) sẽ được trao bằng danh dự.
Ngoài ra, ban tổ chức IMO còn có thể trao các giải thưởng
đặc biệt cho cách giải cực kì sáng tạo hoặc tổng quát hóa vấn đề nêu ra trong
bài toán. Giải này phổ biến trong thập niên 1980 nhưng gần đây ít được trao
hơn, lần cuối cùng giải thưởng đặc biệt được trao là năm 2005. Thí sinh đoàn
Việt Nam từng đạt giải thưởng này là Lê Bá Khánh Trình tại IMO 1979.
Ⓒ. Một vài con số tương quan quốc tế & khu vực.
Mười quốc gia hiện tại có kết quả tốt nhất mọi thời đại:
|
|
Country |
Appearances |
Gold |
Silver |
Bronze |
Honorable mentions |
|
1 |
Trung Quốc |
39 |
185 |
37 |
6 |
0 |
|
2 |
Hoa Kỳ |
50 |
151 |
120 |
30 |
1 |
|
3 |
Nga |
30 |
106 |
62 |
12 |
0 |
|
4 |
Hàn Quốc |
37 |
95 |
83 |
28 |
7 |
|
5 |
Hungary |
64 |
88 |
174 |
116 |
10 |
|
6 |
Romania |
65 |
86 |
158 |
111 |
7 |
|
7 |
Liên Xô (cũ) |
29 |
77 |
67 |
45 |
0 |
|
8 |
Việt Nam |
48 |
69 |
117 |
85 |
3 |
|
9 |
Bulgaria |
65 |
57 |
130 |
121 |
15 |
|
10 |
Vương quốc Anh |
57 |
56 |
124 |
131 |
18 |
-
Các quốc gia sau đây đã đạt được điểm số đồng đội cao nhất (nhất
toàn đoàn):
Trung Quốc, 24 lần: vào các năm 1989, 1990,
1992, 1993, 1995, 1997, 1999, 2000, 2001, 2002, 2004, 2005, 2006, 2008, 2009,
2010, 2011, 2013, 2014, 2019, 2020, 2021, 2022, 2023;
Nga (bao gồm cả Liên Xô), 16 lần: vào các
năm 1963, 1964, 1965, 1966, 1967, 1972, 1973, 1974, 1976, 1979, 1984, 1986,
1988, 1991, 1999, 2007;
Hoa Kỳ, 9 lần: vào các năm 1977, 1981,
1986, 1994, 2015, 2016, 2018, 2019, 2024;
Hungary, 6 lần: vào các năm 1961, 1962,
1969, 1970, 1971, 1975;
Romania, 5 lần: vào các năm 1959, 1978,
1985, 1987, 1996;
Tây Đức, hai lần: vào các năm 1982 và 1983;
Hàn Quốc, hai lần: vào các năm 2012 và 2017;
Bulgaria, một lần: năm 2003;
Iran, một lần: năm 1998;
Đông Đức, một lần: năm 1968.
-
Các quốc gia sau đây tất cả thành viên đều đoạt huy chương
vàng:
Trung Quốc, 15 lần: vào các năm 1992, 1993,
1997, 2000, 2001, 2002, 2004, 2006, 2009, 2010, 2011, 2019, 2021, 2022 và 2023.
Hoa Kỳ, 4 lần: vào các năm 1994, 2011,
2016 và 2019.
Hàn Quốc, 3 lần: vào các năm 2012, 2017 và
2019.
Nga, hai lần: vào các năm 2002 và 2008.
Bulgaria, một lần: vào năm 2003.
-
Kết quả các quốc gia ASEAN:
|
|
Country |
Appearances |
Gold |
Silver |
Bronze |
Honorable mentions |
|
1 |
Việt Nam |
48 |
69 |
117 |
85 |
3 |
|
2 |
Thái Lan |
36 |
34 |
70 |
53 |
26 |
|
3 |
Singapore |
37 |
25 |
74 |
74 |
23 |
|
4 |
Indonesia |
36 |
6 |
30 |
61 |
37 |
|
5 |
Malaysia |
30 |
6 |
18 |
35 |
43 |
|
6 |
Philippines |
36 |
4 |
20 |
43 |
32 |
|
7 |
Căm-pu-chia |
9 |
0 |
0 |
0 |
14 |
|
8 |
Myanmar |
7 |
0 |
0 |
0 |
11 |
|
9 |
Brunei |
1 |
0 |
0 |
0 |
0 |
|
10 |
Lào |
1 |
0 |
0 |
0 |
0 |
Timor-Leste chưa tham dự lần nào. Brunei tham dự một lần duy
nhất vào năm 2000. Lào tham dự một lần duy nhất vào năm 2016.
-
Xếp hạng cao nhất mà đoàn Việt Nam đạt được là đứng thứ ba
toàn đoàn vào các năm 1999, 2007 và 2017. Năm 1974, năm lần đầu tiên Việt Nam
tham gia, Việt Nam xếp thứ 13/18 toàn đoàn. Năm 2024, Việt Nam xếp thứ 33/108
toàn đoàn.
-
Việt Nam đăng cai tổ chức 1 lần vào năm 2007. Trong các nước
ASEAN có Thái Lan đăng cai tổ chức 1 lần vào năm 2015.
Ⓓ. “Máy” thi IMO, AIME.
Trong một lần
nhàn đàm trước (bài post ngày 27-3-2022), tôi đề cập đến việc máy đi thi lập trình. Máy mà đi thi lập trình thì “đúng nghề”
rồi, đúng không ạ? Lần này chúng ta nói đến chuyện máy đi thi IMO. Thật ra thì
“máy” chưa bao giờ được ban tổ chức IMO cho thi cả. Đây là chúng ta nói đến việc
“máy” giải các bài toán của IMO hoặc giải các bài toán nhằm tuyển chọn các thí
sinh tham dự IMO.
·
Ngày
25/7/2024, DeepMind (thuộc Google) đăng bài “AI achieves silver-medal standard
solving International Mathematical Olympiad problems” (AI đạt chuẩn huy chương bạc khi giải
bài toán IMO). Mô hình AlphaProof của họ giải được 2 bài đại số (Bài 1
và Bài 2) 1 bài số học (Bài 6 là bài khó nhất mà chỉ 5 thí sinh giải được)
trong kỳ thi IMO năm 2024. Mô hình AlphaGeometry 2 giải được bài hình học
(Bài 4). Như vậy, “máy” giải được tổng cộng 4 bài, mỗi bài 7 điểm nên tổng số
điểm mà “máy” đạt được là 4*7 = 28 điểm, đạt điểm huy chương bạc “tuyệt đối”.
Huy chương vàng là từ 29 điểm trở lên.
·
Ngày
12/9/2024, OpenAI, trong bài giới thiệu mô hình o1-preview, cho biết là mô hình này nằm trong tốp
đầu 500 thí sinh thi Olympic Toán Hoa Kỳ. Khác với AlphaProof và AlphaGeometry
giải toán IMO, o1-preview giải 15 bài toán trong kỳ thi “American Invitational Mathematics
Examination (AIME)
” (Kỳ thi Toán học Mời dự
tuyển của Mỹ). o1-preview giải được 13.9/15 bài, tương đương 93%.
-
Để cho “fair”
(công bằng) cũng cần phải nói rõ thêm một vài chi tiết:
Thi IMO. Theo
quy định của ban tổ chức, các thí sinh giải 6 bài trong 2 phiên, mỗi phiên 4 tiếng
rưỡi đồng hồ. Tuy nhiên, theo bài báo của DeepMind thì giải pháp của họ giải được
1 bài chỉ trong vòng mấy phút nhưng các bài còn lại máy họ phải chạy trong 3
ngày liền. Hơn nữa, các giải pháp của họ (AlphaProof và AlphaGeometry) không tự
“đọc hiểu” được đề bài mà người của họ phải “dịch” đề bài sang ngôn ngữ hình thức
(xem mục Ⓔ. tiếp theo). Như vậy, xét theo quy chế
thi của IMO thì có thể nói “Máy” đã phạm quy! 😊
Thi AIME. Trong
kỳ thi AIME năm 2024, nếu o1 chỉ nộp một mẫu duy nhất (đưa ra duy nhất 1 đáp án
cho mỗi câu hỏi) thì đạt được kết quả đúng là 11.1/15 bài, tương đương 74%. Nếu
máy đưa ra 64 mẫu (64 đáp án cho mỗi câu hỏi) rồi chọn đáp án đồng thuận đúng
thì đạt được kết quả đúng là 12.5/15 bài, tương đương 83%. Chỉ khi lấy 1.000 mẫu
cho mỗi câu hỏi thì o1 mới đạt được kết quả đúng là 13.9/15 bài, tương đương
93%.
Trong bài báo, họ không nói rõ thế nào là kết quả đồng thuận đúng. Căn cứ vào một
số Benchmark, cách tính kết quả đồng thuận đúng có thể hiểu như sau. Giả thiết
có N mẫu đáp án và có c mẫu đáp án đúng (c
≤ N) thì kết quả đồng thuận đúng là c/N.
Ⓔ. “Máy” giải toán.
Tất nhiên,
chúng ta tò mò tự hỏi: “Máy” giải toán bằng cách nào? Đây là vấn đề hóc búa đối
với Machine Learning vì các bài toán được diễn tả bằng ngôn ngữ ký hiệu
(Symbolic Language) còn “Máy” (Machine Learning) chỉ chạy với các
con số.
DeepMind có 2
giải pháp tách rời nhau, đó là AlphaProof và AlphaGeometry.
AlphaProof.
Đại ý: hệ thống
“tự huấn luyện” để chứng minh các mệnh đề toán học bằng ngôn ngữ hình thức Lean. Sau đó, họ kết hợp Gemini với AlphaZero để giải bài toán.
Ngôn ngữ hình
thức (như Lean) có một ưu điểm đặc biệt là người ta có thể dùng nó để chứng
minh tính đúng đắn của một lập luận toán học. Lean có thư viện Mathlib với khoảng
85,000 định nghĩa và 160,000 mệnh đề toán học đã được chứng minh.
Giải pháp chung
của AlphaProof:
·
Khi
gặp một bài toán, AlphaProof sử dụng Gemini để “dịch” bài toán từ “ngôn ngữ
tự nhiên” sang “ngôn ngữ hình thức” Lean.
·
Tiếp
theo, AlphaProof tạo sinh ra một loạt các ứng viên cho lời giải. Sau đó, nó so
sánh lời giải vừa tạo sinh với thư viện Mathlib để chứng minh hoặc bác bỏ lời
giải đó.
·
Đối
với các lời giải được chứng minh, nó bổ sung lời giải vào hệ thống để tăng thêm
sức mạnh cho chính nó sau này.
Trước khi thi
IMO, AlphaProof đã được pre-training (tiền huấn luyện) với khoảng 1 triệu
bài toán (xem hình vẽ ở dưới). Đến khi thi, AlphaProof vẫn sử dụng vòng lặp tự
huấn luyện với dữ liệu đầu vào là các bài toán thuộc đề thi của IMO2024.
⚠
Chú ý: không có gì đảm bảo rằng vòng lặp của AlphaProof tìm ra lời
giải.
|
Quy trình vòng lặp huấn luyện AlphaProof bằng Reinforcement Learning.
·
Người
ta tập hợp khoảng 1 triệu bài toán được trình bày bằng ngôn ngữ tự nhiên (Informal
problems) ·
Tiếp
theo, người ta “dịch” (Formalizer network) các bài toán đó sang Lean,
được khoảng 100 triệu bài toán trong ngôn ngữ hình thức (Formal problems) ·
Người
ta dùng hệ thống AlphaZero để tự huấn luyện: tự tạo sinh các biến thể (Formal
proofs) rồi tìm đáp án (chứng minh hoặc bác bỏ) cho đến khi một lời giải
đầy đủ được tìm thấy |
-
AlphaGeometry.
Ngày 17/1/2024,
DeepMind giới thiệu giải pháp AlphaGeometry. Họ quảng bá rằng AlphaGeometry có thể
giải được các bài toán hình học trong đề thi IMO: 25/30 bài trong khung thời
gian quy định. Cùng lúc đó họ cũng đăng bài báo trên tạp chí Nature. Bản
AlphaGeometry mà DeepMind dùng để giải Bài 4 trong đề thi IMO2024 là bản nâng cấp,
họ gọi bản này là AlphaGeometry 2.0, còn bản đăng ngày 17/1/2024 là
AlphaGeometry 1.0.
AlphaGeometry
thuộc lớp phần mềm chứng minh định lý hình học một cách tự động (Automated Geometry
Theorem Prover). Chúng ta có thể hình dung thế này: khi cho (⟪Giả thiết⟫, ⟪Kết luận⟫) thì AlphaGeometry sẽ tạo sinh ra phần ⟪Chứng minh⟫:
[⟪Giả thiết⟫, ⟪Kết luận⟫] → [AlphaGeometry] → [⟪Chứng minh⟫]
Hẳn nhiên, tất
cả chúng ta đều đã quá quen với hình học: điểm, đường thẳng, đường song song,
đường vuông góc, trung điểm, nội tiếp, đường tròn, tam giác đồng dạng,… Có một
điểm gây khó cho phần lập trình là tất cả các phần ⟪Giả thiết⟫, ⟪Kết
luận⟫, ⟪Chứng minh⟫ đều được diễn tả bằng ngôn ngữ ký hiệu.
AlphaGeometry tự
giới hạn mình trong hình học phẳng (Euclidean plane geometry), đồng thời
loại trừ các chủ đề như bất đẳng thức hình học và hình học tổ hợp. Họ tiếp cận
theo hướng mã hóa các ký hiệu hình học thành Deductive Database (cơ sở dữ liệu suy diễn, viết tắt là DD).
Để đi đến ⟪Kết
luận⟫, DD
xuất phát từ tập hợp các ⟪Giả thiết⟫
suy diễn qua các bước trung gian và cuối cùng đi đến ⟪Kết luận⟫. Ví dụ, phải cần đến n bước trung gian
để chứng minh ⟪Kết luận⟫,
chúng ta có thể hình dung quy trình suy diễn của DD như sau:
⟪Giả
thiết⟫ ⇒ ⟪Kết luận 1⟫ ⇒
⟪Kết luận 2⟫ ⇒
… ⇒ ⟪Kết luận n⟫ ⇒ ⟪Kết luận⟫
(Thực tế,
AlphaGeometry sử dụng “cây suy diễn” chứ không phải “phẳng” như minh họa trên –
tôi đơn giản hóa cho dễ hiểu.)
Ngoài DD,
AlphaGeometry còn sử dụng một bộ quy tắc nữa có tên là quy tắc đại số, đặt tên
là AR (algebraic rules).
Vì
sao phải thêm quy tắc đại số AR?
Theo bài báo giải thích thì lý do là vì các bài toán hình học có độ khó ở mức
IMO thường liên quan đến phương pháp trong hình học gọi là “angle/ratio/distance
chasing”. Tôi tạm dịch là “phương pháp đuổi góc/đuổi tỷ số/đuổi khoảng
cách”. Các phương pháp này có liên quan đến tính toán ở mức đơn giản. Ví dụ, hai
góc phụ nhau có tổng bằng 90 độ, hai góc bù nhau có tổng bằng 180 độ.
➡ Khởi tạo dữ liệu.
AlphaGeometry khởi
tạo dữ liệu huấn luyện bằng cách tạo sinh ra một tỷ biểu đồ ngẫu nhiên của các
đối tượng hình học và suy ra toàn bộ các mối quan hệ giữa các điểm và đường
trong mỗi biểu đồ. Từ mỗi biểu đồ vừa được tạo sinh, người ta áp dụng các quy tắc
suy diễn để được một “cây suy diễn” và tạo dựng toàn bộ các ⟪Kết luận⟫ có thể có từ biểu đồ này (⟪Kết luận⟫ chính là các nút “nhánh” của “cây”). Từ
đó, người ta tạo ra tất cả các ⟪Chứng
minh⟫ có thể có
từ mỗi biểu đồ. (⟪Chứng
minh⟫ là dãy
duy diễn xuất phát từ nút gốc đi đến một nút “lá” của “cây”). Sau khi lọc, khử
các mẫu trùng lặp hoặc hình đồng dạng, người ta được khoảng 100 triệu mẫu. Chú
ý rằng tất cả các mẫu này đều có cấu trúc: (⟪Giả thiết⟫, ⟪Kết
luận⟫, ⟪Chứng minh⟫). Với số lượng mẫu khổng lồ như vậy,
người ta kỳ vọng các bài toán trong thực tế sẽ giống hoặc tương tự như mẫu tạo
sẵn.
➡ Huấn luyện sử dụng mô hình Transformer.
Sau khi có dữ
liệu ban đầu 100 triệu mẫu, họ sử dụng một LLM (trên nền mô hình Transformer) để
huấn luyện. Người ta xếp một cách tuần tự ‘⟪Giả thiết⟫, ⟪Kết
luận⟫, ⟪Chứng minh⟫’, … làm dữ liệu đầu vào cho LLM. Sau
khi huấn luyện thì LLM sẽ tạo sinh ra ⟪Chứng
minh⟫ với điều
kiện là (⟪Giả thiết⟫, ⟪Kết
luận⟫).
➡ Kết hợp LLM với Symbolic Engine.
Ở mức tổng
quan, việc tìm ⟪Chứng minh⟫ là sự phối hợp nhịp nhàng giữa LLM và Symbolic
Deduction Engine (bộ máy suy diễn ký hiệu). Việc tìm (Search) lời giải
là một vòng lặp với một trong 2 điều kiện dừng:
·
Nếu
“bộ máy suy diễn ký hiệu” tìm ra ⟪Kết
luận⟫ thì việc
chứng minh hoàn tất – dừng.
·
Nếu
số vòng lặp lớn hơn một con số N nào đó – dừng – không tìm ra lời giải.
▼ Bên lề: Tác giả của
AlphaGeometry 1.0 là ai?
Bài viết trên blog của DeepMind với
tiêu đề “AlphaGeometry:
An Olympiad-level AI system for geometry” ngày 17/01/2024
có nhóm tác giả là Trieu Trinh and Thang Luong. Đây chính là TS. Trịnh Hoàng
Triều và TS. Lương Minh Thắng – người Việt.
Bài trên tờ Nature với tiêu đề “Solving
olympiad geometry without human demonstrations”
ngày 17/01/2024 có nhóm tác giả gồm Trieu H. Trinh, Yuhuai Wu, Quoc V. Le, He
He & Thang Luong. Ngoài Trieu H. Trinh (Trịnh Hoàng Triều) và Thang Luong (Lương
Minh Thắng) chúng ta còn thấy Quoc V. Le: đây chính là TS. Lê Viết Quốc – người
Việt.
Mở ngoặc ⦅
TS. Lê Viết Quốc là người đồng sáng
lập Google Brain cùng với các huyền thoại về Machine Learning như Jeff
Dean, Andrew Ng (Ngô Ân Đạt).
Đóng ngoặc ⦆
Căn cứ theo thứ tự các tác giả trong
2 bài báo nói trên thì tôi đoán TS. Trịnh Hoàng Triều là tác giả chính của
AlphaGeometry 1.0.
▲ Hết bên lề
-
o1-preview.
OpenAI không
nói rõ là o1-preview giải toán bằng cách nào. Họ chỉ nói chung chung là kết hợp
Chain of Thought với Reinforcement Learning. Vì OpenAI không nói
rõ nên tôi “đoán mò” thông qua các bài báo nói về Chain of Thought và Reinforcement
Learning.
➡ Chain of Thought (CoT)
Bắt chước
phương pháp suy luận của con người CoT chia một vấn đề phức tạp thành nhiều vấn
đề đơn giản, lần lượt giải các vấn đề đơn giản, sau cùng tổng hợp kết quả của
các vấn đề đơn giản để đưa ra lời giải cuối cùng. Trong Prompt Engineering,
nếu người dùng muốn sử dụng CoT thì phải yêu cầu LLM thực hiện (nói rõ trong Prompt).
Đây được gọi là phương pháp sử dụng CoT một cách thủ công. Tôi đoán là trong
o1-preview họ đã tự động hóa CoT. Ví dụ, trong việc giải các bài toán phổ
thông, đầu tiên người ta nhận dạng bài toán, tìm CoT tương ứng cho bài toán đó,
rồi “áp” CoT đó trong lập luận của mình để giải. Tập hợp các CoT thuộc nhóm “giải
các bài toán” đã được huấn luyện từ trước (Pre-training).
➡ Reinforcement Learning (RL)
Tôi xin phép
“diễn nôm” RL: RL là một lĩnh vực con của Machine Learning, nghiên cứu
cách thức một Agent trong một môi trường nên chọn thực hiện các hành động
(Action) theo một Policy nhằm cực đại hóa một khoản thưởng (Reward)
nào đó về lâu dài. Có thể nói một cách đơn giản cho dễ hiểu: RL “mày mò” tìm đường
tối ưu để đi đến mục tiêu.
-
Tóm lại: thông qua RL, o1-preview học cách mài
giũa CoT (chuỗi suy nghĩ) và tinh chỉnh các Policy (chiến lược) mà nó sử
dụng. Nó học cách nhận ra và sửa lỗi của mình. Nó học cách chia nhỏ các bước
khó thành các bước đơn giản hơn. Nó học cách thử một cách tiếp cận khác khi
cách tiếp cận hiện tại không hiệu quả. Quá trình này làm cho o1 khả năng lập luận
của nó được cải tiến theo thời gian.
Ⓕ. Suy ngẫm chậm.
①
Liệu
có mối liên hệ nào giữa giỏi Toán và giỏi Machine Learning không? Tôi
cho rằng là có, nhưng không rõ tương quan đạt đến mức nào.
②
Qua
hiện tượng phát triển một cách đột biến của LLM, rồi qua các ví dụ về cách giải
toán của AlphaProof và AlphaGeometry, tôi có cảm nhận là khi lượng đổi
thì chất đổi. Cách đây không lâu (cuối năm 2022, đầu năm 2023), khi
ChatGPT mới ra đời, ít người đoán là LLM có khả năng lập luận. Tuy nhiên, với
hàng loạt LLM xuất hiện gần đây, thực tế đang nói lên điều ngược lại.
③
Khi
học toán phổ thông, ngoài kỹ năng lập luận logic, thường chúng ta phải “thuộc”
nhiều dạng bài toán. Khi gặp một bài toán thuộc dạng chúng ta đã biết, thì khỏi
phải suy nghĩ, chúng ta chấp bút làm ngay. Tôi cảm nhận là AlphaProof và
AlphaGeometry tiếp cận theo hướng này. Chúng “nạp” kiến thức càng nhiều càng tốt
và khi gặp một bài toán thuộc loại chúng đã làm quen thì trong nháy mắt chúng
cho ngay lời giải.
-
Trân trọng
& vui nhã
(_/)
( •_•)
/ >☕
LeVanLoi
Không có nhận xét nào:
Đăng nhận xét