Ⓐ. Đề dẫn.
Ⓑ. 12 days of Shipmas
Ⓒ. Suy ngẫm chậm.
~
Để giúp anh/chị
quyết định có đọc tiếp hay không, tôi xin phép cung cấp các thông tin liên quan
đến bài post này như sau:
·
Chủ
đề: Machine Learning
·
Tính
thời sự: tháng 12/2024
·
Thời
gian đọc: 10 phút đọc
bài post (nếu xem toàn bộ 12 video thì mất khoảng 3 tiếng đồng hồ)
Ⓐ. Đề dẫn.
Trong văn hóa
người Anh, vào dịp Giáng sinh có bài hát với tựa đề “The Twelve Days of Christmas” (tạm dịch: 12 ngày Giáng sinh). Trong
bài hát, mỗi một ngày, “”ca sỹ” được “người yêu” tặng một món quà. Năm nay,
trong chiến dịch quảng bá sản phẩm, công ty OpenAI đã “nhại” tiêu đề bài hát
này thành “12 days of Shipmas”. Tiêu đề này có ý chơi chữ biến “Christmas”
thành “Shipmas” – về mặt phát âm nghe từa tựa như nhau. Từ “Ship” có
nghĩa là “Giao/Giao hàng”, “mas” là hậu tố của “Christmas”. Vì các loại “hàng”
trong dịp Giáng sinh phần lớn là quà, nên tôi tạm dịch tiêu đề đó thành “12
ngày giao quà Giáng sinh”. Và quả thật đúng thế. Bắt đầu từ ngày 5/12/2024,
mỗi một ngày trong tuần (từ thứ Hai đến thứ Sáu) OpenAI đã “giao” cho công
chúng một món quà “AI”. Mời anh/chị cùng tôi điểm lại “12 days of Shipmas”.
-
Ⓑ.12 days of Shipmas.
Day 1: Thứ Năm ngày 5/12/2024
Video: o1 & ChatGPT Pro
Trong ngày đầu tiên, OpenAI giới
thiệu phiên bản đầy đủ o1 – mô hình được cho là có khả năng lập luận (cho
các thuê bao ChatGPT Plus & Team). Ngoài văn bản, mô hình o1 còn có “thị
giác”, có khả năng phân tích và “hiểu” một cách chi tiết các bức ảnh. O1 có
thời gian suy nghĩ nhanh hơn o1-preview (ra mắt hồi tháng 9/2024) và mắc ít lỗi
hơn.
Ngoài ra, họ còn giới thiệu loại
thuê bao mới có tên là ChatGPT Pro, giá thuê bao là 200$/tháng. Giá này cao gấp
10 lần thuê bao ChatGPT Plus là 20$/tháng. ChatGPT Pro có thể truy cập và sử
dụng không giới hạn các mô hình o1, GPT-4o và có chế độ “Advanced Voice”: nghe
hiểu.
Day 2: Thứ Sáu ngày 6/12/2024
Video: OpenAI's Reinforcement Fine-Tuning
Research Program
Ngày 2 có vẻ hơi nặng về kỹ thuật.
Họ giới thiệu một phương pháp tinh chỉnh mới có tên là Reinforcement
Fine-Tuning (RFT). Chúng ta đã quen với kỹ thuật tinh chỉnh có giám sát: Supervised
Fine-Tuning (SFT). RFT được cho là vượt trội SFT. Đại ý của RFT: cho một
bài toán, mô hình đi tìm tất cả các lời giải, sắp xếp chúng theo thứ tự: [tốt
nhất, tốt nhì, …]. Dãy thứ tự lời giải này sau đó được so với đáp án trên thực
tế và được chấm điểm (grader). Bằng phương pháp tinh chỉnh này người
dùng có thể tăng cường năng lực lý luận của mô hình.
Video cho biết ông Justin Reese đến từ
Berkeley Lab đã thử nghiệm RFT để nghiên cứu các bệnh di truyền hiếm gặp, trong
khi Thomson Reuters đã tạo ra một mô hình o1-mini chuyên biệt cho trợ lý ảo về pháp
lý CoCounsel AI.
Lúc đầu OpenAI dự định cho ra mắt
RFT vào đầu năm 2024 nhưng cho đến thời điểm này họ chỉ cho tiếp cận một cách
hạn chế.
Day 3: Thứ Hai ngày 9/12/2024
Video: Sora
Ngày 3, OpenAI giới thiệu mô hình
Sora: text-to-video (dành cho thuê bao ChatGPT plus và ChatGPT Pro qua một
website riêng là sora.com). Về đại thể: đầu vào của Sora là một đoạn văn bản và
đầu ra là một đoạn video clip. Trên thực tế, người dùng phải điều chỉnh nhiều
tham số, sau đó Sora mới cho ra được đoạn video clip.
Sora được giới thiệu lần đầu (preview)
vào tháng 2/2024. OpenAI hạn chế các video được tạo ra có yếu tố con người vì
sợ bị lạm dụng. Thuê bao ChatGPT Plus (20$/tháng) có thể tạo 50 video/tháng,
với độ phân giải chủ yếu là 480p (852×480 pixels), số lượng video được phép tạo
ra ít hơn nếu dùng độ phân giải 720p (1280x720 pixels). Thuê bao ChatGPT Pro
(200$/tháng) có thể tạo video có độ phân giải cao hơn với thời lượng dài hơn (max
20 giây).
Day 4: Thứ Ba ngày 10/12/2024
Video: Canvas
Ngày 4, OpenAI chuyển phiên bản beta
Canvas (giới thiệu hồi tháng 10/2024) sang phiên bản chính thức cho toàn bộ
người dùng ChatGPT, kể cả người dùng miễn phí. Nghĩa gốc của từ Canvas là khung
vẽ cho họa sỹ. Trong ngữ cảnh kỹ thuật số, chúng ta có thể hiểu Canvas là “vùng
bản thảo”. Canvas giúp người dùng soạn thảo bài viết hoặc lập trình.
Khi soạn thảo bài viết, Canvas có
các chức năng cơ bản như in đậm, in nghiêng hoặc chọn Style (Heading 1, Heading
2, …) tương tự như khi chúng ta soạn thảo bằng phần mềm Word của Microsoft
nhưng ở mức độ đơn giản hơn. Về nội dung bài viết, sau khi chúng ta đưa vào Canvas,
Canvas sẽ tự động chuyển đổi nội dung thành một đoạn văn mới, vẫn giữ các ý
chính. Nội dung được Canvas sửa đổi thường được sắp xếp một cách có cấu trúc
phân cấp, lời văn trôi chảy hơn, …
Lập trình: Canvas cộng tác giúp
chúng ta rà duyệt (review code), thêm phần lưu ký vết (logs) bằng
cách thêm lệnh “print”, tự động thêm thuyết minh (comments), hỗ trợ gỡ
rối (fix bugs), chuyển ngữ giữa các ngôn ngữ lập trình gồm JavaScript,
TypeScript, Python, Java, C++ hoặc PHP. Xem thêm: Introducing
canvas.
Day 5: Thứ Tư ngày 11/12/2024
Video: ChatGPT in Apple Intelligence
Ngày 5, OpenAI thông báo là ChatGPT
được tích hợp vào Apple Intelligence cho các máy iPhone, iPad và Mac đời
mới gần đây. Không phải máy nào hoặc hệ điều hành (HĐH) nào của Apple cũng cài
được ChatGPT:
·
iPhone: iPhone 8 trở lên; HĐH iOS
16.1 trở lên.
·
iPad: HĐH iPadOS 16.4 trở lên.
·
Mac: HĐH Mac 14 trở lên; Chỉ áp dụng
cho máy Apple Silicon (M1, M2, M3) – Nghĩa là máy Mac được sản xuất bằng chip
Intel sẽ không cài được (😊).
Trong video, chúng ta thấy OpenAI
demo bằng cách hỏi Siri. Khi Siri thấy vấn đề “phức tạp” thì Siri “nhờ” ChatGPT
giải quyết. Khi ChatGPT được kích hoạt thì máy lúc đó có các tính năng của
ChatGPT. Trong demo, chúng ta thấy máy iPhone sử dụng camera để quay một đoạn
video ngắn, nhận dạng được video và có thể lập trình theo yêu cầu.
Day 6: Thứ Năm ngày 12/12/2024
Video: Advanced voice with video &
Santa mode
Ngày 6, OpenAI đưa thêm 2 tính năng
mới liên quan đến chế độ Advanced Voice (nghe hiểu): đó là chế độ “video
calling” (gọi video) và giọng nói của Ông già Noel (Santa Claus).
Video calling:
người dùng sử dụng điện thoại, bật chế độ video, sau đó vừa “quay phim” vừa hội
thoại với ChatGPT. Trong bản demo, ChatGPT có thể ghi nhớ các khung cảnh khi
quay phim, có thể nhận dạng ảnh khi hội thoại cùng người dùng. Chế độ “video
calling” chỉ có ở thuê bao ChatGPT Plus và ChatGPT Pro.
Giọng nói của Ông già Noel: Trong
khoảng thời gian nghỉ lễ Giáng sinh (năm 2024), OpenAI cho xuất hiện một biểu
tượng cạnh Advanced Voice là bông tuyết - tượng trưng cho Ông già Noel.
Người dùng có thể hội thoại với Ông già Noel khi kích chuột vào bông tuyết này.
Day 7: Thứ Sáu ngày 13/12/2024
Video: Projects in ChatGPT
Ngày 7, OpenAI giới thiệu chức năng
Projects. Projects cho phép người dùng sắp xếp các cuộc hội thoại và các file
thành từng “ngăn” (folder) cho gọn gàng, ngăn nắp.
Chức năng Projects chỉ dành cho các
thuê bao ChatGPT Plus, ChatGPT Team và ChatGPT Pro.
Day 8: Thứ Hai ngày 16/12/2024
Video: Search
Ngày 8, OpenAI giới thiệu chức năng Search
(tìm kiếm). Kể từ ngày 16/12/2024, chức năng Search hoàn toàn miễn phí cho
người dùng. Chúng ta có thể tìm kiếm bằng cách gõ văn bản hoặc dùng giọng nói.
Khi dùng giọng nói (voice mode), phiên bản trên web có hạn mức sử dụng
nên các thuê bao miễn phí có thể không nhìn thấy chế độ giọng nói. Chú ý rằng
app ChatGPT (cài trên PC/Laptop/Mobile) có voice mode mặc dù bản trên
Web có thể không có.
Day 9: Thứ Ba ngày 17/12/2024
Video: OpenAI o1 and new tools for
developers
Ngày 9, OpenAI chính thức ra mắt mô
hình o1 cho các nhà phát triển ứng dụng (application developers) gồm:
·
Chức năng API: function calling
(gọi hàm ngoài), developer messages (chỉ định câu lệnh cho mô hình tuân
theo), Structured Outputs (chỉ định dạng thức đầu ra), và vision
capabilities (xử lý đầu vào là ảnh).
·
Cập nhật Realtime API: Hội
thoại thời gian thực (với độ trễ thấp: low-latency).
·
Hỗ trợ chuẩn WebRTC:
Hỗ trợ giao tiếp bằng chuẩn WebRTC (video, giọng nói).
·
Preference Fine-Tuning:
Tinh chỉnh mô hình bằng so sánh trải nghiệm người dùng.
·
Giới thiệu SDK cho ngôn ngữ lập
trình Go và Java (phiên bản Beta).
Day 10: Thứ Tư ngày 18/12/2024
Video: 1-800-CHATGPT
(1-800-242-8478)
Ngày 10, OpenAI giới thiệu cách gọi
dịch vụ 1800 miễn phí ở Hoa Kỳ (số 1-800-242-8478). Trong demo, chúng thấy
người dùng có thể gọi đến ChatGPT bằng smartphone, bằng một điện thoại di động
loại cũ hoặc thậm chí bằng một điện thoại quay số. Khách quốc tế ngoài Hoa Kỳ
có thể dùng Whatsapp (ứng dụng của Meta) để hội thoại bằng tin nhắn.
Day 11: Thứ Năm ngày 19/12/2024
Video: Work with apps
Ngày 11, OpenAI demo ChatGPT trên
Desktop phối hợp với các app khác. Họ demo trên máy Mac (Apple) cách ChatGPT
“cộng tác” với các app khác. Trong phần demo đầu, chúng ta thấy họ mở 2 app
song song là Warp và ChatGPT trên Mac. Trong ChatGPT chúng ta nhìn thấy có 4
tùy chọn là Warp, Notion, Notes, Xcode. Khi người dùng chọn Warp thì lúc đó
ChatGPT “nhìn thấy” tất cả các diễn biến của app này. Vì vậy, người dùng có thể
đặt câu hỏi hoặc yêu cầu ChatGPT thực hiện các phép toán liên quan đến Warp.
Như vậy, theo một nghĩa nào đó, ChatGPT đang tiến gần đến việc “điều khiển” các
app trên máy để bàn! Tất nhiên, người dùng phải cấu hình để cho phép ChatGPT
thực hiện việc đó.
Day 12: Thứ Sáu ngày 20/12/2024
Video: o3 preview & call for safety
researchers
Ngày 12, OpenAI thông báo cho cộng
đồng biết là mô hình tiếp theo o1 sẽ là o3. (Chú ý là họ nhảy một số, không có
o2 vì o2 trùng tên với O2
– là công ty cung dịch vụ viễn thông của Anh.) Họ chưa cho ra mắt mô hình o3 vì
họ còn phải kiểm thử độ an toàn của mô hình (safety test) – họ kêu gọi
cộng đồng tham gia kiểm thử. Trong thông báo, họ cho biết đã test o3 với một số
benchmark.
·
Về lập trình: o3 đạt 71.7% của
benchmark SWE-bench
Verified,
·
Về thi lập trình trên Codeforces
o3 đạt Elo 2700 (nằm trong top 200 lập trình viên giỏi nhất thế giới),
·
Về giải toán AIME
đạt 96.7%,
·
Về kiểm thử kiến thức sinh học, vật
lý và hóa học GPQA
Diamond o3 đạt 87.7%. Để so sánh: nghiên cứu sinh tiến sỹ đạt
khoảng 70%.
Ngoài ra, o3 được test với 2
benchmark đặc biệt:
·
EpochAI: Đây là Benchmark về Toán
cực khó, các nhà toán học phải mất nhiều giờ, thậm chí là nhiều ngày mới giải
được. o3 đạt 25% trong lúc tất cả các mô hình khác chưa có mô hình nào vượt 2%.
·
ARC-AGI: Benchmark về lập luận dùng
để đo độ AGI (Artificial General Intelligence – trí tuệ nhân tạo tổng
quát). Khi kiểm thử, o3 đạt 87.5% trong lúc con người chỉ đạt khoảng 85%.
Cũng trong ngày 12, OpenAI đăng bài
nghiên cứu với tựa đề “deliberative
alignment” – tạm dịch là “điều chỉnh có cân nhắc”.
Ⓒ. Suy ngẫm chậm.
①
OpenAI
đang đầu tư rất mạnh vào đa phương thức: ra mắt mô hình o1, phát triển Sora (tạo
sinh “văn bản” → “video”), tương tác giọng nói với cuộc gọi video, … Các demo cho
thấy họ hướng tới các mô hình có thể xử lý một cách liền mạch, giao thoa mềm mại
giữa các phương thức văn bản, hình ảnh, giọng nói và video.
②
ChatGPT
ra mắt ngày 30/11/2022, GPT-4 ra mắt tháng 3/2023, GPT-4o ra mắt tháng 5/2024,
o1-preview tháng 9/2024, o1 tháng 12/2024. Thêm nữa: trong video của Day 12,
OpenAI cho biết là o3-mini sẽ rat mắt cuối tháng 1/2025 và tiếp đó là o3. Họ
liên tục cho ra mắt các mô hình mới với khả năng vượt trội, đa phương thức. Anh/chị
có cảm nhận là AGI đang đến rất gần không?
③
Cái
gây ấn tượng và có phần ngạc nhiên là khả năng lập luận (reasoning) của
LLM. Theo tôi thì LLM bây giờ không còn đơn thuần chỉ là Autoregressive
nữa. Tôi đoán mò chắc là họ kết hợp giữa Autoregressive với Reinforcement
Learning (RL) & Agents. Các Agents “tỏa” đi tìm “lời giải”
(bằng cách sử dụng thuật toán RL). Sau đó tại “đại bản doanh LLM”, “tổng chỉ
huy” sẽ tập hợp các “lời giải”, sắp xếp các lời giải theo thứ tự “điểm số”, tìm
điểm “tối ưu” và trả kết quả.
Đương
nhiên, đã là đoán mò thì chẳng có giá trị “hàn lâm” gì, chỉ là làm cho cốc cà
phê của anh/chị thêm phần “tasty”!
-
Trân trọng
& vui nhã
(_/)
( •_•)
/ >☕
LeVanLoi
Không có nhận xét nào:
Đăng nhận xét