Ⓐ. Đề dẫn.
Ⓑ. Thời gian và chi phí cần thiết để huấn luyện một LLM.
Ⓒ. Tương quan quốc tế.
Ⓓ. DeepSeek.
Ⓔ. Suy
ngẫm chậm.
~
Để giúp anh/chị
quyết định có đọc tiếp hay không, tôi xin phép cung cấp các thông tin liên quan
đến bài post này như sau:
·
Chủ
đề: Machine Learning
·
Tính
thời sự: tháng 2/2025
·
Thời
gian đọc: 8 phút, kể cả
thời gian uống cà phê (uống cà phê xong là đọc xong)
Ⓐ. Đề dẫn.
Giả thiết rằng
tự nhiên chúng ta “mơ” phát triển một LLM (Large Language Model). Một
cách tự nhiên, cái đầu tiên chúng ta phải tính đến là làm cái đó mất bao lâu và
tốn bao nhiêu tiền. Lần này xin mời anh/chị cùng đàm đạo về chủ đề này (và một
số thứ liên quan trực tiếp đến LLM).
Bài post này có
cấu trúc như sau. Đầu tiên, mời anh/chị tham khảo ước lượng về thời gian và chi
phí cần thiết để huấn luyện một LLM. Tiếp đó là một vài dữ liệu về mối tương
quan quốc tế trong việc tạo dựng và phát triển LLM. Phần cuối xin có một vài
bình luận về “hiện tượng” DeepSeek.
-
Dữ liệu trong
bài post này không có các tham chiếu cụ thể (tôi tìm kiếm trên Internet phối hợp
sử dụng chatbot). Nếu có các nhận định thì đó là do chủ quan của cá nhân. Tóm lại,
đây chỉ là bài đàm luận để giải trí đơn thuần, không có gì là “hàn lâm”
cả. 😊
Ⓑ. Thời gian và chi phí cần thiết để huấn luyện một LLM.
Huấn luyện một Mô hình Ngôn ngữ Lớn (LLM) là
một quá trình tiêu tốn rất nhiều tài nguyên, phụ thuộc vào kích thước mô hình,
kiến trúc, phần cứng và dữ liệu huấn luyện. Dưới đây là phân tích chi tiết về
thời gian và chi phí:
1. Thời gian huấn luyện
Thời gian huấn luyện một LLM phụ thuộc vào quy mô mô hình và
sức mạnh phần cứng. Dưới đây là ước tính sơ bộ:
- Mô
hình nhỏ (1–10 tỷ tham số)
- Thời
gian huấn luyện: Vài tuần đến một tháng
- Phần
cứng: Vài trăm GPU (NVIDIA A100, H100 hoặc TPU)
- Mô
hình tầm trung (10–100 tỷ tham số, như GPT-3)
- Thời
gian huấn luyện: 1 đến 3 tháng
- Phần
cứng: Hơn 1.000 GPU/TPU
- Mô
hình lớn (100+ tỷ tham số, như GPT-4, PaLM, LLaMA-3)
- Thời
gian huấn luyện: Từ 3 đến 6+ tháng
- Phần
cứng: Hơn 10.000 GPU/TPU
Ví dụ, GPT-3 (175 tỷ tham số) được huấn luyện
bằng hơn 10.000 GPU NVIDIA V100 trong vài tháng. GPT-4
có thể đã sử dụng GPU mạnh hơn (A100/H100) và thời gian huấn luyện lâu hơn.
2. Chi phí huấn luyện
Chi phí huấn luyện một LLM phụ thuộc vào:
- Chi
phí thuê GPU/TPU (hoặc tự xây dựng hạ tầng phần cứng)
- Điện
năng và hệ thống làm mát
- Lưu
trữ và xử lý dữ liệu
- Chi
phí nhân sự và bảo trì
Ví dụ thực tế:
- GPT-3
(175 tỷ tham số) → 4–12 triệu USD
- GPT-4
(lớn hơn GPT-3, đa phương thức - multimodal) → 50–100+
triệu USD
- PaLM
(540 tỷ tham số, Google) → 10–20 triệu USD
- LLaMA-2
(65 tỷ tham số, Meta) → 2–5 triệu USD
3. Yêu cầu phần cứng
Để huấn luyện một LLM, cần có:
- GPU/TPU
hiệu suất cao, ví dụ: NVIDIA A100, H100, hoặc TPU của Google
- Hệ
thống kết nối tốc độ cao (NVLink, InfiniBand) để giúp GPU giao tiếp
hiệu quả
- Lưu
trữ khổng lồ (hàng terabyte đến petabyte) để chứa dữ liệu huấn
luyện
- Hệ
thống làm mát và cung cấp điện tối ưu, vì hàng nghìn GPU tạo ra lượng
nhiệt khổng lồ
Ví dụ, GPT-4 có thể đã sử dụng 20.000–25.000 GPU
NVIDIA A100, mỗi GPU có giá từ 10.000–30.000 USD, làm cho chi
phí hạ tầng rất đắt.
4. Dữ liệu và tiêu thụ năng lượng
- Dữ
liệu huấn luyện: LLM được huấn luyện bằng dữ liệu thu thập được từ các
trang web, sách, bài báo nghiên cứu, mã nguồn, và dữ liệu tổng hợp –
có thể lên đến hàng nghìn tỷ token.
- Tiêu
thụ năng lượng: Huấn luyện một LLM có thể tiêu thụ hàng triệu
kWh, tương đương với lượng điện của một thành phố nhỏ trong
vài tháng.
Ví dụ, quá trình huấn luyện GPT-3 tiêu thụ 1.287 MWh,
phát thải 550 tấn CO₂ – tương đương với một chuyến bay
xuyên Đại Tây Dương cho hàng trăm hành khách.
5. Chi phí vận hành sau huấn luyện
Sau khi huấn luyện, chi phí khai thác (inference)
và bảo trì cũng rất cao:
- Chạy
một LLM trong thực tế có thể tiêu tốn hàng triệu USD mỗi tháng do
chi phí GPU/TPU.
- Inference
(trả lời câu hỏi) rất tốn kém vì mỗi truy vấn đều yêu cầu tính toán GPU/TPU.
- Để
duy trì độ chính xác, các mô hình phải được cập nhật liên tục với
dữ liệu mới.
6. Tóm tắt
- Mô
hình nhỏ → Vài tuần huấn luyện, 1–5 triệu USD
- Mô
hình trung bình (GPT-3) → 1–3 tháng huấn luyện, 4–12 triệu
USD
- Mô
hình lớn (GPT-4) → 3–6+ tháng huấn luyện, 50–100+ triệu
USD
- Yêu
cầu cơ sở hạ tầng lớn và tiêu thụ năng lượng khổng lồ
- Chi
phí vận hành và duy trì rất cao
Vì lý do này, chỉ những công ty công nghệ lớn (OpenAI,
Google, Meta, Microsoft) hoặc các tổ chức nghiên cứu có nguồn vốn lớn mới
có thể huấn luyện LLM tiên tiến nhất. Các nhóm nhỏ thường sẽ tinh
chỉnh (fine-tune) các mô hình mã nguồn mở thay vì huấn luyện từ đầu.
-
Ⓒ. Tương quan quốc tế.
Các công ty và tổ chức hàng đầu trong lĩnh vực LLM chủ yếu
là các tập đoàn công nghệ lớn, phòng thí nghiệm nghiên cứu AI và các tổ
chức được chính phủ hậu thuẫn. Dưới đây là danh sách các “ông lớn” theo khu
vực và mức độ ảnh hưởng của họ trong hệ sinh thái AI.
1. Hoa Kỳ
- OpenAI –
Nhà phát triển GPT-4, ChatGPT, Codex, DALL·E (được
Microsoft hỗ trợ)
- Google
DeepMind – Phát triển Gemini (trước đây là Bard),
GLaM, PaLM, LaMDA
- Anthropic –
Nhà sáng lập Claude AI (được Google và Amazon đầu tư)
- Meta
(Facebook AI) – Phát triển LLaMA
models (LLaMA 2, LLaMA 3)
- Microsoft –
Tích hợp mô hình OpenAI vào Copilot, phát triển dòng Phi
models
- NVIDIA –
Xây dựng Megatron-Turing NLG, hệ sinh thái AI dựa trên phần
cứng
- Cohere –
Nhà phát triển Command R, Embed models cho doanh nghiệp
- Mistral
AI – Dẫn đầu phong trào mã nguồn mở với Mistral
7B, Mixtral
- AI21
Labs – Nổi bật với Jurassic models, đối
thủ cạnh tranh của GPT
- Hugging
Face – Duy trì các mô hình mã nguồn mở và thư
viện Transformers
- xAI
– Phát triển Grok (hiện là Grok 3)
2. Trung Quốc
- Baidu – Ernie
models (Ernie 4.0)
- Alibaba
Cloud – Qwen (Qwen 2.5, Tongyi Qianwen)
- Huawei –
PanGu-Σ và các mô hình AI khác
- Tencent
AI Lab – Phát triển Hunyuan model
- Moonshot
AI – Kimi models (Kimi k1.5)
- ByteDance
(công ty mẹ của TikTok) – Doubao-1.5-Pro
- Viện
Hàn lâm AI Bắc Kinh (BAAI) – WuDao 2.0 (1.75
nghìn tỷ tham số)
3. Châu Âu & phần còn lại của thế giới
- Mistral
AI (Pháp) – Dẫn đầu phong
trào LLM mã nguồn mở, với Mistral 7B, Mixtral
- LightOn
(Pháp) – Phát triển Lyra-fr, Orion-fr dành
cho tiếng Pháp
- EleutherAI
(Anh/Toàn cầu) – Tạo dựng các mô
hình GPT-J, GPT-NeoX, Pythia
- LAION
(Đức) – Hỗ trợ OpenAssistant và AI mã
nguồn mở
- Aleph
Alpha (Đức) – Phát triển Luminous
models
- TII
(UAE – Các Tiểu Vương Quốc Ả Rập Thống Nhất) –
Phát hành Falcon 180B, Falcon 40B
- Sber
AI (Nga) – Phát triển GigaChat
- G42
(UAE) – Hợp tác với OpenAI & Microsoft để phát
triển LLM
Nhận định
- Hoa
Kỳ đang dẫn đầu trong lĩnh vực AI tiên
tiến, với sự thống trị của OpenAI, Google, Meta và Microsoft.
- Trung
Quốc đang bắt kịp rất nhanh, tập trung vào tự chủ
AI, với những “gã khổng lồ” như Alibaba, Baidu.
- Châu
Âu đang đẩy mạnh phong trào mã nguồn mở, với Mistral
AI & Hugging Face đóng vai trò quan trọng.
- Trung
Đông (UAE, Ả Rập Xê Út) đang đầu tư mạnh mẽ vào
AI, nhằm dẫn đầu AI trong khu vực.
-
Ⓓ. DeepSeek.
DeepSeek
AI là một cái tên
đang lên trong hệ sinh thái AI Trung Quốc, tập trung vào LLM
mã nguồn mở và mô hình nền tảng (foundation models).
DeepSeek hướng đến việc cạnh tranh với các LLM phương Tây như GPT-4
của OpenAI hay LLaMA của Meta, mang đến một lựa chọn thay
thế cho các nhà phát triển và doanh nghiệp ở Trung Quốc cũng như toàn cầu.
Những điểm nổi bật của DeepSeek AI
- DeepSeek-Coder – Một mô hình chuyên biệt
cho tạo mã lập trình, tối ưu hóa để hỗ trợ lập trình bằng AI.
- DeepSeek-LLM – Được phát triển để cạnh
tranh với LLaMA và Mistral AI, hướng đến cả ứng dụng AI tổng
quát lẫn chuyên sâu.
- Chiến lược mã nguồn mở – Không giống các công ty AI
Trung Quốc khác như Baidu (Ernie) hay Alibaba (Qwen),
DeepSeek đi theo hướng mã nguồn mở, giúp thu hút cộng đồng
nghiên cứu và doanh nghiệp.
- Tính mở rộng & hiệu suất cao – Tập trung vào tối
ưu hóa hiệu suất mô hình để có thể ứng dụng thực tế tốt hơn và mở
rộng dễ dàng.
- Vị thế chiến lược – Dù chưa lớn như
OpenAI hay Google, DeepSeek đang tự định vị là đối thủ AI mã
nguồn mở hàng đầu của Trung Quốc.
Nhận định
DeepSeek
AI là một trong những startup AI mã nguồn mở triển vọng nhất của Trung
Quốc, đang tạo ra sự cạnh tranh mạnh mẽ với LLaMA của Meta và
Mistral AI. Nếu tiếp tục phát triển hiệu quả và bền vững,
DeepSeek có thể trở thành một nhân tố quan trọng trong hệ sinh thái LLM
toàn cầu, đặc biệt tại châu Á và trong cộng đồng
AI mã nguồn mở.
-
Ⓔ. Suy ngẫm chậm 🤔
Giả thiết rằng
chúng ta có tiền để dựng một LLM. Tất nhiên, tiền chỉ là một phần của nguồn lực.
Tôi thấy có 2 điểm thách thức:
Tính khả thi
·
Cần
nguồn nhân lực có hiểu biết sâu về Machine Learning, về Data
Analytics, về vận hành hạ tầng phần cứng.
·
Cần
hạ tầng là các Data Centers với hàng ngàn, hàng chục ngàn (thậm chí là
hàng trăm ngàn) GPU/TPU.
·
Có
một nguồn điện dồi dào, tương đương với nguồn điện cho một thành phố (nhỏ).
Tính cạnh tranh
·
Sau
khi dựng được LLM rồi thì tiếp theo là phải làm benchmarking (kiểm chuẩn).
Số lượng các benchmarks ngày càng nhiều, với độ khó ngày càng tăng.
Thông thường chúng ta phải so sánh kết quả benchmarking với các LLM khác
của thế giới.
·
Khai
thác mô hình (inference: suy diễn): ví dụ, GPT-4 (của OpenAI) cần hơn
30.000 GPU, tiêu thụ điện khổng lồ.
·
Tiếp
theo phải tính đến chuyện liên tục mở rộng (scaling) cả về dữ liệu và
quy mô của mô hình. Chú ý rằng tăng số lượng tham số của mô hình làm tăng nhu cầu
bộ nhớ và tính toán theo cấp số nhân.
-
Trân trọng
& vui nhã
(_/)
( •_•)
/ >☕
LeVanLoi