Science & Technology Learning: tháng 3 2025

Phác họa bài post:

Ⓐ. Đề dẫn.

Ⓑ. Thời gian và chi phí cần thiết để huấn luyện một LLM.

Ⓒ. Tương quan quốc tế.

Ⓓ. DeepSeek.

Ⓔ. Suy ngẫm chậm.

Để giúp anh/chị quyết định có đọc tiếp hay không, tôi xin phép cung cấp các thông tin liên quan đến bài post này như sau:

· Chủ đề: Machine Learning

· Tính thời sự: tháng 2/2025

· Thời gian đọc: 8 phút, kể cả thời gian uống cà phê (uống cà phê xong là đọc xong)

Ⓐ. Đề dẫn.

Giả thiết rằng tự nhiên chúng ta “mơ” phát triển một LLM (Large Language Model). Một cách tự nhiên, cái đầu tiên chúng ta phải tính đến là làm cái đó mất bao lâu và tốn bao nhiêu tiền. Lần này xin mời anh/chị cùng đàm đạo về chủ đề này (và một số thứ liên quan trực tiếp đến LLM).

Bài post này có cấu trúc như sau. Đầu tiên, mời anh/chị tham khảo ước lượng về thời gian và chi phí cần thiết để huấn luyện một LLM. Tiếp đó là một vài dữ liệu về mối tương quan quốc tế trong việc tạo dựng và phát triển LLM. Phần cuối xin có một vài bình luận về “hiện tượng” DeepSeek.

Dữ liệu trong bài post này không có các tham chiếu cụ thể (tôi tìm kiếm trên Internet phối hợp sử dụng chatbot). Nếu có các nhận định thì đó là do chủ quan của cá nhân. Tóm lại, đây chỉ là bài đàm luận để giải trí đơn thuần, không có gì là “hàn lâm” cả. 😊

Ⓑ. Thời gian và chi phí cần thiết để huấn luyện một LLM.

Huấn luyện một Mô hình Ngôn ngữ Lớn (LLM) là một quá trình tiêu tốn rất nhiều tài nguyên, phụ thuộc vào kích thước mô hình, kiến trúc, phần cứng và dữ liệu huấn luyện. Dưới đây là phân tích chi tiết về thời gian và chi phí:

1. Thời gian huấn luyện

Thời gian huấn luyện một LLM phụ thuộc vào quy mô mô hình và sức mạnh phần cứng. Dưới đây là ước tính sơ bộ:

Mô hình nhỏ (1–10 tỷ tham số)

Thời gian huấn luyện: Vài tuần đến một tháng
Phần cứng: Vài trăm GPU (NVIDIA A100, H100 hoặc TPU)

Mô hình tầm trung (10–100 tỷ tham số, như GPT-3)

Thời gian huấn luyện: 1 đến 3 tháng
Phần cứng: Hơn 1.000 GPU/TPU

Mô hình lớn (100+ tỷ tham số, như GPT-4, PaLM, LLaMA-3)

Thời gian huấn luyện: Từ 3 đến 6+ tháng
Phần cứng: Hơn 10.000 GPU/TPU

Ví dụ, GPT-3 (175 tỷ tham số) được huấn luyện bằng hơn 10.000 GPU NVIDIA V100 trong vài tháng. GPT-4 có thể đã sử dụng GPU mạnh hơn (A100/H100) và thời gian huấn luyện lâu hơn.

2. Chi phí huấn luyện

Chi phí huấn luyện một LLM phụ thuộc vào:

Chi phí thuê GPU/TPU (hoặc tự xây dựng hạ tầng phần cứng)
Điện năng và hệ thống làm mát
Lưu trữ và xử lý dữ liệu
Chi phí nhân sự và bảo trì

Ví dụ thực tế:

GPT-3 (175 tỷ tham số) → 4–12 triệu USD
GPT-4 (lớn hơn GPT-3, đa phương thức - multimodal) → 50–100+ triệu USD
PaLM (540 tỷ tham số, Google) → 10–20 triệu USD
LLaMA-2 (65 tỷ tham số, Meta) → 2–5 triệu USD

3. Yêu cầu phần cứng

Để huấn luyện một LLM, cần có:

GPU/TPU hiệu suất cao, ví dụ: NVIDIA A100, H100, hoặc TPU của Google
Hệ thống kết nối tốc độ cao (NVLink, InfiniBand) để giúp GPU giao tiếp hiệu quả
Lưu trữ khổng lồ (hàng terabyte đến petabyte) để chứa dữ liệu huấn luyện
Hệ thống làm mát và cung cấp điện tối ưu, vì hàng nghìn GPU tạo ra lượng nhiệt khổng lồ

Ví dụ, GPT-4 có thể đã sử dụng 20.000–25.000 GPU NVIDIA A100, mỗi GPU có giá từ 10.000–30.000 USD, làm cho chi phí hạ tầng rất đắt.

4. Dữ liệu và tiêu thụ năng lượng

Dữ liệu huấn luyện: LLM được huấn luyện bằng dữ liệu thu thập được từ các trang web, sách, bài báo nghiên cứu, mã nguồn, và dữ liệu tổng hợp – có thể lên đến hàng nghìn tỷ token.
Tiêu thụ năng lượng: Huấn luyện một LLM có thể tiêu thụ hàng triệu kWh, tương đương với lượng điện của một thành phố nhỏ trong vài tháng.

Ví dụ, quá trình huấn luyện GPT-3 tiêu thụ 1.287 MWh, phát thải 550 tấn CO₂ – tương đương với một chuyến bay xuyên Đại Tây Dương cho hàng trăm hành khách.

5. Chi phí vận hành sau huấn luyện

Sau khi huấn luyện, chi phí khai thác (inference) và bảo trì cũng rất cao:

Chạy một LLM trong thực tế có thể tiêu tốn hàng triệu USD mỗi tháng do chi phí GPU/TPU.
Inference (trả lời câu hỏi) rất tốn kém vì mỗi truy vấn đều yêu cầu tính toán GPU/TPU.
Để duy trì độ chính xác, các mô hình phải được cập nhật liên tục với dữ liệu mới.

6. Tóm tắt

Mô hình nhỏ → Vài tuần huấn luyện, 1–5 triệu USD
Mô hình trung bình (GPT-3) → 1–3 tháng huấn luyện, 4–12 triệu USD
Mô hình lớn (GPT-4) → 3–6+ tháng huấn luyện, 50–100+ triệu USD
Yêu cầu cơ sở hạ tầng lớn và tiêu thụ năng lượng khổng lồ
Chi phí vận hành và duy trì rất cao

Vì lý do này, chỉ những công ty công nghệ lớn (OpenAI, Google, Meta, Microsoft) hoặc các tổ chức nghiên cứu có nguồn vốn lớn mới có thể huấn luyện LLM tiên tiến nhất. Các nhóm nhỏ thường sẽ tinh chỉnh (fine-tune) các mô hình mã nguồn mở thay vì huấn luyện từ đầu.

Ⓒ. Tương quan quốc tế.

Các công ty và tổ chức hàng đầu trong lĩnh vực LLM chủ yếu là các tập đoàn công nghệ lớn, phòng thí nghiệm nghiên cứu AI và các tổ chức được chính phủ hậu thuẫn. Dưới đây là danh sách các “ông lớn” theo khu vực và mức độ ảnh hưởng của họ trong hệ sinh thái AI.

1. Hoa Kỳ

OpenAI – Nhà phát triển GPT-4, ChatGPT, Codex, DALL·E (được Microsoft hỗ trợ)
Google DeepMind – Phát triển Gemini (trước đây là Bard), GLaM, PaLM, LaMDA
Anthropic – Nhà sáng lập Claude AI (được Google và Amazon đầu tư)
Meta (Facebook AI) – Phát triển LLaMA models (LLaMA 2, LLaMA 3)
Microsoft – Tích hợp mô hình OpenAI vào Copilot, phát triển dòng Phi models
NVIDIA – Xây dựng Megatron-Turing NLG, hệ sinh thái AI dựa trên phần cứng
Cohere – Nhà phát triển Command R, Embed models cho doanh nghiệp
Mistral AI – Dẫn đầu phong trào mã nguồn mở với Mistral 7B, Mixtral
AI21 Labs – Nổi bật với Jurassic models, đối thủ cạnh tranh của GPT
Hugging Face – Duy trì các mô hình mã nguồn mở và thư viện Transformers
xAI – Phát triển Grok (hiện là Grok 3)

2. Trung Quốc

Baidu – Ernie models (Ernie 4.0)
Alibaba Cloud – Qwen (Qwen 2.5, Tongyi Qianwen)
Huawei – PanGu-Σ và các mô hình AI khác
Tencent AI Lab – Phát triển Hunyuan model
Moonshot AI – Kimi models (Kimi k1.5)
ByteDance (công ty mẹ của TikTok) – Doubao-1.5-Pro
Viện Hàn lâm AI Bắc Kinh (BAAI) – WuDao 2.0 (1.75 nghìn tỷ tham số)

3. Châu Âu & phần còn lại của thế giới

Mistral AI (Pháp) – Dẫn đầu phong trào LLM mã nguồn mở, với Mistral 7B, Mixtral
LightOn (Pháp) – Phát triển Lyra-fr, Orion-fr dành cho tiếng Pháp
EleutherAI (Anh/Toàn cầu) – Tạo dựng các mô hình GPT-J, GPT-NeoX, Pythia
LAION (Đức) – Hỗ trợ OpenAssistant và AI mã nguồn mở
Aleph Alpha (Đức) – Phát triển Luminous models
TII (UAE – Các Tiểu Vương Quốc Ả Rập Thống Nhất) – Phát hành Falcon 180B, Falcon 40B
Sber AI (Nga) – Phát triển GigaChat
G42 (UAE) – Hợp tác với OpenAI & Microsoft để phát triển LLM

Nhận định

Hoa Kỳ đang dẫn đầu trong lĩnh vực AI tiên tiến, với sự thống trị của OpenAI, Google, Meta và Microsoft.
Trung Quốc đang bắt kịp rất nhanh, tập trung vào tự chủ AI, với những “gã khổng lồ” như Alibaba, Baidu.
Châu Âu đang đẩy mạnh phong trào mã nguồn mở, với Mistral AI & Hugging Face đóng vai trò quan trọng.
Trung Đông (UAE, Ả Rập Xê Út) đang đầu tư mạnh mẽ vào AI, nhằm dẫn đầu AI trong khu vực.

Ⓓ. DeepSeek.

DeepSeek AI là một cái tên đang lên trong hệ sinh thái AI Trung Quốc, tập trung vào LLM mã nguồn mở và mô hình nền tảng (foundation models). DeepSeek hướng đến việc cạnh tranh với các LLM phương Tây như GPT-4 của OpenAI hay LLaMA của Meta, mang đến một lựa chọn thay thế cho các nhà phát triển và doanh nghiệp ở Trung Quốc cũng như toàn cầu.

Những điểm nổi bật của DeepSeek AI

DeepSeek-Coder – Một mô hình chuyên biệt cho tạo mã lập trình, tối ưu hóa để hỗ trợ lập trình bằng AI.
DeepSeek-LLM – Được phát triển để cạnh tranh với LLaMA và Mistral AI, hướng đến cả ứng dụng AI tổng quát lẫn chuyên sâu.
Chiến lược mã nguồn mở – Không giống các công ty AI Trung Quốc khác như Baidu (Ernie) hay Alibaba (Qwen), DeepSeek đi theo hướng mã nguồn mở, giúp thu hút cộng đồng nghiên cứu và doanh nghiệp.
Tính mở rộng & hiệu suất cao – Tập trung vào tối ưu hóa hiệu suất mô hình để có thể ứng dụng thực tế tốt hơn và mở rộng dễ dàng.
Vị thế chiến lược – Dù chưa lớn như OpenAI hay Google, DeepSeek đang tự định vị là đối thủ AI mã nguồn mở hàng đầu của Trung Quốc.

Nhận định

DeepSeek AI là một trong những startup AI mã nguồn mở triển vọng nhất của Trung Quốc, đang tạo ra sự cạnh tranh mạnh mẽ với LLaMA của Meta và Mistral AI. Nếu tiếp tục phát triển hiệu quả và bền vững, DeepSeek có thể trở thành một nhân tố quan trọng trong hệ sinh thái LLM toàn cầu, đặc biệt tại châu Á và trong cộng đồng AI mã nguồn mở.

Ⓔ. Suy ngẫm chậm 🤔

Giả thiết rằng chúng ta có tiền để dựng một LLM. Tất nhiên, tiền chỉ là một phần của nguồn lực. Tôi thấy có 2 điểm thách thức:

Tính khả thi

· Cần nguồn nhân lực có hiểu biết sâu về Machine Learning, về Data Analytics, về vận hành hạ tầng phần cứng.

· Cần hạ tầng là các Data Centers với hàng ngàn, hàng chục ngàn (thậm chí là hàng trăm ngàn) GPU/TPU.

· Có một nguồn điện dồi dào, tương đương với nguồn điện cho một thành phố (nhỏ).

Tính cạnh tranh

· Sau khi dựng được LLM rồi thì tiếp theo là phải làm benchmarking (kiểm chuẩn). Số lượng các benchmarks ngày càng nhiều, với độ khó ngày càng tăng. Thông thường chúng ta phải so sánh kết quả benchmarking với các LLM khác của thế giới.

· Khai thác mô hình (inference: suy diễn): ví dụ, GPT-4 (của OpenAI) cần hơn 30.000 GPU, tiêu thụ điện khổng lồ.

· Tiếp theo phải tính đến chuyện liên tục mở rộng (scaling) cả về dữ liệu và quy mô của mô hình. Chú ý rằng tăng số lượng tham số của mô hình làm tăng nhu cầu bộ nhớ và tính toán theo cấp số nhân.

Trân trọng & vui nhã

(_/)
( •_•)
/ >☕

LeVanLoi

Science & Technology Learning

2025/03/10

☕ Nhàn đàm ICT: Training LLM: 🕑 & 💲

Ⓐ. Đề dẫn.

Ⓑ. Thời gian và chi phí cần thiết để huấn luyện một LLM.

1. Thời gian huấn luyện

2. Chi phí huấn luyện

Ví dụ thực tế:

3. Yêu cầu phần cứng

4. Dữ liệu và tiêu thụ năng lượng

5. Chi phí vận hành sau huấn luyện

6. Tóm tắt

Ⓒ. Tương quan quốc tế.

1. Hoa Kỳ

2. Trung Quốc

3. Châu Âu & phần còn lại của thế giới

Nhận định

Ⓓ. DeepSeek.

Những điểm nổi bật của DeepSeek AI

Nhận định

Ⓔ. Suy ngẫm chậm 🤔

Tính khả thi

Tính cạnh tranh

☕ Nhàn đàm S&T: Humanoid Robots 🤖

Báo cáo vi phạm