Phác họa bài post:
Đặt vấn đề
Cuộc thi CASP
AlphaFold
(DeepMind)
➡
Nói về CSDL cấu trúc protein.
➡
Phương pháp tiếp cận của AlphaFold phiên bản CASP14.
🤔 Một vài suy ngẫm.
-
Để giúp anh/chị
quyết định có đọc tiếp hay không, tôi xin phép cung cấp các thông tin liên quan
đến bài post này như sau:
·
Chủ
đề: Bioinformatics,
Machine Learning
·
Tính
thời sự: Tháng 7 năm 2021.
·
Thời
gian đọc: 10 phút, kể cả
thời gian uống cà phê.
-
Để phục vụ
anh/chị nhâm nhi cà phê lần này, tôi xin phép đàm luận về protein (đạm).
Protein là thành phần cơ bản của sự sống (life). Dưới góc độ hệ thống điện
toán, một số protein đảm nhận chức năng cảm biến, một số khác đảm nhận chức
năng thực thi, một số lại đảm nhận chức năng quản trị. Nói một cách khác:
protein “vận hành” sự sống. Protein được tạo thành từ chuỗi a-xit a-min, có cấu
trúc 3D phức hợp. Các chức năng của protein phụ thuộc vào cấu trúc 3D này. Để
hiểu chức năng của một protein, người ta phải biết cấu trúc 3D của protein đó. Ví
dụ: Khi hiểu được chức năng của protein, người ta có thể nghiên cứu các mô hình
bệnh tật. Trên cơ sở mô hình bệnh tật, người ta có thể sản xuất dược phẩm để
phòng và chữa bệnh.
🧬
Đặt vấn đề
❓
Thưa anh/chị, khi nghiên cứu protein, người ta nhận thấy có một vấn đề rất
thách thức, có tên gọi là “protein folding problem” (vấn đề cuộn gấp protein). Ông Christian B. Anfinsen, trong phát biểu nhận giải Nobel năm
1972, có nói, khi biết được trình tự chuỗi a-xít a-min của một protein, về mặt
nguyên tắc, chúng ta sẽ biết cấu trúc 3D của protein đó. Định đề giả thuyết này
đã khơi mào cho một thách thức kéo dài suốt 5 thập kỷ (1972-2021). Đó là:
“Cho biết cấu trúc một chiều (1D) của protein hãy tìm cấu trúc ba chiều (3D)
tương đương (duy nhất) của nó!”
║ Chi tiết: Phát biểu trên không hẳn là đầy đủ, nó chỉ nói
lên được tính thách thức của vấn đề, chứ chưa đề cập đến tính đặc trưng của chuỗi
các a-xít a-min. Định đề nói rằng, ở trong điều kiện môi trường nhất định (nhiệt
độ, nồng độ dung môi, v.v.) quá trình cuộn gấp xảy ra và chúng ta chú ý tính chất
này: cấu trúc nguyên bản (native structure) – sau khi quá trình cuộn gấp
kết thúc – là duy nhất. Nói cách khác, chỉ có duy nhất một cấu trúc 3D tương
đương với chuỗi trình tự ban đầu của protein – xem Anfinsen's dogma.
↓
·
Hãy
hình dung cấu trúc của một protein: giống như sợi các hạt gắn với nhau.
·
Các
hạt chính là các hóa chất có tên gọi là a-xit a-min. Chỉ có 20 loại a-xít a-min
khác nhau (Alanine, Arginine, Asparagine, Aspartic acid, Cysteine,
Glutamine, Glutamic acid, Glycine, Histidine, Isoleucine, Leucine, Lysine,
Methionine, Phenylalanine, Proline, Serine, Threonine, Tryptophan, Tyrosine,
Valine).
·
Các
sợi hạt này được lắp ráp, cuộn gấp tuân theo các “câu lệnh” (instruction)
của DNA (gen).
·
Lực
hút và lực đẩy giữa 20 loại a-xít a-min khác nhau khiến chuỗi gấp lại theo kiểu
‘gấp giấy tự động’ trong nháy mắt, tạo thành các lọn, vòng và nếp gấp phức tạp:
cấu trúc 3D của protein.
·
Cơ
thể người có bao nhiêu loại protein? ~ 20,000.
·
Trên
Trái Đất có bao nhiêu loại protein? ~ 100,000,000.
-
Để xác định được
cấu trúc 3D của protein, giới nghiên cứu đã sử dụng rất nhiều phương pháp thí
nghiệm hiện đại như nuclear magnetic resonance (cộng hưởng từ hạt nhân), X-ray crystallography (tinh thể học tia X), cryogenic electron microscopy (kính hiển vi điện tử đông lạnh). Tuy
đã sử dụng các công cụ hiện đại và đắt tiền (nhiều triệu đô-la một thiết bị)
nhưng việc làm thí nghiệm là một quá trình gian nan, mất nhiều công sức và phải
mất hàng tháng, hàng năm trời mới tìm ra được cấu trúc của một protein. Một cấu
trúc đã “vất vả” như thế, trong lúc ngoài tự nhiên có hàng triệu protein thì đến
bao giờ mới xong?!
Mở ngoặc ⦅
Bắt
đầu từ năm 1976, giới khoa học đã bắt đầu làm thí nghiệm để xác định cấu trúc
3D của protein (xem Protein structure determination). Tính đến tháng 4/2020, giới khoa học
đã xác định được 150,423 cấu trúc, trong đó chủ yếu bằng phương pháp tinh thể
học tia X (135,170), tiếp đến bằng phương pháp cộng hưởng từ hạt nhân
(11,337), bằng kính hiển vi điện tử đông lạnh (3,475), phương pháp
lai (155) và bằng các phương pháp khác (286) – xem Protein Data Bank (CSDL protein, viết tắt là PDB).
⚠ Chú
ý rằng đây là tập mẫu dữ liệu quan trọng và căn bản nếu phương
pháp dự đoán cấu trúc protein (Protein Structure Prediction) sử dụng mô
hình mạng nơ-ron (Neural Network).
Đóng ngoặc ⦆
🧬
Cuộc thi CASP
💡 Để xúc tiến việc nghiên cứu phương pháp phỏng đoán cấu
trúc 3D của protein, cộng đồng nghiên cứu có cách làm rất thông minh nhằm tập hợp
các tài năng của thế giới. Năm 1994, Giáo sư John Moult và Giáo sư Krzysztof
Fidelis thành lập CASP (Critical Assessment of methods of protein Structure
Prediction - Đánh giá biện chứng các phương pháp phỏng đoán cấu trúc
protein). Sự kiện này được tổ chức 2 năm một lần nhằm đánh giá một cách khách
quan các phương pháp phỏng đoán cấu trúc protein.
Ý tưởng là như
thế nhưng người ta tổ chức như thế nào để đạt được mục tiêu? Cách làm của CASP
có mấu chốt nằm ở khâu ra đề. Họ chọn khoảng 100 protein đã được các phòng thí
nghiệm mới nghiên cứu và cấu trúc 3D của chúng chưa được công bố, thậm chí là
ngay cả các phòng thí nghiệm đó cũng chưa biết, đang trong quá trình hoàn thiện.
Các nhóm tham gia “thi” sẽ nhận được đề bài là dự đoán cấu trúc 3D của các
protein loại này (cho biết trước chuỗi trình tự của các a-xít a-min).
Việc chấm bài
chủ yếu dựa trên so sánh cấu trúc phỏng đoán với cấu trúc thực (ground truth)
– được lấy ra từ phòng thí nghiệm. Phương pháp so sánh dựa vào global distance test (GDT). Thước đo GDT dùng để đo mức độ
tương tự (similarity) giữa 2 cấu trúc 3D (không gian 3 chiều), được tính
theo tỷ lệ phần trăm giống nhau [0%-100%]. Ngưỡng bao nhiêu thì có thể coi là
hai cấu trúc “giống” nhau? Theo GS. John Moult, nếu điểm đạt đến 90 (hoặc
hơn) thì có thể coi cấu trúc phỏng đoán “có tính cạnh tranh cao” so với kết quả
từ phòng thí nghiệm. Lưu ý rằng bản thân kết quả của phòng thí nghiệm cũng có
sai số - các thí nghiệm không bao giờ chính xác tuyệt đối. Đơn vị đo trong các
thí nghiệm là Angstrom (ký hiệu là Å), bằng 10-10 mét, kích cỡ ở mức
nguyên tử. Đó là lý do vì sao sự sai
khác dưới 10% có thể chấp nhận được.
🧬
AlphaFold (DeepMind)
🛈
Tại cuộc thi CASP14 (năm
2020), nhóm AlphaFold của DeepMind đạt điểm 92.4 GDT, là quán quân của cuộc
thi, bỏ xa tất cả các nhóm phía sau. Đây được xem là một đột phá lớn cho ngành
proteome (ngành protein học): cho chuỗi trình tự của một protein, bằng phương
pháp của nhóm AlphaFold, trong một thời gian cực ngắn, các nhà khoa học biết được
cấu trúc 3D của protein đó mà không cần phải làm thí nghiệm!
Mời anh/chị
tham khảo vài bài ngợi ca từ các tạp chí khoa học hàng đầu thế giới dành cho
AlphaFold:
·
Tạp
chí Nature: ‘It will change everything’: DeepMind’s AI
makes gigantic leap in solving protein structures (‘Mọi thứ sẽ thay đổi’: Trí
tuệ nhân tạo của DeepMind tạo ra bước nhảy vọt trong việc giải cấu trúc
protein).
·
Tạp
chí Science: ‘The game has changed.’ AI triumphs at
solving protein structures (‘Cuộc chơi đã thay đổi.’ Trí tuệ nhân tạo chiến thắng
trong việc giải quyết các cấu trúc protein).
·
Tạp
chí MIT Technology Review: DeepMind’s protein-folding AI has
solved a 50-year-old grand challenge of biology (Trí tuệ nhân tạo cuộn gấp
protein của DeepMind đã giải quyết một thách thức lớn trong 50 năm tuổi của
ngành sinh học).
-
➡
Nhóm AlphaFold đã dự thi CASP từ năm 2018 (CASP13). Năm đó AlphaFold vẫn đạt giải
nhất nhưng khoảng cách so với các đối thủ khác là chưa đáng kể. Bài đăng trên tạp
chí Nature, ngày 15/01/2020 (bài báo). Bài rất dài, có lẽ rất ít người đủ
kiên nhẫn đọc kỹ. Để anh/chị đỡ mất thời gian tôi xin tóm lược: họ sử dụng Deep
Learning (mạng nơ-ron nhiều lớp), và mô hình là một biến thể của CNN (Convolutional
Neural Network). Khi đọc bài báo, có lẽ một số người sẽ ngạc nhiên: CNN
dùng để nhận dạng ảnh là chính, sao họ lại sử dụng mô hình này để phỏng đoán cấu
trúc 3D? Hóa ra họ huấn luyện dựa trên đầu vào là cấu trúc đã được lưu trong
PDB (Protein Data Bank) và đầu ra (phỏng tính – prediction) là khoảng
cách dij của cặp a-xít a-min bất kỳ (i,j) trong chuỗi
trình tự 1D của protein. Từ kết quả này, người ta dựng biểu đồ khoảng cách liên
kết các cặp hạt tâm (residue của a-xít a-min) lại với nhau. Biểu đồ này
có tên gọi là distogram (distogram là ghép từ ‘distance’ với
histogram). Từ distogram, người ta tạo cấu trúc 3D của protein bằng
cách uốn các đường thẳng từ tâm a-xít a-min này đến tâm a-xít a-min kia dựa
theo góc xoắn khi hai a-xít a-min này liên kết.
-
🛈
Bây giờ chúng ta quay trở lại
với CASP14 (2020). CASP14 ra thông cáo báo chí ngày 30/10/2020. Cùng ngày, DeepMind
cũng có bài trên blog của họ. Trong bài blog, họ cam kết là sẽ xuất bản
bài báo khoa học trong thời gian quy định trên một tạp chí để bình duyệt (peer-review)
kết quả. Phải đến ngày 22/07/2021 (8 tháng sau) họ mới có một thông báo tiếp theo. Trong thông báo đó, ngoài 2
bài báo bình duyệt (peer-review) họ nộp cho tạp chí Nature (bài
1: Highly accurate protein structure
prediction with AlphaFold,
bài 2: Highly accurate protein structure
prediction for the human proteome)
họ còn kết hợp với Viện Tin sinh học Châu Âu (European Bioinformatics
Institute) thuộc Phòng thí nghiệm Sinh học Phân tử Châu Âu (European
Molecular Biology Laboratory) khai trương CSDL
cấu trúc protein.
➡ Nói về CSDL cấu trúc protein.
Để anh/chị hình
dung được công việc họ đã hoàn thành: từ năm 1976 đến năm 2020, giới khoa học,
bằng các thí nghiệm, đã thu thập được khoảng 170,000 cấu trúc protein. Chỉ
trong vòng chưa đầy 8 tháng, họ (DeepMind) cung cấp dữ liệu (miễn phí) cho khoảng
350,000 cấu trúc protein, hơn gấp đôi số lượng cấu trúc protein trước đó! Tất
nhiên số lượng khoảng 180,000 cấu trúc protein thêm vào là do kết quả “suy luận”
của mô hình AlphaFold. Thế mới thấy sức mạnh của Machine Learning!
Bàn luận chi tiết
hơn một chút về CSDL này. Chúng ta biết là cơ thể người có khoảng 20,000 loại
protein. Trước năm 2020, giới khoa học mới chỉ biết đến 17% trong số này.
AlphaFold đã “phỏng đoán” đến 98.5% cấu trúc protein trên cơ thể người. Tức là
chỉ trong một thời gian ngắn, họ đã “khám phá” ra cấu trúc 3D của hầu hết các
protein đó!
Ngoài các
protein trên cơ thể người, CSDL có cấu trúc protein của 20
loại sinh vật khác.
Trong thời gian
sắp tới, họ có kế hoạch cung cấp cấu trúc của khoảng 100 triệu protein, hình
thành “niên giám” (almanac) protein thế giới!
-
Tất nhiên,
AlphaFold “suy luận” từ kết quả của 170,000 thí nghiệm. AlphaFold phải dựa vào
điểm tựa “khổng lồ” này, là công sức vô giá của giới khoa học trong gần 50 năm.
➡ Phương pháp tiếp cận của AlphaFold phiên bản CASP14.
Phiên bản này
khác so với phiên bản CASP13 của chính họ. Lần này, họ quan niệm cấu trúc 3D của
protein là một loại “đồ thị không gian” (spatial graph), trong đó mỗi
nút là hạt tâm (residue của a-xít a-min) còn cạnh của đồ thị là liên kết
của 2 hạt tâm. Bài báo bình duyệt (peer-review) rất dài
và mô hình của AlphaFold khá phức tạp. Để tiết kiệm thời gian, tôi xin “nôm na”
nêu vài ý chính:
💡 Mô hình: end-to-end, kết hợp với cơ chế Attention:
[Chuỗi trình tự 1D] ⇨ {AlphaFold Network} ⇨ [Cấu trúc 3D]
Nghĩa là: Cho đầu vào là chuỗi trình tự bậc 1
các a-xít amin (primary amino acid sequence), mạng AlphaFold Network phỏng
đoán trực tiếp cấu trúc 3D của protein. Cấu trúc 3D theo quan điểm của
AlphaFold chính là các tọa độ của các nguyên tử (heavy atom) của từng hạt tâm
a-xít a-min.
💡 Huấn luyện: Điểm đáng chú ý là họ huấn luyện với mẫu
dữ liệu đã được dán nhãn (~170 nghìn bản ghi trong PDB) và cả mẫu dữ liệu chưa
được dán nhãn.
Bước 1. Huấn
luyện với mẫu đã được dán nhãn: Mẫu dữ liệu là cặp (Chuỗi trình tự 1D, Cấu trúc
3D) lấy từ PDB (đã có sẵn). Sau khi huấn luyện xong, người ta cho mô hình này phỏng
đoán khoảng 350,000 cấu trúc, lấy các chuỗi trình tự 1D từ cơ sở dữ liệu có tên
là Uniclust30.
Bước 2. Tiếp
theo, người ta huấn luyện lại từ đầu. Chuỗi trình tự đầu vào 1D được lấy hỗn hợp
từ PDB và kết quả vừa mới được phỏng đoán ở bước 1. Lúc này tập mẫu vừa được tạo
ra ở bước 1 được dán nhãn giả (pseudo-label).
Khi huấn luyện
bước 2, họ làm nhiễu dữ liệu theo nhiều phương pháp nhằm làm cho mô hình phỏng
đoán kết quả chính xác hơn.
🧬
🤔 Một vài suy ngẫm.
Đúng là khoa học
phát triển không đợi ai. Các môn học như Machine Learning hay Bioinformatics
đã được các cơ sở đào tạo nào ở Việt Nam triển khai? Tôi không có thông tin. Có
cách nào đó để xúc tiến các môn học – lĩnh vực rất mới này không? Đây là câu hỏi
khó. Có lẽ chúng ta đợi câu trả lời từ các anh/chị là lãnh đạo trong Chính phủ
hoặc các hiệp hội ngành khoa học.
-
Qua bài post
này, tôi có vài suy nghĩ “vụn”, chủ yếu là để anh/chị uống nốt chút cà phê còn đọng
lại trong cốc của mình.
🥡 Có
thể học theo cách tổ chức sự kiện như CASP không? Nghĩa là có một tổ chức,
một nhóm nào đó tạo ra một “thách thức” (challenge) để cho cộng đồng
trong nước (và có thể cả ở nước ngoài) tham gia giải “thách thức” đó. Chú ý rằng
CASP sử dụng thước đo GDT để “chấm bài”. Thước đo GDT là thước đó công khai,
minh bạch và khách quan. Bản thân tác giả của thước đo GDT cũng
đã đăng ký sở hữu trí tuệ. Thước đo GDT không phụ thuộc vào ý kiến chủ quan của
bất cứ một hội đồng nào cả! 😊
🥡 Có
nên định hướng một số luận văn tốt nghiệp sinh viên CNTT theo hướng Machine
Learning và Bioinformatics? Theo tôi, đây là cách nhanh nhất
để các tài năng trẻ tiếp cận các vấn đề mới nhất của khoa học và công nghệ. Tài
liệu thì nhiều “vô kể”, tất cả đều nằm ở đó: Internet. Chỉ có một rào cản nhỏ:
tiếng Anh. Tuy nhiên, tiếng Anh là bắt buộc đối với sinh viên ngành CNTT, đặc
biệt đối với các sinh viên ham học hỏi các chủ đề mới thì tiếng Anh không phải
là vấn đề.
(\_/)
(
•_•)
/
>☕
Không có nhận xét nào:
Đăng nhận xét