Phác họa bài post:
Ⓐ. Giải trình
tự DNA cá nhân
Ⓑ. Suy diễn
thông tin về tổ tiên
Ⓒ. Suy ngẫm chậm
~
Để giúp anh/chị
quyết định có đọc tiếp hay không, tôi xin phép cung cấp các thông tin liên quan
đến bài post này như sau:
·
Chủ
đề: DNA,
Bioinformatics (tin sinh học)
·
Tính
thời sự: Tháng 3/2023.
·
Thời
gian đọc: 7 phút, lồng
vào thời gian uống cà phê (uống cà phê xong là đọc xong).
-
Trong một lần
nhàn đàm trước, “DNA sequencing” (giải trình tự DNA), chúng ta biết rằng
DNA gen người có khoảng 3 tỷ bp (base pair). Chúng ta cũng biết rằng tất
cả các loài đều có gen di truyền. Loài người cũng vậy. Câu chuyện nhàn đàm lần
này là: giả thiết chúng biết được trình tự DNA của cá nhân mình, liệu chúng ta
có “suy diễn” được các thông tin về tổ tiên xa xưa hay không? Và nếu suy diễn
được thì đó là các thông tin gì?
🧬
Ⓐ. Giải trình tự DNA cá nhân
Không để anh/chị
đợi lâu (😊), tôi xin giới thiệu 2 nơi cung cấp dịch
vụ này, đó là AncestryDNA và 23andMe.
-
Tóm tắt dịch
vụ: chúng ta nhổ nước bọt
vào một ống nghiệm, gửi đến cơ sở của họ và sau một thời gian thì chúng ta nhận
được nhiều bản báo cáo phân tích, trong đó có bản báo cáo thông tin về tổ tiên!
Rất đơn giản, đúng không ạ?
-
Đơn giá dịch
vụ: Nếu anh/chị có nhã
ý sử dụng dịch vụ của họ thì anh/chị vui lòng kiểm tra giá dịch vụ tại 2 đường
link tôi đã cung cấp ở trên. Vào thời điểm của bài post này, nếu anh/chị chỉ
quan tâm đến thông tin tổ tiên của mình, giá dịch vụ là 99 đô la Mỹ.
-
Khoảng bao
lâu thì có kết quả? Dịch
vụ AncestryDNA mất khoảng 13 tuần, còn 23andMe mất khoảng 10 tuần
kể từ thời điểm gửi mẫu phẩm vật (nước bọt).
-
Số lượng
khách hàng? Dịch vụ
AncestryDNA có khoảng 18 triệu khách hàng, 23andMe có khoảng 12 triệu
khách hàng, ước tính đến ngày 1/3/2023.
🧬
Ⓑ. Suy diễn thông tin về tổ tiên
Chúng ta hình
dung cách họ cung cấp dịch vụ như sau.
Bước 1: Tách DNA từ nước bọt
► Sau khi đăng
ký “mua dịch vụ”, họ gửi đến cho chúng ta một ống tube để chúng ta nhổ nước bọt
vào đó và gửi đến địa chỉ của họ theo đường bưu điện.
► Khi họ nhận
được ống tube, họ lọc DNA sau khi tách các tạp chất ra khỏi nước bọt.
► Tiếp đó, họ
nhân bản DNA (theo nguyên lý của PCR), rồi cắt nhỏ thành từng đoạn ngắn.
► Người ta đưa
các đoạn cắt ngắn này vào một máy có tên gọi là “genotyping array” – tạm
dịch là máy xác định kiểu gen.
▼ Giải thích
Nguyên
lý của xác định kiểu gen là như thế nào? Chúng ta hình dung rằng mỗi một cá
nhân có một chuỗi DNA khoảng 3 tỷ ký tự (A, C, G, T). Chúng ta cũng biết rằng
DNA của người có đến hơn 99.5% giống nhau nên các đơn vị cung dịch vụ họ không
giải trình tự DNA theo cách thông thường. Họ chỉ tìm cách tách phần khác nhau của
từng cá nhân so với chuỗi DNA chung. Mỗi một nucleotide của phần khác
nhau đó có tên gọi là SNP (Single-nucleotide polymorphism). SNP là gì? Một cách nôm na: đó chính
là vị trí mà các ký tự (A, C, G, T) tại vị trí đó không cố định: lúc thì A, lúc
thì C, lúc thì G, lúc thì T. Nghĩa là nucleotide tại điểm đó đa hình (polymorphic).
Người ta ước tính có 15 triệu SNP (tính trên 3 tỷ nucleotide thì số này
chiếm khoảng 0.4%).
Có
một điểm rất đáng chú ý: SNP truyền từ bố mẹ sang con cái, rất ít khi có biến dị.
Nghĩa là nếu chúng ta biết được tập hợp các SNP của mình thì có cơ sở để phỏng
đoán SNP của bố, mẹ. Từ phỏng đoán SNP của bố, mẹ, chúng ta có cơ sở để phỏng
đoán SNP của ông, bà nội, ngoại. Tiếp tục dòng phỏng đoán kiểu này người ta có
thể suy diễn ra thông tin về tổ tiên.
▲Giải thích
-
Bước 2: so sánh DNA với các DNA đã biết rõ nguồn gốc tổ tiên
Xuất phát từ đặc
điểm di truyền của SNP, phương pháp chung của các công ty cung cấp dịch vụ là
so sánh DNA của một cá nhân với tập hợp các DNA đã biết rõ nguồn gốc tổ tiên,
có tên gọi là bảng tham chiếu (Reference Panel).
► Người ta tạo
bảng tham chiếu (một dạng cơ sở dữ liệu) gồm các mẫu DNA từ các cá nhân có tổ
tiên đã biết. Những mẫu này thường đến từ các quần thể (population) khác
nhau trên khắp thế giới. Bảng tham chiếu đóng vai trò là cơ sở gốc (baseline)
để so sánh. Ví dụ, AncestryDNA có hơn 1800 vùng tham chiếu trên toàn thế giới. Trong lúc đó,
23andMe chia thành 47 quần thể (population). Bảng tham chiếu dựa
trên tên châu lục, vùng, tên quốc gia / vùng lãnh thổ nên rất dễ nhận biết. Cả
2 dịch vụ AncestryDNA và 23andMe đều có tham chiếu đến Việt Nam.
► Tiếp theo,
người ta lấy tập hợp các SNP từ DNA đem so sánh với tất cả các bản ghi của bảng
tham chiếu. Chúng ta hình dung là kết quả so sánh không khớp được 100% mà chỉ
khớp với “bản ghi 1” khoảng 45%, “bản ghi 2” khoảng 30%, “bản ghi 3” khoảng
20%, …, “bản ghi 10” khoảng 0.3%. Các bản ghi đại diện cho vùng tham chiếu hoặc
nhóm quần thể.
► Để anh/chị có
thể hình dung cách họ làm “Ancestry Report”, tôi xin lấy 2 mẫu từ
AncestryDNA và 23andMe.
Mẫu “Ethnicity
Estimate” của AncestryDNA
-
Mẫu “Ancestry
Composition Report” của 23andMe.
-
Bàn thêm về thông tin trong “Ancestry Report”
► Hẳn nhiên,
anh/chị đều hiểu thông tin đọc được trong “Ancestry Report” chỉ là tương
đối. Giả dụ anh/chị gửi tube nước bọt của mình đến 2 cơ sở xét nghiệm của
AncestryDNA và 23andMe thì gần như chắc chắn họ sẽ cho kết quả khác nhau! Cứ
cho rằng họ giải trình tự DNA của chúng ta chính xác (nghĩa là chuỗi DNA từ
AncestryDNA giống với chuỗi DNA từ 23andMe), cái khác biệt trong các bản thông
tin về tổ tiên xuất phát từ việc họ có các bảng tham chiếu (Reference Panel)
khác nhau, đó là chưa nói đến họ sử dụng các thuật toán so sánh cũng khác nhau.
► Có một điểm
đáng chú ý nữa: bảng tham chiếu của họ liên tục thay đổi. Khi có thêm khách
hàng, họ sẽ điều chỉnh bảng tham chiếu. Vì vậy, nếu chúng ta làm xét nghiệm của
cùng một cơ sở thì kết quả thông tin “Ancestry Report” lần này và “Ancestry
Report” 2 năm sau sẽ khác nhau! 😊.
► Còn nữa, anh
chị em cùng bố mẹ có thể xảy ra trường hợp có “Ancestry Report” khác
nhau. Vì sao vậy? Vì xét nghiệm mà các cơ sở này thực hiện là dựa trên di truyền.
Mà anh chị em trong cùng một gia đình thừa hưởng các đặc tính di truyền khác
nhau từ tổ tiên là chuyện bình thường. Lưu ý rằng một nửa DNA của chúng ta thừa
hưởng từ DNA của bố và một nửa thừa hưởng từ DNA của mẹ. Một nửa thừa hưởng từ
bố của người anh khác một nửa thừa hưởng từ bố của người em. Một nửa thừa hưởng
từ mẹ của người anh cũng khác một nửa thừa hưởng từ mẹ của người em.
-
► Bảng tham chiếu
(Reference Panel) là tham chiếu đến các vùng địa lý. Chú ý rằng bảng
tham chiếu chỉ mang tính đại diện cho tập hợp các chuỗi DNA có tổ tiên gần giống
nhau, bảng tham chiếu không phải là lịch sử. Nếu kết quả “Ancestry Report”
nói rằng tổ tiên của chúng ta ở vùng A, điều đó không chắc chắn nói lên rằng các
thế hệ tổ tiên chúng ta đã sống ở vùng A. Bản thân DNA không ghi lại được lịch
sử di cư trong quá khứ. DNA cũng không có khả năng ghi lại dân cư vùng A nói
ngôn ngữ gì, không ghi lại được các tập tục sinh hoạt cộng đồng của vùng A, …
🧬
Ⓒ. Suy ngẫm chậm
► “Mất khoảng
100 đô la Mỹ để tìm hiểu nguồn gốc xa xưa của mình” quả là có sức hấp dẫn. Đó
chính là lý do vì sao có nhiều người “tự nguyện” đóng góp chuỗi DNA của mình
vào “kho dữ liệu” của cơ sở xét nghiệm “Ancestry DNA Test”. Đây quả là một
cách làm thông minh của các cơ sở này nhằm thu thập thông tin (và kinh doanh).
► Chú ý rằng
chuỗi DNA cá nhân (khoảng 3 tỷ bp), bản thân nó đã là một kho dữ liệu khổng lồ.
Các cơ sở xét nghiệm như AncestryDNA hay 23andMe có hàng chục triệu bản ghi như
vậy. DNA hàm chứa rất nhiều thông tin mà cho đến tận thời điểm hiện nay, các
nhà khoa học vẫn chưa hiểu hết. Khi có các nghiên cứu, phát hiện mới về DNA liên
quan đến nhân chủng học thì chính các cơ sở này họ hiểu chúng ta hơn chính
chúng ta hiểu về mình.
-
“Chuỗi DNA
không biết nói dối” hé mở nhiều bí ẩn trong quá khứ vẫn làm cho chúng ta không
khỏi tò mò. Năm ngoái (2022) giải Nobel về y sinh (Nobel Prize in Physiology
or Medicine) đã trao cho Svante Pääbo "cho những khám phá của ông liên
quan đến bộ gen của loài vượn người đã tuyệt chủng và sự tiến hóa của loài người".
Ông này đã giải trình tự DNA của loài hominin Neanderthal – một
loài vượn người sống cách đây khoảng hơn 40 nghìn năm đã tuyệt chủng – từ trầm
tích. Nếu anh/chị quan tâm, anh/chị có thể đọc bài này ở đây (rất dài). Trong tương lai không xa, các nhà khoa học có
thể giải trình tự DNA từ các khai quật khảo cổ, có thể vẽ bức tranh sinh học “lịch
sử các quần thể loài người”. Từ đó, các “huyền thoại” mà chúng ra thường đọc được
từ sách vở có thể cần phải điều chỉnh! 😊
-
Cuối cùng, tôi
nhờ một người ngoài hành tinh mời anh/chị một tách cà phê, không biết anh/chị
có dám uống hay không (tranh do phần mềm trí tuệ nhân tạo Adobe Firefly
vẽ). Giả định trong bức tranh này là tế bào của người ngoài hành tinh cũng có
DNA giống với các loài sinh vật trên Trái Đất! 😊

