Nghiên cứu liên kết gen toàn bộ hệ gen (Genome-wide association study – GWAS)

by tudienkhoahoc
Nghiên cứu liên kết gen toàn bộ hệ gen (GWAS) là một phương pháp nghiên cứu mạnh mẽ được sử dụng để xác định các biến thể di truyền liên quan đến một đặc điểm hoặc bệnh cụ thể. GWAS quét toàn bộ hệ gen của một lượng lớn cá thể để tìm ra các biến thể di truyền phổ biến, được gọi là các đa hình nucleotide đơn (SNP – Single Nucleotide Polymorphism), có tần số xuất hiện khác nhau giữa các cá thể có và không có đặc điểm hoặc bệnh đang được nghiên cứu. Mục tiêu của GWAS là tìm ra các SNP liên kết với đặc điểm hoặc bệnh, từ đó hiểu rõ hơn về cơ chế di truyền của chúng.

Nguyên lý

GWAS dựa trên nguyên lý liên kết không cân bằng (linkage disequilibrium – LD). LD là hiện tượng các alen tại các locus khác nhau có xu hướng di truyền cùng nhau thường xuyên hơn so với dự kiến nếu chúng phân ly độc lập. Điều này xảy ra do sự gần gũi vật lý của các locus trên nhiễm sắc thể, khiến chúng ít có khả năng bị tách ra trong quá trình tái tổ hợp. Khi một SNP liên quan đến một bệnh, các SNP lân cận cũng có thể thể hiện sự liên kết với bệnh đó do LD. Nói cách khác, SNP được xác định bởi GWAS không nhất thiết phải là nguyên nhân trực tiếp gây bệnh, mà có thể nằm gần vị trí gây bệnh trên nhiễm sắc thể.

Phương pháp

GWAS so sánh tần số alen của hàng trăm nghìn đến hàng triệu SNP trên toàn bộ hệ gen giữa một nhóm cá thể có đặc điểm hoặc bệnh được nghiên cứu (nhóm trường hợp) và một nhóm cá thể không có đặc điểm hoặc bệnh đó (nhóm đối chứng). Nếu một alen của một SNP cụ thể phổ biến hơn đáng kể ở nhóm trường hợp so với nhóm đối chứng, thì SNP đó được coi là có liên kết với đặc điểm hoặc bệnh. Mức độ liên kết này thường được đánh giá bằng giá trị p, với giá trị p thấp cho thấy mối liên kết mạnh mẽ hơn. Kết quả của GWAS thường được hiển thị dưới dạng biểu đồ Manhattan, giúp dễ dàng hình dung các SNP có liên kết mạnh nhất.

Quy trình thực hiện GWAS

Quy trình thực hiện một nghiên cứu GWAS thường bao gồm các bước sau:

  1. Thu thập mẫu: GWAS yêu cầu một lượng lớn mẫu từ cả nhóm trường hợp (có đặc điểm hoặc bệnh) và nhóm đối chứng (không có đặc điểm hoặc bệnh). Kích thước mẫu càng lớn, sức mạnh thống kê của nghiên cứu càng cao, giúp tăng khả năng phát hiện các liên kết yếu.
  2. Phân tích kiểu gen (Genotyping): DNA của các cá thể được phân tích để xác định kiểu gen của hàng trăm nghìn đến hàng triệu SNP trên toàn bộ hệ gen. Các công nghệ genotyping hiện đại cho phép phân tích một số lượng lớn SNP với chi phí tương đối thấp.
  3. Kiểm định liên kết: Đối với mỗi SNP, một kiểm định thống kê (thường là kiểm định χ² hoặc hồi quy logistic) được thực hiện để so sánh tần số alen giữa nhóm trường hợp và nhóm đối chứng. Giá trị p được tính toán cho mỗi SNP để đánh giá mức độ ý nghĩa thống kê của sự liên kết.
  4. Điều chỉnh đa thử nghiệm: Do số lượng lớn các SNP được kiểm định, cần phải điều chỉnh đa thử nghiệm để kiểm soát tỉ lệ dương tính giả. Một phương pháp phổ biến là sử dụng ngưỡng ý nghĩa Bonferroni, được tính bằng cách chia mức ý nghĩa mong muốn (thường là 0.05) cho số lượng SNP được kiểm định. Tuy nhiên, phương pháp Bonferroni có thể quá khắt khe, dẫn đến bỏ sót các liên kết thực sự. Các phương pháp điều chỉnh khác như kiểm soát tỷ lệ phát hiện sai (FDR) cũng thường được sử dụng.
  5. Xác định các SNP liên kết: Các SNP có giá trị p thấp hơn ngưỡng ý nghĩa sau khi điều chỉnh đa thử nghiệm được coi là có liên kết với đặc điểm hoặc bệnh được nghiên cứu.
  6. Xác định gen ứng viên: Vị trí của các SNP liên kết trên hệ gen được sử dụng để xác định các gen ứng viên có thể đóng vai trò trong sự phát triển của đặc điểm hoặc bệnh. Việc này thường liên quan đến việc xem xét chức năng của các gen gần SNP liên kết và các bằng chứng từ các nghiên cứu khác.

Ứng dụng của GWAS

GWAS có nhiều ứng dụng quan trọng trong nghiên cứu y sinh học, bao gồm:

  • Xác định các yếu tố nguy cơ di truyền cho các bệnh phức tạp: GWAS đã được sử dụng để xác định các biến thể di truyền liên quan đến nhiều bệnh phức tạp, bao gồm bệnh tim mạch, tiểu đường, ung thư và các bệnh tâm thần.
  • Phát triển các liệu pháp điều trị mới: Hiểu biết về cơ sở di truyền của bệnh có thể giúp phát triển các liệu pháp điều trị mới nhắm mục tiêu vào các gen hoặc protein cụ thể.
  • Dự đoán nguy cơ bệnh: GWAS có thể được sử dụng để phát triển các mô hình dự đoán nguy cơ bệnh dựa trên kiểu gen của một cá thể, mặc dù độ chính xác của các mô hình này thường còn hạn chế.

Hạn chế của GWAS

Mặc dù GWAS là một công cụ mạnh mẽ, nó cũng có một số hạn chế:

  • Chỉ xác định liên kết, không phải quan hệ nhân quả: GWAS chỉ xác định sự liên kết thống kê giữa SNP và đặc điểm hoặc bệnh, chứ không chứng minh được mối quan hệ nhân quả. Cần các nghiên cứu tiếp theo để xác định xem liệu SNP có thực sự gây ra bệnh hay không.
  • Khó khăn trong việc xác định các biến thể hiếm: GWAS chủ yếu tập trung vào các biến thể phổ biến. Các biến thể hiếm có thể đóng vai trò quan trọng trong một số bệnh nhưng khó được phát hiện bằng GWAS. Các phương pháp nghiên cứu khác như nghiên cứu giải trình tự toàn bộ hệ gen (WGS) phù hợp hơn để nghiên cứu các biến thể hiếm.
  • Ảnh hưởng của môi trường: GWAS thường không tính đến ảnh hưởng của môi trường, mà có thể tương tác với các yếu tố di truyền để ảnh hưởng đến sự phát triển của bệnh. Nghiên cứu về tương tác gen-môi trường là một lĩnh vực nghiên cứu quan trọng.

GWAS là một công cụ mạnh mẽ để nghiên cứu cơ sở di truyền của các đặc điểm và bệnh phức tạp. Mặc dù có một số hạn chế, GWAS đã đóng góp đáng kể vào sự hiểu biết của chúng ta về di truyền học của con người và có tiềm năng lớn trong việc phát triển các phương pháp điều trị và phòng ngừa bệnh mới.

Các khía cạnh bổ sung của GWAS

Để hiểu rõ hơn về GWAS và các kết quả của nó, cần xem xét các khía cạnh bổ sung sau:

  1. Phân tầng quần thể (Population Stratification): Một thách thức quan trọng trong GWAS là phân tầng quần thể, tức là sự khác biệt về tần số alen giữa các nhóm quần thể khác nhau. Phân tầng quần thể có thể dẫn đến các kết quả dương tính giả, khi một SNP dường như liên kết với một bệnh chỉ vì nó phổ biến hơn ở một nhóm quần thể cụ thể, mà nhóm này lại có tỉ lệ mắc bệnh cao hơn. Để kiểm soát phân tầng quần thể, các phương pháp phân tích như phân tích thành phần chính (PCA) và các mô hình hỗn hợp (mixed models) được sử dụng.
  2. Kích thước hiệu ứng (Effect Size): Kích thước hiệu ứng của một SNP là thước đo mức độ ảnh hưởng của SNP đó đến đặc điểm hoặc bệnh được nghiên cứu. Các SNP có kích thước hiệu ứng lớn có ảnh hưởng mạnh hơn đến đặc điểm hoặc bệnh, trong khi các SNP có kích thước hiệu ứng nhỏ có ảnh hưởng yếu hơn. Kích thước mẫu cần thiết cho GWAS phụ thuộc vào kích thước hiệu ứng của SNP đang được nghiên cứu. Kích thước hiệu ứng thường được biểu diễn bằng tỉ số odds (odds ratio – OR) hoặc nguy cơ tương đối (relative risk – RR).
  3. Tương tác gen-môi trường (Gene-Environment Interaction): GWAS truyền thống tập trung vào việc xác định các biến thể di truyền liên quan đến bệnh. Tuy nhiên, nhiều bệnh phức tạp là kết quả của sự tương tác giữa các yếu tố di truyền và môi trường. Các nghiên cứu GWAS về tương tác gen-môi trường (GxE GWAS) nhắm mục đích xác định các SNP có tác động đến bệnh bị điều chỉnh bởi các yếu tố môi trường. Việc kết hợp thông tin môi trường vào GWAS có thể giúp hiểu rõ hơn về cơ chế bệnh sinh.
  4. GWAS đa đặc điểm (Multi-trait GWAS): Các nghiên cứu GWAS truyền thống thường chỉ tập trung vào một đặc điểm hoặc bệnh tại một thời điểm. Tuy nhiên, nhiều đặc điểm và bệnh có liên quan với nhau. Các nghiên cứu GWAS đa đặc điểm (multi-trait GWAS) nhắm mục đích xác định các SNP liên quan đến nhiều đặc điểm hoặc bệnh cùng một lúc. Phương pháp này có thể tăng sức mạnh thống kê để phát hiện các SNP có ảnh hưởng đến nhiều đặc điểm và cung cấp cái nhìn toàn diện hơn về kiến trúc di truyền.
  5. Phân tích theo lộ trình (Pathway Analysis): Sau khi xác định các SNP liên kết, phân tích theo lộ trình được sử dụng để điều tra các quá trình sinh học mà các gen liên quan đến các SNP này tham gia. Phân tích này có thể cung cấp cái nhìn sâu sắc về cơ chế bệnh sinh và xác định các mục tiêu điều trị tiềm năng. Bằng cách xem xét các gen trong bối cảnh các lộ trình sinh học, chúng ta có thể hiểu rõ hơn về cách các biến thể di truyền ảnh hưởng đến chức năng tế bào và quá trình bệnh.
  6. Các loại biến thể di truyền khác được nghiên cứu trong GWAS: Mặc dù SNP là loại biến thể di truyền được nghiên cứu phổ biến nhất trong GWAS, nhưng các loại biến thể khác như biến thể số lượng bản sao (CNV – Copy Number Variation) và các biến thể cấu trúc khác cũng có thể được nghiên cứu. Việc xem xét các loại biến thể khác ngoài SNP có thể giúp phát hiện thêm các yếu tố di truyền góp phần vào bệnh.
  7. Phỏng đoán kiểu gen (Imputation): Phỏng đoán kiểu gen là một kỹ thuật thống kê được sử dụng để suy ra các kiểu gen tại các SNP không được genotyping trực tiếp. Imputation có thể tăng sức mạnh thống kê của GWAS bằng cách tăng số lượng SNP được phân tích và cho phép so sánh kết quả giữa các nghiên cứu sử dụng các nền tảng genotyping khác nhau. Điều này giúp tận dụng tối đa dữ liệu hiện có và cải thiện khả năng phát hiện các liên kết di truyền.

Tóm tắt về Nghiên cứu liên kết gen toàn bộ hệ gen

GWAS là một công cụ mạnh mẽ để xác định các biến thể di truyền liên quan đến các đặc điểm và bệnh phức tạp. Nguyên lý hoạt động của nó dựa trên việc so sánh tần suất alen của hàng triệu SNP giữa nhóm trường hợp và nhóm đối chứng. Nếu một alen xuất hiện thường xuyên hơn ở nhóm trường hợp, nó được coi là có liên quan đến đặc điểm hoặc bệnh đó. Tuy nhiên, điều quan trọng cần nhớ là GWAS chỉ xác định sự liên kết, không phải quan hệ nhân quả. Một SNP liên kết với một bệnh không nhất thiết gây ra bệnh đó.

Một điểm quan trọng khác cần lưu ý là kích thước mẫu. GWAS yêu cầu một lượng lớn mẫu để có đủ sức mạnh thống kê để phát hiện các liên kết có ý nghĩa. Kích thước mẫu càng lớn, khả năng phát hiện các biến thể có kích thước hiệu ứng nhỏ càng cao. Phân tầng quần thể là một yếu tố gây nhiễu tiềm ẩn trong GWAS và cần được kiểm soát cẩn thận bằng các phương pháp thống kê thích hợp.

GWAS không chỉ giới hạn ở việc nghiên cứu SNP. Các loại biến thể di truyền khác, chẳng hạn như CNV, cũng có thể được phân tích. Imputation là một kỹ thuật quan trọng cho phép các nhà nghiên cứu suy ra các kiểu gen tại các SNP không được genotyping trực tiếp, giúp tăng sức mạnh thống kê và cho phép so sánh kết quả giữa các nghiên cứu.

Cuối cùng, phân tích theo lộ trình là một bước quan trọng sau GWAS giúp hiểu được các quá trình sinh học liên quan đến các SNP liên kết. Điều này có thể dẫn đến việc xác định các gen ứng cử viên và các con đường phân tử liên quan đến bệnh, mở ra những hướng nghiên cứu mới cho việc phát triển các liệu pháp điều trị. Tóm lại, GWAS là một công cụ quý giá trong nghiên cứu di truyền học, nhưng việc hiểu rõ các điểm mạnh và hạn chế của nó là điều cần thiết để diễn giải kết quả một cách chính xác.


Tài liệu tham khảo:

  • Bush, W. S., & Moore, J. H. (2012). Chapter 11: Genome-Wide Association Studies. PLoS computational biology, 8(12), e1002822.
  • Hirschhorn, J. N., & Daly, M. J. (2005). Genome-wide association studies for common diseases and complex traits. Nature reviews. Genetics, 6(2), 95–108.
  • Manolio, T. A. (2010). Genomewide association studies and assessment of the risk of disease. The New England journal of medicine, 363(2), 166–176.

Câu hỏi và Giải đáp

Làm thế nào để xác định kích thước mẫu phù hợp cho một nghiên cứu GWAS?

Trả lời: Kích thước mẫu cần thiết cho GWAS phụ thuộc vào nhiều yếu tố, bao gồm tần số alen của biến thể đang được nghiên cứu, kích thước hiệu ứng mong đợi, và mức ý nghĩa thống kê mong muốn. Các công cụ thống kê và phần mềm chuyên dụng có thể được sử dụng để tính toán kích thước mẫu cần thiết. Nói chung, kích thước mẫu càng lớn thì sức mạnh thống kê của nghiên cứu càng cao, đặc biệt là đối với các biến thể có tần số alen thấp hoặc kích thước hiệu ứng nhỏ.

Phân tầng quần thể ảnh hưởng đến kết quả GWAS như thế nào và làm thế nào để giảm thiểu tác động của nó?

Trả lời: Phân tầng quần thể có thể dẫn đến dương tính giả trong GWAS. Khi tần số alen của một SNP khác nhau giữa các nhóm quần thể, nó có thể xuất hiện liên kết với một bệnh chỉ vì nó phổ biến hơn ở một nhóm có tỷ lệ mắc bệnh cao hơn. Để giảm thiểu tác động này, các nhà nghiên cứu sử dụng các phương pháp như phân tích thành phần chính (PCA) để điều chỉnh sự khác biệt về tổ tiên di truyền giữa các cá thể, hoặc sử dụng các mô hình hỗn hợp (mixed models) kết hợp thông tin về quần thể vào phân tích.

Ngoài SNP, còn loại biến thể di truyền nào khác có thể được nghiên cứu bằng GWAS?

Trả lời: Mặc dù SNP là loại biến thể phổ biến nhất được nghiên cứu trong GWAS, nhưng các loại biến thể khác cũng có thể được phân tích, bao gồm biến thể số lượng bản sao (CNV), indels (chèn hoặc xóa một đoạn DNA ngắn), và các biến thể cấu trúc khác. Sự phát triển của công nghệ giải trình tự thế hệ mới (NGS) đã tạo điều kiện cho việc nghiên cứu các loại biến thể này trong GWAS.

Imputation đóng vai trò gì trong GWAS và tại sao nó lại quan trọng?

Trả lời: Imputation là một phương pháp thống kê được sử dụng để dự đoán kiểu gen tại các SNP không được genotyping trực tiếp. Điều này cho phép các nhà nghiên cứu tăng mật độ SNP được phân tích, cải thiện sức mạnh thống kê để phát hiện các liên kết, và tạo điều kiện thuận lợi cho việc meta-analysis (phân tích gộp) giữa các nghiên cứu sử dụng các nền tảng genotyping khác nhau.

Làm thế nào để diễn giải kết quả của một nghiên cứu GWAS và những hạn chế cần lưu ý là gì?

Trả lời: Kết quả GWAS thường được trình bày dưới dạng Manhattan plot, hiển thị mức độ liên kết ($-log_{10}(p-value)$) của từng SNP trên toàn bộ hệ gen. Các SNP có giá trị p thấp hơn ngưỡng ý nghĩa (thường được điều chỉnh cho đa thử nghiệm) được coi là có liên kết với đặc điểm đang nghiên cứu. Tuy nhiên, điều quan trọng cần nhớ là liên kết không đồng nghĩa với nhân quả. GWAS chỉ xác định các vùng gen liên quan đến một đặc điểm, nhưng không nhất thiết xác định được gen gây bệnh cụ thể hoặc cơ chế gây bệnh. Các yếu tố gây nhiễu như phân tầng quần thể và kích thước mẫu nhỏ cũng có thể ảnh hưởng đến kết quả. Các nghiên cứu tiếp theo, bao gồm các nghiên cứu chức năng, là cần thiết để xác nhận và hiểu rõ hơn về vai trò của các biến thể di truyền được xác định bởi GWAS.

Một số điều thú vị về Nghiên cứu liên kết gen toàn bộ hệ gen

  • Số lượng mẫu khổng lồ: Một số nghiên cứu GWAS lớn nhất đã sử dụng dữ liệu di truyền từ hàng triệu người. Điều này cho phép các nhà khoa học xác định các biến thể di truyền có kích thước hiệu ứng rất nhỏ, điều mà trước đây không thể thực hiện được. Việc hợp tác quốc tế là chìa khóa cho những nỗ lực này.
  • Từ liên kết đến chức năng: Mặc dù GWAS chủ yếu xác định liên kết thống kê, chứ không phải quan hệ nhân quả, nhưng chúng đã cung cấp những hiểu biết có giá trị về chức năng của gen. Bằng cách xác định các vùng gen liên quan đến một bệnh, GWAS có thể hướng dẫn các nghiên cứu tiếp theo để tìm hiểu cách các gen này góp phần gây bệnh.
  • “Khu rừng” SNP: Một SNP riêng lẻ thường chỉ giải thích một phần rất nhỏ của sự biến đổi di truyền của một đặc điểm. Tuy nhiên, khi kết hợp hàng nghìn SNP lại với nhau, chúng ta có thể tạo ra một “điểm số đa gen” (polygenic score) dự đoán nguy cơ mắc bệnh của một cá thể một cách đáng ngạc nhiên.
  • GWAS cho mọi thứ: GWAS ban đầu được phát triển để nghiên cứu các bệnh phức tạp, nhưng giờ đây chúng được áp dụng cho một loạt các đặc điểm, bao gồm cả những đặc điểm không liên quan đến bệnh tật như chiều cao, chỉ số IQ, và thậm chí cả sở thích đối với các loại thực phẩm khác nhau.
  • Tốc độ phát triển chóng mặt: Công nghệ genotyping đã phát triển với tốc độ đáng kinh ngạc, khiến chi phí thực hiện GWAS giảm đáng kể. Điều này đã dẫn đến sự bùng nổ của các nghiên cứu GWAS trong những năm gần đây, cung cấp lượng lớn dữ liệu mới về kiến trúc di truyền của các đặc điểm phức tạp.
  • Cá nhân hóa y học: GWAS đóng vai trò quan trọng trong việc phát triển y học cá nhân hóa. Bằng cách hiểu được cấu trúc di truyền của một cá thể, chúng ta có thể dự đoán nguy cơ mắc bệnh, tối ưu hóa các chiến lược điều trị và thậm chí phát triển các phương pháp phòng ngừa được cá nhân hóa.
  • Khám phá những bí ẩn của tiến hóa: GWAS cũng có thể được sử dụng để nghiên cứu lịch sử tiến hóa của con người. Bằng cách so sánh tần số alen giữa các quần thể khác nhau, chúng ta có thể tìm hiểu về các áp lực chọn lọc đã định hình bộ gen của chúng ta qua thời gian.

Nội dung được thẩm định bởi Công ty Cổ phần KH&CN Trí Tuệ Việt

P.5-8, Tầng 12, Tòa nhà Copac Square, 12 Tôn Đản, Quận 4, TP HCM.

PN: (+84).081.746.9527
[email protected]

Ban biên tập: 
GS.TS. Nguyễn Lương Vũ
GS.TS. Nguyễn Minh Phước
GS.TS. Hà Anh Thông
GS.TS. Nguyễn Trung Vĩnh

PGS.TS. Lê Đình An

PGS.TS. Hồ Bảo Quốc
PGS.TS. Lê Hoàng Trúc Duy
PGS.TS. Nguyễn Chu Gia
PGS.TS. Lương Minh Cang
TS. Nguyễn Văn Hồ
TS. Phạm Kiều Trinh

TS. Ngô Văn Bản
TS. Kiều Hà Minh Nhật
TS. Chu Phước An
ThS. Nguyễn Đình Kiên

CN. Lê Hoàng Việt
CN. Phạm Hạnh Nhi

Bản quyền thuộc về Công ty cổ phần Trí Tuệ Việt