Giải trình tự toàn bộ hệ gen (Whole Genome Sequencing – WGS)

by tudienkhoahoc
Giải trình tự toàn bộ hệ gen (Whole Genome Sequencing – WGS) là một quy trình trong phòng thí nghiệm xác định thứ tự hoàn chỉnh của DNA trong toàn bộ hệ gen của một sinh vật tại một thời điểm nhất định. Nó cung cấp một bức tranh toàn diện về bộ gen, bao gồm cả các vùng mã hóa protein (gen) và các vùng không mã hóa. WGS khác với các phương pháp giải trình tự khác chỉ tập trung vào các vùng cụ thể của hệ gen, chẳng hạn như giải trình tự exome (chỉ giải trình tự các exon, vùng mã hóa protein).

Nguyên lý

WGS dựa trên nguyên tắc cắt nhỏ toàn bộ DNA hệ gen thành hàng triệu đoạn nhỏ. Các đoạn này sau đó được giải trình tự song song, tạo ra một lượng lớn dữ liệu “đọc” (reads). Các reads này sau đó được sắp xếp lại (assembly) bằng cách so sánh chúng với một hệ gen tham chiếu hoặc bằng de novo assembly (lắp ráp không cần hệ gen tham chiếu). Quá trình lắp ráp này dựa trên việc tìm kiếm các vùng chồng lấp giữa các reads, cho phép tái tạo lại trình tự ban đầu của toàn bộ hệ gen. Sau khi lắp ráp, các biến thể di truyền, bao gồm các đột biến điểm (single nucleotide polymorphisms – SNPs), đột biến chèn/xóa (insertions/deletions – Indels), biến thể số lượng bản sao (copy number variations – CNVs), và các sắp xếp lại cấu trúc (structural variations – SVs) có thể được xác định bằng cách so sánh hệ gen được giải trình tự với một hệ gen tham chiếu hoặc bằng cách phân tích các đặc điểm của bản thân hệ gen đó.

Quy trình

Quy trình WGS bao gồm các bước sau:

  1. Tách chiết DNA: DNA được tách chiết từ mẫu sinh học (ví dụ: máu, mô, nước bọt). Chất lượng và số lượng DNA tách chiết ảnh hưởng đáng kể đến kết quả giải trình tự.
  2. Chuẩn bị thư viện: DNA được cắt nhỏ thành các đoạn có kích thước cụ thể và gắn các adapter (đoạn DNA ngắn đã biết) vào hai đầu. Các adapter này cho phép đoạn DNA bám vào bề mặt của chip giải trình tự và được khuếch đại.
  3. Giải trình tự: Các đoạn DNA được giải trình tự bằng các công nghệ giải trình tự thế hệ mới (Next Generation Sequencing – NGS), ví dụ như Illumina sequencing. Kết quả là hàng triệu “đọc” (reads) DNA. Mỗi read đại diện cho một đoạn nhỏ của hệ gen.
  4. Sắp xếp và lắp ráp: Các reads được sắp xếp và lắp ráp lại thành một hệ gen hoàn chỉnh bằng phần mềm chuyên dụng. Việc sắp xếp dựa trên việc so sánh các reads với hệ gen tham chiếu hoặc lắp ráp de novo nếu không có hệ gen tham chiếu.
  5. Phân tích dữ liệu: Hệ gen được lắp ráp được phân tích để xác định các biến thể di truyền, chú thích gen và các đặc điểm khác. Phân tích này có thể bao gồm việc xác định SNPs, Indels, CNVs, SVs và các biến thể khác.

Ứng dụng

WGS có nhiều ứng dụng trong các lĩnh vực khác nhau, bao gồm:

  • Y học: Chẩn đoán bệnh di truyền, xác định các đột biến gây ung thư, lựa chọn thuốc cá nhân hóa.
  • Nghiên cứu y sinh: Nghiên cứu cơ chế bệnh tật, phát triển thuốc mới.
  • Nông nghiệp: Cải thiện giống cây trồng và vật nuôi.
  • Khoa học pháp y: Xác định danh tính cá nhân.
  • Tiến hóa và sinh thái học: Nghiên cứu mối quan hệ tiến hóa giữa các loài.

Ưu điểm

  • Cung cấp bức tranh toàn diện về hệ gen: WGS cung cấp thông tin về toàn bộ hệ gen, không chỉ các vùng mã hóa protein.
  • Phát hiện được nhiều loại biến thể di truyền khác nhau: WGS có khả năng phát hiện nhiều loại biến thể di truyền, bao gồm SNPs, Indels, CNVs, và SVs.
  • Khả năng phát hiện các biến thể ở các vùng không mã hóa: Nhiều vùng không mã hóa có chức năng quan trọng trong điều hòa gen, và WGS cho phép nghiên cứu các biến thể ở những vùng này.

Nhược điểm

  • Chi phí cao: Mặc dù chi phí WGS đã giảm đáng kể trong những năm gần đây, nó vẫn còn tương đối cao so với các phương pháp giải trình tự khác.
  • Phân tích dữ liệu phức tạp: Dữ liệu WGS rất lớn và phức tạp, yêu cầu kiến thức chuyên môn về sinh tin học để phân tích và diễn giải.
  • Yêu cầu lưu trữ dữ liệu lớn: Dữ liệu WGS chiếm dung lượng lưu trữ rất lớn, đòi hỏi hạ tầng lưu trữ và xử lý dữ liệu mạnh mẽ.
  • Đặt ra các vấn đề về đạo đức và bảo mật thông tin di truyền: Việc sử dụng dữ liệu WGS cần được xem xét cẩn thận về mặt đạo đức và bảo mật để tránh lạm dụng và phân biệt đối xử.

WGS là một công cụ mạnh mẽ với tiềm năng to lớn trong nhiều lĩnh vực. Sự phát triển liên tục của công nghệ giải trình tự đang làm giảm chi phí và tăng tốc độ của WGS, mở ra những cơ hội mới cho việc ứng dụng WGS trong nghiên cứu và thực tiễn.

Các công nghệ giải trình tự được sử dụng trong WGS

Một số công nghệ giải trình tự thế hệ mới (NGS) phổ biến được sử dụng trong WGS bao gồm:

  • Illumina sequencing: Công nghệ này dựa trên việc tổng hợp DNA theo chu kỳ, sử dụng các nucleotide được gắn nhãn huỳnh quang. Đây là công nghệ phổ biến nhất hiện nay do chi phí thấp và độ chính xác cao. Nó tạo ra các reads ngắn, phù hợp cho việc giải trình tự hệ gen lớn.
  • PacBio sequencing: Công nghệ này cho phép đọc các đoạn DNA dài hơn, giúp cải thiện việc lắp ráp hệ gen, đặc biệt là ở các vùng lặp lại. Tuy nhiên, độ chính xác thấp hơn so với Illumina sequencing. Reads dài giúp giải quyết các vùng phức tạp của hệ gen.
  • Nanopore sequencing: Công nghệ này dựa trên việc đọc trình tự DNA khi nó đi qua một lỗ nano. Nó có khả năng đọc các đoạn DNA rất dài và thời gian thực, nhưng độ chính xác cũng thấp hơn so với Illumina sequencing. Nanopore sequencing có tiềm năng ứng dụng trong chẩn đoán nhanh.

Các thách thức trong WGS

Mặc dù WGS có nhiều ưu điểm, nó cũng gặp phải một số thách thức:

  • Lắp ráp hệ gen: Việc lắp ráp hệ gen, đặc biệt là ở các vùng lặp lại, vẫn còn khó khăn, đặc biệt là khi sử dụng reads ngắn.
  • Phân tích dữ liệu: Phân tích lượng lớn dữ liệu được tạo ra bởi WGS đòi hỏi các công cụ sinh tin học phức tạp và chuyên môn cao.
  • Lưu trữ dữ liệu: Dữ liệu WGS chiếm dung lượng lưu trữ rất lớn, đặt ra thách thức về quản lý và lưu trữ dữ liệu.
  • Đạo đức và bảo mật: Việc sử dụng dữ liệu WGS đặt ra các vấn đề về đạo đức và bảo mật thông tin di truyền cần được giải quyết.

Xu hướng tương lai của WGS

  • Giảm chi phí: Chi phí của WGS đang tiếp tục giảm, làm cho nó trở nên dễ tiếp cận hơn cho nghiên cứu và ứng dụng lâm sàng.
  • Giải trình tự thời gian thực: Các công nghệ như Nanopore sequencing cho phép giải trình tự DNA trong thời gian thực, mở ra những ứng dụng mới trong chẩn đoán nhanh và theo dõi bệnh.
  • Giải trình tự tế bào đơn: Giải trình tự toàn bộ hệ gen của từng tế bào riêng lẻ cho phép nghiên cứu sự đa dạng di truyền trong một quần thể tế bào.
  • Tích hợp với các dữ liệu ‘omics’ khác: Việc kết hợp dữ liệu WGS với các dữ liệu ‘omics’ khác, chẳng hạn như transcriptomics và proteomics, cung cấp một cái nhìn toàn diện hơn về hoạt động của hệ thống sinh học.

Tóm tắt về Giải trình tự toàn bộ hệ gen

Giải trình tự toàn bộ hệ gen (WGS) là một kỹ thuật mạnh mẽ cho phép xác định trình tự hoàn chỉnh của DNA trong toàn bộ hệ gen của một sinh vật. Điều này cung cấp một cái nhìn toàn diện về bộ gen, bao gồm cả vùng mã hóa và không mã hóa, cho phép phát hiện các biến thể di truyền như SNPs, Indels, CNVs và SVs. WGS khác với các phương pháp giải trình tự khác chỉ nhắm vào các vùng cụ thể của hệ gen, ví dụ như giải trình tự exome.

Các công nghệ NGS như Illumina, PacBio và Nanopore là nền tảng của WGS. Mỗi công nghệ có những ưu điểm và nhược điểm riêng về độ dài đọc, độ chính xác và chi phí. Lựa chọn công nghệ phù hợp phụ thuộc vào mục đích nghiên cứu và nguồn lực sẵn có. Dữ liệu thu được từ WGS sau đó được xử lý bằng các công cụ sinh tin học để lắp ráp và phân tích, đây là một quá trình phức tạp đòi hỏi chuyên môn cao.

WGS có ứng dụng rộng rãi trong nhiều lĩnh vực, từ y học cá nhân hóa đến nghiên cứu tiến hóa. Trong y học, WGS giúp chẩn đoán bệnh di truyền, xác định đột biến gây ung thư và lựa chọn thuốc phù hợp. Trong nghiên cứu, WGS đóng vai trò quan trọng trong việc tìm hiểu cơ chế bệnh tật và phát triển thuốc mới. Mặc dù WGS mang lại nhiều hứa hẹn, nhưng các thách thức về chi phí, phân tích dữ liệu, lưu trữ và vấn đề đạo đức cần được xem xét cẩn thận.

Sự phát triển không ngừng của công nghệ giải trình tự đang thúc đẩy WGS tiến lên phía trước, với chi phí giảm và tốc độ tăng, mở ra nhiều cơ hội ứng dụng hơn nữa. Tương lai của WGS hướng tới giải trình tự thời gian thực, giải trình tự tế bào đơn và tích hợp với các dữ liệu ‘omics’ khác, hứa hẹn những đột phá trong hiểu biết về sinh học và y học.


Tài liệu tham khảo:

  • Metzker ML. Sequencing technologies — the next generation. Nat Rev Genet. 2010 Jan;11(1):31-46.
  • Goodwin S, McPherson JD, McCombie WR. Coming of age: ten years of next-generation sequencing technologies. Nat Rev Genet. 2016 Jun;17(6):333-51.
  • Shendure J, Balasubramanian S, Church GM, Gilbert W, Rogers J, Schloss JA, Waterston RH. DNA sequencing at 40: past, present and future. Nature. 2017 Oct 25;550(7676):345-353.

Câu hỏi và Giải đáp

Ngoài các ứng dụng đã đề cập, WGS còn có tiềm năng ứng dụng trong lĩnh vực nào khác?

Trả lời: WGS còn có tiềm năng ứng dụng trong nhiều lĩnh vực khác, bao gồm: nghiên cứu dược lý (pharmacogenomics) để dự đoán phản ứng của từng cá nhân với thuốc; nghiên cứu microbiome để hiểu rõ hơn về cộng đồng vi sinh vật sống trong và trên cơ thể chúng ta; bảo tồn động vật hoang dã bằng cách theo dõi sự đa dạng di truyền và xác định các mối đe dọa đối với các quần thể; và trong khảo cổ học để nghiên cứu nguồn gốc và di cư của con người.

Độ bao phủ (coverage) trong WGS là gì và tại sao nó quan trọng?

Trả lời: Độ bao phủ trong WGS đề cập đến số lần trung bình mỗi base trong hệ gen được đọc trong quá trình giải trình tự. Độ bao phủ cao (ví dụ: 30x trở lên) là cần thiết để đảm bảo độ chính xác và phát hiện các biến thể hiếm. Độ bao phủ thấp có thể dẫn đến bỏ sót các biến thể quan trọng.

Sự khác biệt chính giữa de novo assembly và reference-based assembly trong WGS là gì?

Trả lời: Reference-based assembly sắp xếp các reads bằng cách so sánh chúng với một hệ gen tham chiếu đã biết. De novo assembly lắp ráp hệ gen từ đầu mà không cần hệ gen tham chiếu, thường được sử dụng cho các sinh vật chưa có hệ gen tham chiếu. De novo assembly phức tạp hơn và đòi hỏi nhiều tài nguyên tính toán hơn.

Làm thế nào để giải quyết các vấn đề về đạo đức và bảo mật thông tin di truyền phát sinh từ WGS?

Trả lời: Cần có các quy định và hướng dẫn rõ ràng về việc thu thập, lưu trữ, chia sẻ và sử dụng dữ liệu WGS. Việc đảm bảo quyền riêng tư và bảo mật thông tin di truyền là rất quan trọng. Cần có sự đồng thuận rõ ràng từ người tham gia nghiên cứu trước khi tiến hành WGS. Cần cân nhắc cẩn thận các vấn đề liên quan đến phân biệt đối xử dựa trên thông tin di truyền.

WGS có thể được sử dụng để dự đoán nguy cơ mắc bệnh trong tương lai như thế nào?

Trả lời: WGS có thể xác định các biến thể di truyền liên quan đến nguy cơ mắc một số bệnh. Tuy nhiên, việc dự đoán nguy cơ mắc bệnh dựa trên WGS vẫn còn nhiều hạn chế. Nhiều bệnh là kết quả của sự tương tác phức tạp giữa gen và môi trường. WGS chỉ cung cấp một phần thông tin về nguy cơ mắc bệnh và không thể dự đoán chắc chắn liệu một người có mắc bệnh hay không. Việc diễn giải kết quả WGS trong bối cảnh nguy cơ mắc bệnh cần được thực hiện bởi các chuyên gia di truyền.

Một số điều thú vị về Giải trình tự toàn bộ hệ gen

  • Hệ gen người đầu tiên được giải trình tự hoàn chỉnh mất 13 năm và gần 3 tỷ đô la. Ngày nay, việc giải trình tự toàn bộ hệ gen người chỉ mất vài ngày và chi phí dưới 1000 đô la.
  • Dữ liệu từ một hệ gen người được giải trình tự, nếu được in ra, sẽ lấp đầy một chồng sách cao 200 mét. Đây là một lượng dữ liệu khổng lồ đòi hỏi khả năng lưu trữ và phân tích đáng kể.
  • Mặc dù 99.9% hệ gen của con người giống nhau, 0.1% khác biệt đó tạo nên sự đa dạng đáng kinh ngạc giữa các cá thể. WGS giúp khám phá những khác biệt này và hiểu rõ hơn về ảnh hưởng của chúng đối với sức khỏe và bệnh tật.
  • WGS không chỉ được sử dụng cho con người mà còn cho nhiều sinh vật khác, từ vi khuẩn đến thực vật và động vật. Điều này cung cấp những hiểu biết quý giá về sự đa dạng sinh học, tiến hóa và chức năng của các hệ gen khác nhau.
  • WGS đang được sử dụng để theo dõi sự lây lan của dịch bệnh, chẳng hạn như COVID-19. Bằng cách giải trình tự hệ gen của virus, các nhà khoa học có thể xác định các biến thể mới, theo dõi nguồn gốc và phát triển các biện pháp phòng ngừa và điều trị hiệu quả.
  • Một số công ty hiện nay cung cấp dịch vụ giải trình tự toàn bộ hệ gen trực tiếp cho người tiêu dùng. Tuy nhiên, việc diễn giải kết quả WGS đòi hỏi kiến thức chuyên môn và cần được thực hiện bởi các chuyên gia y tế hoặc di truyền.
  • WGS có thể được sử dụng để “hồi sinh” các loài đã tuyệt chủng. Bằng cách giải trình tự DNA từ các mẫu vật cổ đại, các nhà khoa học có thể tìm hiểu về hệ gen của các loài đã tuyệt chủng và thậm chí có thể sử dụng thông tin này để cố gắng tái tạo chúng (tuy nhiên, điều này vẫn còn rất nhiều tranh cãi về mặt đạo đức).
  • WGS đang được sử dụng để cá nhân hóa việc điều trị ung thư. Bằng cách xác định các đột biến cụ thể trong tế bào ung thư, các bác sĩ có thể lựa chọn các liệu pháp nhắm mục tiêu hiệu quả hơn và giảm thiểu tác dụng phụ.

Nội dung được thẩm định bởi Công ty Cổ phần KH&CN Trí Tuệ Việt

P.5-8, Tầng 12, Tòa nhà Copac Square, 12 Tôn Đản, Quận 4, TP HCM.

PN: (+84).081.746.9527
[email protected]

Ban biên tập: 
GS.TS. Nguyễn Lương Vũ
GS.TS. Nguyễn Minh Phước
GS.TS. Hà Anh Thông
GS.TS. Nguyễn Trung Vĩnh

PGS.TS. Lê Đình An

PGS.TS. Hồ Bảo Quốc
PGS.TS. Lê Hoàng Trúc Duy
PGS.TS. Nguyễn Chu Gia
PGS.TS. Lương Minh Cang
TS. Nguyễn Văn Hồ
TS. Phạm Kiều Trinh

TS. Ngô Văn Bản
TS. Kiều Hà Minh Nhật
TS. Chu Phước An
ThS. Nguyễn Đình Kiên

CN. Lê Hoàng Việt
CN. Phạm Hạnh Nhi

Bản quyền thuộc về Công ty cổ phần Trí Tuệ Việt