Giải trình tự thế hệ mới (Next-generation sequencing – NGS)

by tudienkhoahoc
Giải trình tự thế hệ mới (NGS), còn được gọi là giải trình tự thông lượng cao (high-throughput sequencing), là một tập hợp các công nghệ giải trình tự DNA cho phép giải trình tự toàn bộ bộ gen hoặc các vùng DNA mục tiêu một cách nhanh chóng, chính xác và với chi phí thấp hơn so với phương pháp Sanger truyền thống. NGS đã cách mạng hóa lĩnh vực gen học và được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau, từ nghiên cứu cơ bản đến y học lâm sàng.

Nguyên lý hoạt động

Mặc dù có nhiều nền tảng NGS khác nhau, nhưng chúng đều chia sẻ các bước cơ bản sau:

  1. Chuẩn bị thư viện: DNA được phân mảnh và gắn các adapter đặc hiệu cho từng nền tảng. Adapter này cho phép DNA gắn vào bề mặt dòng chảy hoặc hạt từ tính để khuếch đại và giải trình tự.
  2. Khuếch đại: Các đoạn DNA được khuếch đại lên hàng triệu bản sao, tạo thành các cụm (cluster) trên bề mặt dòng chảy hoặc gắn với hạt từ tính. Quá trình khuếch đại này giúp tăng tín hiệu và độ chính xác của quá trình giải trình tự. Hai phương pháp khuếch đại phổ biến là PCR cầu (bridge PCR) và PCR nhũ tương (emulsion PCR).
  3. Giải trình tự: Mỗi nền tảng sử dụng một phương pháp khác nhau để xác định trình tự nucleotide. Một số phương pháp phổ biến bao gồm:
    • Giải trình tự bằng tổng hợp (Sequencing by synthesis): Phương pháp này theo dõi sự kết hợp của các nucleotide được đánh dấu huỳnh quang vào mạch DNA đang được tổng hợp.
    • Giải trình tự bằng ligation (Sequencing by ligation): Phương pháp này sử dụng các đoạn oligonucleotide được đánh dấu huỳnh quang để xác định trình tự.
    • Giải trình tự bằng ion bán dẫn (Ion semiconductor sequencing): Phương pháp này phát hiện sự thay đổi pH khi các nucleotide được kết hợp vào mạch DNA.
    • Giải trình tự nanopore (Nanopore sequencing): Phương pháp này đo lường sự thay đổi dòng điện khi một mạch DNA đi qua một lỗ nano.
  4. Phân tích dữ liệu: Dữ liệu giải trình tự thô được xử lý bằng các phần mềm chuyên dụng để loại bỏ các lỗi, sắp xếp các đoạn đọc (reads) vào bộ gen tham chiếu (nếu có) và xác định các biến thể di truyền.

Ưu điểm của NGS

  • Thông lượng cao: NGS có thể giải trình tự hàng tỷ đoạn DNA cùng một lúc, cho phép phân tích toàn bộ bộ gen hoặc các vùng DNA mục tiêu lớn với tốc độ nhanh.
  • Chi phí thấp: Chi phí giải trình tự trên mỗi nucleotide bằng NGS thấp hơn đáng kể so với phương pháp Sanger.
  • Độ chính xác cao: NGS có độ chính xác cao nhờ khả năng giải trình tự nhiều lần cùng một đoạn DNA.
  • Ứng dụng rộng rãi: NGS được ứng dụng trong nhiều lĩnh vực, bao gồm:
    • Nghiên cứu gen
    • Y học cá thể hóa
    • Chẩn đoán bệnh
    • Phát triển thuốc
    • Nghiên cứu tiến hóa
    • Khoa học pháp y

Hạn chế của NGS

  • Chiều dài đoạn đọc ngắn hơn so với Sanger: Một số nền tảng NGS tạo ra các đoạn đọc ngắn hơn so với phương pháp Sanger, điều này có thể gây khó khăn cho việc lắp ráp bộ gen và xác định các biến thể cấu trúc lớn.
  • Yêu cầu xử lý dữ liệu phức tạp: Dữ liệu NGS có khối lượng lớn và yêu cầu các phần mềm chuyên dụng để xử lý và phân tích.
  • Một số nền tảng có tỷ lệ lỗi cao hơn: Một số nền tảng NGS có tỷ lệ lỗi cao hơn so với phương pháp Sanger, mặc dù điều này có thể được khắc phục bằng cách giải trình tự nhiều lần.

Các ứng dụng của NGS

  • Genomics: Giải trình tự toàn bộ bộ gen (Whole Genome Sequencing – WGS), giải trình tự exome (Whole Exome Sequencing – WES), xác định các biến thể cấu trúc (Structural Variations – SVs).
  • Transcriptomics: Nghiên cứu biểu hiện gen (RNA-Seq), xác định isoform, phát hiện fusion gene.
  • Epigenomics: Nghiên cứu các biến đổi biểu sinh như methylation (Methyl-Seq), ChIP-Seq.
  • Metagenomics: Nghiên cứu hệ gen của cộng đồng vi sinh vật.
  • Y học chính xác (Precision Medicine): Chẩn đoán bệnh di truyền, xác định biomarker, lựa chọn thuốc phù hợp.
  • Nông nghiệp: Cải thiện giống cây trồng, vật nuôi.

So sánh NGS với phương pháp Sanger

Đặc điểm NGS Sanger
Thông lượng Cao Thấp
Chi phí Thấp Cao
Chiều dài đoạn đọc Ngắn – Dài (tùy nền tảng) Dài
Độ chính xác Cao Rất cao
Thời gian Nhanh Chậm

Tóm tắt về Giải trình tự thế hệ mới

NGS, hay Giải trình tự thế hệ mới, là một bước tiến vượt bậc so với phương pháp Sanger truyền thống, cho phép giải trình tự DNA/RNA với thông lượng cao hơn, chi phí thấp hơn và tốc độ nhanh hơn. Điểm mạnh cốt lõi của NGS nằm ở khả năng song song hóa quá trình giải trình tự hàng triệu, thậm chí hàng tỷ đoạn DNA/RNA cùng lúc. Điều này mở ra cơ hội nghiên cứu toàn diện về bộ gen, transcriptome, và epigenome.

Có nhiều nền tảng NGS khác nhau, mỗi loại sử dụng một phương pháp riêng biệt để xác định trình tự nucleotide. Ví dụ, Illumina sử dụng phương pháp giải trình tự bằng tổng hợp, trong khi Oxford Nanopore Technologies ứng dụng công nghệ nanopore. Việc lựa chọn nền tảng phù hợp phụ thuộc vào mục tiêu nghiên cứu cụ thể, cân nhắc giữa chiều dài đoạn đọc, độ chính xác, thông lượng và chi phí.

Phân tích dữ liệu là một khía cạnh quan trọng không kém trong quy trình NGS. Dữ liệu thô cần được xử lý bằng các phần mềm chuyên dụng để loại bỏ lỗi, sắp xếp đoạn đọc và xác định các biến thể di truyền. Chất lượng dữ liệu được đánh giá bằng các chỉ số như Q-score. Việc phân tích dữ liệu NGS đòi hỏi kiến thức chuyên môn về tin sinh học và thống kê.

NGS có ứng dụng rộng rãi trong nhiều lĩnh vực, từ nghiên cứu cơ bản về gen đến y học cá thể hóa và chẩn đoán bệnh. Sự phát triển không ngừng của công nghệ NGS đang thúc đẩy những tiến bộ vượt bậc trong khoa học sự sống và y học. Việc liên tục cập nhật kiến thức về các công nghệ và phương pháp phân tích dữ liệu NGS là điều cần thiết để khai thác tối đa tiềm năng của công nghệ này.


Tài liệu tham khảo:

  • Metzker, M. L. (2010). Sequencing technologies — the next generation. Nature reviews. Genetics, 11(1), 31–46.
  • Goodwin, S., McPherson, J. D., & McCombie, W. R. (2016). Coming of age: ten years of next-generation sequencing technologies. Nature reviews. Genetics, 17(6), 333–351.

Câu hỏi và Giải đáp

Sự khác biệt chính giữa giải trình tự Sanger và NGS là gì?

Trả lời: Sự khác biệt chính nằm ở thông lượng và chi phí. Sanger giải trình tự từng đoạn DNA một, trong khi NGS giải trình tự hàng triệu đến hàng tỷ đoạn DNA song song. Điều này khiến NGS nhanh hơn, rẻ hơn và phù hợp hơn cho các dự án quy mô lớn như giải trình tự toàn bộ bộ gen.

Làm thế nào để lựa chọn nền tảng NGS phù hợp cho một nghiên cứu cụ thể?

Trả lời: Việc lựa chọn nền tảng NGS phụ thuộc vào nhiều yếu tố, bao gồm:

  • Mục tiêu nghiên cứu: Giải trình tự toàn bộ bộ gen (WGS), giải trình tự exome (WES), RNA-Seq, v.v…
  • Chiều dài đoạn đọc: Một số nền tảng tạo ra đoạn đọc dài, phù hợp cho việc lắp ráp de novo và xác định biến thể cấu trúc, trong khi các nền tảng khác tạo ra đoạn đọc ngắn hơn nhưng với thông lượng cao hơn.
  • Độ chính xác: Mỗi nền tảng có tỷ lệ lỗi khác nhau.
  • Chi phí: Chi phí cho mỗi lần chạy và mỗi Gb dữ liệu.
  • Thời gian: Thời gian cần thiết để hoàn thành một lần chạy.

Q-score trong NGS là gì và tại sao nó quan trọng?

Trả lời: Q-score là thước đo chất lượng của base call trong dữ liệu giải trình tự. Nó được tính theo công thức:

$Q = -10log_{10}(P)$

Trong đó, P là xác suất base call bị sai. Q-score càng cao (ví dụ: Q30 tương đương với xác suất lỗi 1/1000), chất lượng dữ liệu càng tốt. Q-score quan trọng vì nó ảnh hưởng đến độ chính xác của các phân tích downstream, chẳng hạn như xác định biến thể di truyền.

Những thách thức chính trong phân tích dữ liệu NGS là gì?

Trả lời: Phân tích dữ liệu NGS gặp phải một số thách thức, bao gồm:

  • Khối lượng dữ liệu lớn: Yêu cầu dung lượng lưu trữ và khả năng xử lý lớn.
  • Độ phức tạp của các thuật toán: Cần các thuật toán phức tạp để xử lý và phân tích dữ liệu.
  • Kiểm soát chất lượng dữ liệu: Loại bỏ lỗi và nhiễu trong dữ liệu.
  • Diễn giải kết quả: Hiểu ý nghĩa sinh học của các biến thể di truyền được phát hiện.

Tương lai của NGS sẽ như thế nào?

Trả lời: Tương lai của NGS hướng đến việc:

  • Giảm chi phí và tăng tốc độ giải trình tự: Cho phép giải trình tự bộ gen trở nên phổ biến hơn.
  • Giải trình tự đoạn đọc dài hơn với độ chính xác cao hơn: Giúp lắp ráp bộ gen dễ dàng hơn và xác định chính xác hơn các biến thể cấu trúc.
  • Phát triển các công nghệ giải trình tự di động và tại chỗ (point-of-care sequencing): Ứng dụng trong chẩn đoán nhanh và điều trị cá thể hóa.
  • Tích hợp NGS với các công nghệ ‘omics’ khác: Cung cấp cái nhìn toàn diện hơn về hệ thống sinh học.
Một số điều thú vị về Giải trình tự thế hệ mới

  • Dự án Bộ gen người (Human Genome Project), hoàn thành vào năm 2003, mất 13 năm và gần 3 tỷ đô la để giải trình tự một bộ gen người bằng phương pháp Sanger. Ngày nay, với NGS, việc này có thể được thực hiện trong vài ngày với chi phí dưới 1000 đô la. Sự giảm giá đáng kinh ngạc này đã mở ra cánh cửa cho nhiều nghiên cứu và ứng dụng mới.
  • Một số nền tảng NGS có thể giải trình tự một bộ gen người trong thời gian thực. Điều này đặc biệt hữu ích trong chẩn đoán nhanh các bệnh nhiễm trùng hoặc xác định các đột biến gen liên quan đến ung thư trong quá trình phẫu thuật.
  • NGS không chỉ được sử dụng để giải trình tự DNA của con người mà còn được ứng dụng rộng rãi trong nghiên cứu các loài khác, từ vi khuẩn đến voi, giúp chúng ta hiểu rõ hơn về sự đa dạng sinh học và tiến hóa.
  • Công nghệ NGS đang được phát triển để giải trình tự DNA trực tiếp từ một tế bào đơn (single-cell sequencing). Điều này cho phép nghiên cứu sự đa dạng di truyền giữa các tế bào trong cùng một mô hoặc cơ quan, mở ra những hiểu biết mới về sự phát triển và bệnh tật.
  • Dữ liệu được tạo ra từ một lần chạy NGS có thể lên tới hàng terabyte, tương đương với dung lượng của hàng trăm bộ phim HD. Việc lưu trữ và phân tích lượng dữ liệu khổng lồ này là một thách thức lớn, đòi hỏi sự phát triển của các công nghệ tin sinh học tiên tiến.
  • Công nghệ NGS đang được sử dụng để theo dõi sự lây lan của các bệnh truyền nhiễm, bao gồm cả virus SARS-CoV-2 gây ra đại dịch COVID-19. Việc giải trình tự bộ gen virus giúp xác định các biến thể mới, theo dõi sự lây lan và phát triển các phương pháp điều trị hiệu quả.
  • NGS đang được ứng dụng trong lĩnh vực khảo cổ học để phân tích DNA cổ đại, giúp chúng ta hiểu rõ hơn về lịch sử loài người và các loài khác. Việc giải trình tự DNA từ các mẫu vật hàng ngàn năm tuổi cho phép tái hiện lại quá khứ và khám phá những bí ẩn của lịch sử.

BÁO CÁO NỘI DUNG BỊ SAI/LỖI

Nội dung được thẩm định bởi Công ty Cổ phần KH&CN Trí Tuệ Việt

P.5-8, Tầng 12, Tòa nhà Copac Square, 12 Tôn Đản, Quận 4, TP HCM.

PN: (+84).081.746.9527
office@tudienkhoahoc.org

Ban biên tập: 
GS.TS. Nguyễn Lương Vũ
GS.TS. Nguyễn Minh Phước
GS.TS. Hà Anh Thông
GS.TS. Nguyễn Trung Vĩnh

PGS.TS. Lê Đình An

PGS.TS. Hồ Bảo Quốc
PGS.TS. Lê Hoàng Trúc Duy
PGS.TS. Nguyễn Chu Gia
PGS.TS. Lương Minh Cang
TS. Nguyễn Văn Hồ
TS. Phạm Kiều Trinh

TS. Ngô Văn Bản
TS. Kiều Hà Minh Nhật
TS. Chu Phước An
ThS. Nguyễn Đình Kiên

CN. Lê Hoàng Việt
CN. Phạm Hạnh Nhi

Bản quyền thuộc về Công ty cổ phần Trí Tuệ Việt