Giải trình tự RNA (RNA Sequencing – RNA-Seq)

by tudienkhoahoc
Giải trình tự RNA (RNA-Seq) là một kỹ thuật được sử dụng để phân tích toàn bộ transcriptome, tức là tập hợp tất cả các phân tử RNA, bao gồm mRNA, rRNA, tRNA, và các RNA không mã hóa khác, hiện diện trong một mẫu sinh học tại một thời điểm cụ thể. Nó cung cấp một cái nhìn tổng quan về hoạt động của gen bằng cách đo lường lượng RNA được tạo ra từ mỗi gen.

Nguyên lý hoạt động

RNA-Seq dựa trên công nghệ giải trình tự thế hệ mới (NGS). Quá trình này thường bao gồm các bước sau:

  1. Tách chiết RNA: RNA được tách chiết từ mẫu sinh học (ví dụ: mô, tế bào). Chất lượng và độ tinh khiết của RNA tách chiết ảnh hưởng đáng kể đến kết quả của RNA-Seq.
  2. Chọn lọc RNA: Tùy thuộc vào mục đích nghiên cứu, tổng số RNA được tách chiết có thể được sử dụng hoặc một tập hợp con cụ thể của RNA (ví dụ: mRNA) có thể được chọn lọc. Ví dụ, mRNA thường được chọn lọc bằng cách sử dụng các hạt từ tính được phủ oligonucleotide bổ sung với đuôi poly(A) của mRNA. Việc loại bỏ rRNA cũng là một bước phổ biến vì rRNA chiếm phần lớn tổng số RNA.
  3. Chuyển đổi thành cDNA: RNA được chuyển đổi thành cDNA (DNA bổ sung) bằng enzyme reverse transcriptase. Bước này là cần thiết vì các nền tảng NGS thường được thiết kế để giải trình tự DNA. Trong quá trình này, các đoạn RNA được dùng làm khuôn mẫu để tổng hợp các chuỗi cDNA tương ứng.
  4. Tạo thư viện: cDNA được phân mảnh, gắn adaptor (đoạn DNA ngắn đã biết trình tự) và khuếch đại bằng PCR để tạo ra một thư viện DNA sẵn sàng cho việc giải trình tự. Adaptor cho phép thư viện cDNA liên kết với bề mặt dòng chảy của máy giải trình tự.
  5. Giải trình tự: Thư viện cDNA được giải trình tự bằng nền tảng NGS, tạo ra hàng triệu đoạn đọc ngắn (reads). Có nhiều nền tảng NGS khác nhau, mỗi loại có những ưu và nhược điểm riêng.
  6. Phân tích dữ liệu: Các đoạn đọc được sắp xếp (align) vào bộ gen tham chiếu hoặc được lắp ráp *de novo* để tạo ra một transcriptome. Số lượng đoạn đọc được sắp xếp vào mỗi gen được sử dụng để định lượng mức độ biểu hiện gen. Phân tích dữ liệu RNA-Seq bao gồm nhiều bước phức tạp như kiểm soát chất lượng, chuẩn hóa, định lượng biểu hiện gen, và phân tích biểu hiện khác biệt.

Ứng dụng

RNA-Seq có nhiều ứng dụng quan trọng trong nghiên cứu sinh học và y sinh, bao gồm:

  • Định lượng biểu hiện gen: Xác định mức độ biểu hiện của các gen khác nhau trong các điều kiện khác nhau, giúp hiểu rõ chức năng của gen và sự điều hòa biểu hiện gen.
  • Phát hiện các biến thể của splice: Xác định các isoform khác nhau của mRNA được tạo ra từ cùng một gen thông qua quá trình splicing khác biệt. Điều này giúp hiểu rõ sự đa dạng của protein và chức năng của chúng.
  • Khám phá các gen mới: Xác định các phiên mã RNA chưa được biết đến trước đó, mở rộng kiến thức về transcriptome và bộ gen.
  • Nghiên cứu đột biến: Phát hiện các đột biến ở mức RNA, bao gồm cả các đột biến điểm và các đột biến cấu trúc, cung cấp thông tin về tác động của đột biến lên biểu hiện gen.
  • Phân loại ung thư: Xác định các đặc điểm phân tử của các khối u và phân loại chúng thành các nhóm khác nhau, hỗ trợ chẩn đoán và điều trị ung thư.
  • Phát triển biomarker: Xác định các biomarker tiềm năng cho các bệnh khác nhau, giúp phát triển các phương pháp chẩn đoán và điều trị mới.

Ưu điểm của RNA-Seq so với các phương pháp truyền thống như microarray

So với microarray, RNA-Seq mang lại nhiều ưu điểm vượt trội:

  • Phạm vi phát hiện rộng hơn: RNA-Seq có thể phát hiện cả các phiên mã đã biết và chưa biết, trong khi microarray chỉ có thể phát hiện các phiên mã có trình tự probe tương ứng.
  • Độ nhạy cao hơn: RNA-Seq có thể phát hiện các phiên mã có mức độ biểu hiện thấp, trong khi microarray có độ nhạy thấp hơn, khó phát hiện các phiên mã biểu hiện ở mức độ thấp.
  • Phạm vi động học rộng hơn: RNA-Seq có thể định lượng mức độ biểu hiện gen trên một phạm vi động học rộng hơn so với microarray, cho phép phân biệt chính xác hơn giữa các mức biểu hiện khác nhau.
  • Không cần biết trước trình tự: RNA-Seq không cần biết trước trình tự gen, trong khi microarray yêu cầu thiết kế probe dựa trên trình tự gen đã biết. Điều này khiến RNA-Seq trở nên hữu ích hơn trong việc nghiên cứu các sinh vật chưa có bộ gen được giải trình tự hoàn chỉnh.

RNA-Seq là một kỹ thuật mạnh mẽ để phân tích transcriptome, cung cấp một cái nhìn toàn diện về hoạt động của gen. Nó có nhiều ứng dụng trong nghiên cứu sinh học và y sinh, và đang ngày càng được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau.

Các loại RNA-Seq

Có nhiều loại RNA-Seq khác nhau, mỗi loại được thiết kế để giải quyết các câu hỏi nghiên cứu cụ thể:

  • RNA-Seq toàn bộ transcriptome (Total RNA-Seq): Giải trình tự tất cả các loại RNA trong một mẫu, bao gồm mRNA, rRNA, tRNA và các RNA không mã hóa khác. Phương pháp này cung cấp cái nhìn toàn diện nhất về transcriptome.
  • RNA-Seq mRNA (mRNA-Seq): Chỉ tập trung vào giải trình tự mRNA, loại RNA mã hóa protein. Phương pháp này thường sử dụng kỹ thuật làm giàu poly(A) để chọn lọc mRNA. mRNA-Seq tập trung vào việc nghiên cứu biểu hiện gen mã hóa protein.
  • Small RNA-Seq: Giải trình tự các RNA nhỏ như miRNA, siRNA và piRNA, đóng vai trò quan trọng trong điều hòa gen. Small RNA-Seq giúp nghiên cứu các cơ chế điều hòa gen sau phiên mã.
  • RNA-Seq tế bào đơn (Single-cell RNA-Seq – scRNA-Seq): Giải trình tự transcriptome của từng tế bào riêng lẻ, cho phép nghiên cứu sự không đồng nhất của tế bào trong một quần thể. scRNA-Seq cung cấp thông tin chi tiết về sự khác biệt giữa các tế bào.
  • RNA-Seq không gian (Spatial RNA-Seq): Giải trình tự RNA trong khi vẫn duy trì thông tin về vị trí không gian của chúng trong mô, cho phép nghiên cứu sự biểu hiện gen ở mức độ không gian. Spatial RNA-Seq giúp hiểu rõ sự phân bố và tương tác của các tế bào trong mô.

Phân tích dữ liệu RNA-Seq

Phân tích dữ liệu RNA-Seq là một quá trình phức tạp bao gồm nhiều bước:

  1. Kiểm soát chất lượng (Quality Control – QC): Đánh giá chất lượng của dữ liệu giải trình tự, loại bỏ các đoạn đọc chất lượng kém. Bước này đảm bảo độ tin cậy của kết quả phân tích.
  2. Sắp xếp (Alignment): Sắp xếp các đoạn đọc vào bộ gen tham chiếu hoặc lắp ráp *de novo* nếu chưa có bộ gen tham chiếu. Việc sắp xếp giúp xác định nguồn gốc của các đoạn đọc trên bộ gen.
  3. Định lượng biểu hiện gen: Đếm số lượng đoạn đọc được sắp xếp vào mỗi gen để ước tính mức độ biểu hiện gen. Kết quả thường được biểu thị bằng các đơn vị như RPKM (Reads Per Kilobase of transcript, per Million mapped reads), FPKM (Fragments Per Kilobase of transcript, per Million mapped reads) hoặc TPM (Transcripts Per Million). Mỗi đơn vị có cách tính toán và ý nghĩa khác nhau.
  4. Phân tích biểu hiện khác biệt (Differential Expression Analysis – DE): So sánh mức độ biểu hiện gen giữa các điều kiện khác nhau để xác định các gen biểu hiện khác biệt. Phân tích DE giúp tìm ra các gen có vai trò trong sự khác biệt giữa các điều kiện.
  5. Phân tích làm giàu gen (Gene Ontology Enrichment Analysis – GO): Xác định các chức năng sinh học và các con đường trao đổi chất được làm giàu trong tập hợp các gen biểu hiện khác biệt. Phân tích GO giúp hiểu rõ ý nghĩa sinh học của các gen biểu hiện khác biệt.
  6. Phân tích mạng lưới gen (Gene Regulatory Network Analysis): Nghiên cứu mối quan hệ giữa các gen và xác định các gen điều hòa chính. Phân tích mạng lưới gen giúp hiểu rõ cơ chế điều hòa gen phức tạp.

Hạn chế của RNA-Seq

Mặc dù có nhiều ưu điểm, RNA-Seq cũng có một số hạn chế:

  • Chi phí: RNA-Seq có thể tốn kém hơn so với các phương pháp truyền thống như microarray, đặc biệt là đối với các nghiên cứu quy mô lớn.
  • Độ phức tạp của phân tích dữ liệu: Phân tích dữ liệu RNA-Seq yêu cầu kiến thức chuyên môn về tin sinh học và thống kê.
  • Bias kỹ thuật: RNA-Seq có thể bị ảnh hưởng bởi các bias kỹ thuật như bias trong quá trình chuẩn bị thư viện và bias trong giải trình tự. Cần phải hiểu rõ và kiểm soát các bias này để đảm bảo kết quả chính xác.

Tóm tắt về Giải trình tự RNA

Giải trình tự RNA (RNA-Seq) là một kỹ thuật mạnh mẽ cho phép chúng ta khám phá và định lượng toàn bộ transcriptome của một mẫu sinh học. Điểm mạnh cốt lõi của RNA-Seq nằm ở khả năng phân tích toàn diện tất cả các phân tử RNA, từ mRNA mã hóa protein đến các RNA không mã hóa, cung cấp một bức tranh chi tiết về hoạt động của gen. So với các phương pháp cũ như microarray, RNA-Seq vượt trội hơn hẳn về độ nhạy, phạm vi động học và khả năng phát hiện các phiên mã mới. Điều này cho phép các nhà nghiên cứu đào sâu vào sự phức tạp của biểu hiện gen, khám phá các biến thể splice, và thậm chí là phát hiện các gen mới.

Ứng dụng của RNA-Seq vô cùng rộng rãi, từ việc nghiên cứu cơ chế bệnh tật, phát triển biomarker, đến phân loại ung thư và cá thể hóa điều trị. Kỹ thuật này đã cách mạng hóa nghiên cứu y sinh, mở ra những hướng đi mới trong việc hiểu và điều trị bệnh. Tuy nhiên, cần lưu ý rằng RNA-Seq cũng có những hạn chế nhất định. Chi phí thực hiện và phân tích dữ liệu có thể là một rào cản, đặc biệt là đối với các nghiên cứu quy mô lớn. Phân tích dữ liệu RNA-Seq cũng đòi hỏi kiến thức chuyên môn về tin sinh học và thống kê, do đó việc hợp tác với các chuyên gia tin sinh học là rất quan trọng để đảm bảo kết quả chính xác và đáng tin cậy.

Sự phát triển không ngừng của công nghệ RNA-Seq, bao gồm scRNA-Seq và spatial RNA-Seq, đang tiếp tục mở rộng khả năng ứng dụng của kỹ thuật này. scRNA-Seq cho phép nghiên cứu sự khác biệt giữa các tế bào riêng lẻ, trong khi spatial RNA-Seq cung cấp thông tin về vị trí không gian của các phân tử RNA trong mô. Những tiến bộ này hứa hẹn sẽ mang lại những khám phá đột phá trong tương lai, giúp chúng ta hiểu rõ hơn về sự phức tạp của sự sống ở cấp độ phân tử. Việc lựa chọn loại RNA-Seq phù hợp với mục tiêu nghiên cứu là rất quan trọng để tối ưu hóa kết quả và giảm thiểu chi phí.


Tài liệu tham khảo:

  • Mortazavi, A., Williams, B. A., McCue, K., Schaeffer, L., & Wold, B. (2008). Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nature methods, 5(7), 621-628.
  • Wang, Z., Gerstein, M., & Snyder, M. (2009). RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews genetics, 10(1), 57-63.
  • Conesa, A., Madrigal, P., Tarazona, S., Gomez-Cabrero, D., Cervera, A., McPherson, A., … & Mortazavi, A. (2016). A survey of best practices for RNA-seq data analysis. Genome biology, 17(1), 1-19.

Câu hỏi và Giải đáp

Làm thế nào để chọn lựa phương pháp chuẩn bị thư viện RNA-Seq phù hợp cho một nghiên cứu cụ thể?

Trả lời: Việc lựa chọn phương pháp chuẩn bị thư viện phụ thuộc vào mục tiêu nghiên cứu. Ví dụ, nếu muốn tập trung vào mRNA, kỹ thuật làm giàu poly(A) là phù hợp. Nếu quan tâm đến các RNA nhỏ, cần sử dụng phương pháp đặc hiệu cho small RNA. Đối với RNA-Seq toàn bộ transcriptome, cần phương pháp không phân biệt đối xử với các loại RNA khác nhau. Cần cân nhắc các yếu tố như chi phí, độ phức tạp của mẫu và các bias tiềm ẩn của từng phương pháp.

Sự khác biệt chính giữa RPKM/FPKM và TPM trong việc định lượng biểu hiện gen là gì? Tại sao TPM thường được ưu tiên hơn?

Trả lời: Cả RPKM/FPKM và TPM đều được sử dụng để chuẩn hóa số lượng đọc (reads) theo chiều dài gen và tổng số đọc trong mẫu. Tuy nhiên, TPM chuẩn hóa cho tổng số phiên mã sau khi đã chuẩn hóa theo chiều dài, trong khi RPKM/FPKM chuẩn hóa trước khi chuẩn hóa theo chiều dài. Điều này dẫn đến việc tổng số TPM trên tất cả các gen trong một mẫu luôn là một hằng số, giúp so sánh giữa các mẫu dễ dàng hơn. Do đó, TPM thường được ưa chuộng hơn RPKM/FPKM vì tính dễ so sánh giữa các mẫu.

Những thách thức chính trong phân tích dữ liệu scRNA-Seq là gì?

Trả lời: scRNA-Seq mang lại những thách thức riêng biệt, bao gồm xử lý số lượng lớn dữ liệu, độ nhiễu cao do số lượng RNA thấp trong mỗi tế bào, và hiệu ứng “dropout” (một số gen không được phát hiện mặc dù chúng được biểu hiện). Các phương pháp tính toán chuyên biệt được yêu cầu để xử lý những thách thức này, chẳng hạn như phương pháp imputing để xử lý dropout và các phương pháp giảm chiều dữ liệu để trực quan hóa và phân tích dữ liệu.

RNA-Seq có thể được sử dụng để nghiên cứu các biến đổi sau phiên mã như thế nào?

Trả lời: RNA-Seq cung cấp thông tin về các biến đổi sau phiên mã như splicing thay thế, chỉnh sửa RNA (RNA editing), và polyadenylation. Bằng cách phân tích các đoạn đọc (reads) được sắp xếp, có thể xác định các isoform khác nhau của mRNA được tạo ra từ cùng một gen do splicing thay thế. Các biến đổi trong trình tự RNA do chỉnh sửa RNA cũng có thể được phát hiện. Phân tích vị trí poly(A) có thể cung cấp thông tin về sự ổn định và dịch mã của mRNA.

Ngoài việc định lượng biểu hiện gen, RNA-Seq còn có thể được sử dụng để nghiên cứu điều gì khác?

Trả lời: RNA-Seq có thể được sử dụng để nghiên cứu cấu trúc transcriptome, bao gồm việc xác định các vị trí bắt đầu phiên mã và kết thúc phiên mã, cũng như khám phá các gen mới và các ncRNA. Nó cũng có thể được sử dụng để nghiên cứu sự tương tác RNA-protein và cấu trúc bậc hai của RNA. Ngoài ra, RNA-Seq còn có thể được ứng dụng trong nghiên cứu meta-transcriptomics để phân tích cộng đồng vi sinh vật.

Một số điều thú vị về Giải trình tự RNA

  • RNA-Seq đã giúp khám phá ra hàng ngàn “gen” mới: Trước khi có RNA-Seq, hiểu biết của chúng ta về transcriptome bị hạn chế bởi các phương pháp dựa trên probe như microarray. RNA-Seq đã cho phép phát hiện ra một lượng lớn các RNA không mã hóa (ncRNA) trước đây chưa được biết đến, mở rộng đáng kể hiểu biết của chúng ta về bộ gen và chức năng của nó. Một số ncRNA này đóng vai trò quan trọng trong điều hòa gen, phát triển và bệnh tật.
  • RNA-Seq có thể được sử dụng để nghiên cứu sự tiến hóa: Bằng cách so sánh transcriptome của các loài khác nhau, các nhà khoa học có thể tìm hiểu về mối quan hệ tiến hóa giữa chúng và cách các gen đã thay đổi theo thời gian. RNA-Seq cũng có thể được sử dụng để nghiên cứu sự thích nghi của sinh vật với môi trường.
  • RNA-Seq đang được sử dụng để phát triển các phương pháp điều trị ung thư cá nhân hóa: Bằng cách phân tích transcriptome của các tế bào ung thư, các nhà khoa học có thể xác định các đột biến và các con đường phân tử cụ thể góp phần vào sự phát triển của ung thư. Thông tin này có thể được sử dụng để phát triển các liệu pháp nhắm mục tiêu cụ thể vào các tế bào ung thư, giảm thiểu tác dụng phụ lên các tế bào khỏe mạnh.
  • RNA-Seq có thể được thực hiện trên một lượng mẫu rất nhỏ: Nhờ vào sự nhạy cảm cao, RNA-Seq có thể được thực hiện trên một lượng mẫu rất nhỏ, chẳng hạn như một vài tế bào. Điều này đặc biệt hữu ích trong các nghiên cứu sử dụng mẫu sinh thiết hoặc mẫu hiếm.
  • Dữ liệu RNA-Seq có thể rất lớn: Một thí nghiệm RNA-Seq điển hình có thể tạo ra hàng terabyte dữ liệu. Việc phân tích dữ liệu này đòi hỏi sức mạnh tính toán đáng kể và các thuật toán tin sinh học phức tạp. Sự phát triển của công nghệ điện toán đám mây đã giúp việc phân tích dữ liệu RNA-Seq trở nên dễ dàng hơn và tiết kiệm chi phí hơn.
  • RNA-Seq đang được sử dụng trong nông nghiệp: RNA-Seq đang được sử dụng để nghiên cứu biểu hiện gen ở cây trồng và vật nuôi, giúp cải thiện năng suất, chất lượng và khả năng kháng bệnh.

Những sự thật thú vị này cho thấy sức mạnh và tiềm năng to lớn của RNA-Seq trong việc thúc đẩy hiểu biết của chúng ta về sinh học và y học. Kỹ thuật này đang tiếp tục phát triển và hứa hẹn sẽ mang lại nhiều khám phá đột phá hơn nữa trong tương lai.

Nội dung được thẩm định bởi Công ty Cổ phần KH&CN Trí Tuệ Việt

P.5-8, Tầng 12, Tòa nhà Copac Square, 12 Tôn Đản, Quận 4, TP HCM.

PN: (+84).081.746.9527
[email protected]

Ban biên tập: 
GS.TS. Nguyễn Lương Vũ
GS.TS. Nguyễn Minh Phước
GS.TS. Hà Anh Thông
GS.TS. Nguyễn Trung Vĩnh

PGS.TS. Lê Đình An

PGS.TS. Hồ Bảo Quốc
PGS.TS. Lê Hoàng Trúc Duy
PGS.TS. Nguyễn Chu Gia
PGS.TS. Lương Minh Cang
TS. Nguyễn Văn Hồ
TS. Phạm Kiều Trinh

TS. Ngô Văn Bản
TS. Kiều Hà Minh Nhật
TS. Chu Phước An
ThS. Nguyễn Đình Kiên

CN. Lê Hoàng Việt
CN. Phạm Hạnh Nhi

Bản quyền thuộc về Công ty cổ phần Trí Tuệ Việt