Dự đoán cấu trúc protein (Protein Structure Prediction)

by tudienkhoahoc
Dự đoán cấu trúc protein là lĩnh vực nghiên cứu khoa học tìm cách xác định cấu trúc ba chiều của một protein từ trình tự amino acid của nó. Nói cách khác, nó nhằm mục đích dự đoán cấu trúc gập khúc của protein dựa trên chuỗi các axit amin cấu thành nên nó. Đây là một bài toán quan trọng trong sinh học tính toán và hóa sinh, vì cấu trúc của protein quyết định chức năng của nó. Việc xác định cấu trúc protein bằng thực nghiệm (ví dụ: bằng tinh thể học tia X hoặc NMR) rất tốn kém và mất thời gian. Do đó, dự đoán cấu trúc cung cấp một giải pháp thay thế hiệu quả về chi phí và thời gian để hiểu chức năng của protein.

Tại sao việc dự đoán cấu trúc protein lại quan trọng?

Cấu trúc 3D của protein đóng vai trò then chốt trong việc xác định chức năng của nó. Biết được cấu trúc này giúp chúng ta hiểu được:

  • Cơ chế hoạt động: Làm thế nào protein tương tác với các phân tử khác, ví dụ như thuốc hoặc các protein khác.
  • Thiết kế thuốc: Dự đoán cấu trúc protein của mầm bệnh có thể hỗ trợ trong việc phát triển các loại thuốc nhắm mục tiêu cụ thể.
  • Kỹ thuật protein: Sửa đổi protein để cải thiện chức năng hoặc tạo ra các chức năng mới.
  • Hiểu bệnh: Các đột biến gen có thể ảnh hưởng đến cấu trúc protein, dẫn đến bệnh tật. Dự đoán cấu trúc giúp hiểu được tác động của các đột biến này.

Các phương pháp dự đoán cấu trúc protein

Có nhiều phương pháp khác nhau để dự đoán cấu trúc protein, bao gồm:

  • Mô hình đồng đẳng (Homology modeling): Nếu một protein có trình tự amino acid tương tự với một protein khác có cấu trúc đã biết, thì cấu trúc của protein mục tiêu có thể được dự đoán dựa trên cấu trúc của protein đã biết (protein khuôn mẫu). Độ chính xác của phương pháp này phụ thuộc nhiều vào mức độ tương đồng giữa trình tự protein mục tiêu và protein khuôn mẫu.
  • Mô hình luồng (Threading): Phương pháp này cố gắng “luồn” trình tự amino acid của protein mục tiêu vào các cấu trúc đã biết để tìm sự phù hợp tốt nhất. Phương pháp này hữu ích khi không tìm thấy protein có trình tự tương đồng cao với protein mục tiêu.
  • Mô phỏng ab initio: Phương pháp này dự đoán cấu trúc protein từ đầu, dựa trên các nguyên tắc vật lý và hóa học cơ bản, như năng lượng tự do Gibbs ($G$). Mục tiêu là tìm cấu trúc có năng lượng tự do thấp nhất. Phương pháp này rất khó khăn do không gian tìm kiếm cấu trúc rộng lớn. Tuy nhiên, ab initio có thể được sử dụng cho các protein không có khuôn mẫu đồng đẳng hoặc luồng phù hợp.
  • Deep learning: Gần đây, các phương pháp học sâu, đặc biệt là sử dụng mạng nơ-ron phức tạp, đã đạt được những bước tiến đáng kể trong việc dự đoán cấu trúc protein, như trong trường hợp của AlphaFold. Các mạng này được huấn luyện trên một lượng lớn dữ liệu trình tự và cấu trúc protein, cho phép chúng học các mẫu phức tạp và dự đoán cấu trúc với độ chính xác cao.

Các cấp độ cấu trúc protein

Dự đoán cấu trúc protein thường tập trung vào việc xác định:

  • Cấu trúc bậc hai: Các cấu trúc cục bộ đều đặn, chẳng hạn như xoắn alpha ($\alpha$-helix) và phiến gấp beta ($\beta$-sheet). Việc dự đoán cấu trúc bậc hai thường là bước đầu tiên trong quá trình dự đoán cấu trúc 3D hoàn chỉnh.
  • Cấu trúc bậc ba: Cấu trúc ba chiều tổng thể của một chuỗi polypeptide. Đây là cấu trúc 3D hoàn chỉnh của một đơn vị protein duy nhất.
  • Cấu trúc bậc bốn: Sự sắp xếp của nhiều chuỗi polypeptide trong một phức hợp protein. Không phải tất cả protein đều có cấu trúc bậc bốn; nhiều protein chỉ tồn tại dưới dạng đơn vị đơn lẻ.

Thách thức và hướng phát triển

Mặc dù đã có những tiến bộ đáng kể, dự đoán cấu trúc protein vẫn là một lĩnh vực nghiên cứu đang phát triển với nhiều thách thức, bao gồm:

  • Độ chính xác: Đảm bảo độ chính xác của các mô hình dự đoán, đặc biệt là đối với các protein có cấu trúc phức tạp hoặc ít thông tin tương đồng.
  • Protein màng: Dự đoán cấu trúc của protein màng rất khó khăn do môi trường kỵ nước của chúng. Các phương pháp truyền thống thường gặp khó khăn trong việc mô hình hóa chính xác tương tác giữa protein màng và lớp lipid kép.
  • Phức hợp protein: Dự đoán cấu trúc của phức hợp protein, bao gồm nhiều chuỗi polypeptide, vẫn là một thách thức lớn. Việc dự đoán cách các tiểu đơn vị riêng lẻ tương tác với nhau để tạo thành phức hợp là rất phức tạp.

Sự phát triển liên tục của các thuật toán mới, đặc biệt là trong lĩnh vực học sâu và tích hợp dữ liệu thực nghiệm, hứa hẹn sẽ cải thiện hơn nữa độ chính xác và hiệu quả của dự đoán cấu trúc protein trong tương lai.

Đánh giá chất lượng mô hình dự đoán

Sau khi dự đoán cấu trúc protein, việc đánh giá chất lượng của mô hình là rất quan trọng. Một số phương pháp đánh giá phổ biến bao gồm:

  • RMSD (Root-Mean-Square Deviation): Đo lường độ lệch trung bình giữa các nguyên tử của mô hình dự đoán và cấu trúc thực nghiệm (nếu có). Giá trị RMSD càng thấp, mô hình càng chính xác. Tuy nhiên, RMSD nhạy cảm với kích thước protein, nên không phải lúc nào cũng là thước đo so sánh tốt nhất giữa các protein có kích thước khác nhau.
  • GDT-TS (Global Distance Test – Total Score): Đánh giá mức độ tương đồng giữa mô hình dự đoán và cấu trúc thực nghiệm dựa trên khoảng cách giữa các nguyên tử. GDT-TS ít nhạy cảm với kích thước protein hơn RMSD.
  • TM-score (Template Modeling score): Một thước đo tương tự GDT-TS, nhưng ít nhạy cảm hơn với kích thước protein. TM-score được chuẩn hóa theo chiều dài protein, cho phép so sánh dễ dàng hơn giữa các protein có kích thước khác nhau.
  • MolProbity: Đánh giá chất lượng stereochemical của mô hình, bao gồm góc liên kết, góc xoắn, và va chạm giữa các nguyên tử. MolProbity giúp xác định các vùng có cấu trúc bất thường hoặc không thực tế trong mô hình dự đoán.

Ứng dụng của dự đoán cấu trúc protein

Dự đoán cấu trúc protein có nhiều ứng dụng quan trọng trong các lĩnh vực khác nhau, bao gồm:

  • Khám phá thuốc: Xác định các vị trí liên kết trên protein mục tiêu để thiết kế thuốc ức chế hoặc hoạt hóa hoạt động của protein. Việc biết cấu trúc protein của mục tiêu thuốc giúp thiết kế các phân tử liên kết đặc hiệu và hiệu quả hơn.
  • Kỹ thuật protein: Thiết kế protein mới hoặc cải thiện chức năng của protein hiện có. Dự đoán cấu trúc có thể hướng dẫn việc đưa các đột biến vào protein để thay đổi tính chất của chúng, chẳng hạn như độ ổn định hoặc hoạt tính xúc tác.
  • Sinh học tổng hợp: Tạo ra các hệ thống sinh học nhân tạo với các chức năng cụ thể. Dự đoán cấu trúc đóng vai trò quan trọng trong việc thiết kế các protein và enzyme mới cho các ứng dụng sinh học tổng hợp.
  • Nghiên cứu tiến hóa: So sánh cấu trúc protein của các loài khác nhau để hiểu về mối quan hệ tiến hóa. Sự tương đồng về cấu trúc protein có thể cung cấp thông tin về tổ tiên chung và các quá trình tiến hóa.
  • Chẩn đoán bệnh: Xác định tác động của các đột biến gen lên cấu trúc và chức năng của protein, từ đó hiểu rõ hơn về cơ chế gây bệnh. Dự đoán cấu trúc có thể giúp dự đoán liệu một đột biến có khả năng gây bệnh hay không, và cung cấp thông tin chi tiết về cơ chế phân tử của bệnh.

Các công cụ và nguồn dữ liệu

Có nhiều công cụ và nguồn dữ liệu trực tuyến hỗ trợ dự đoán và phân tích cấu trúc protein, bao gồm:

  • AlphaFold2 (DeepMind): Một hệ thống học sâu đã đạt được độ chính xác đột phá trong dự đoán cấu trúc protein. AlphaFold2 đã cách mạng hóa lĩnh vực dự đoán cấu trúc protein và cung cấp các mô hình có độ chính xác cao cho một loạt các protein.
  • RoseTTAFold (University of Washington): Một công cụ dự đoán cấu trúc protein dựa trên học sâu, có hiệu suất tương đương với AlphaFold2. RoseTTAFold cung cấp một giải pháp thay thế mã nguồn mở cho AlphaFold2.
  • SWISS-MODEL: Một máy chủ tự động cho mô hình đồng đẳng. SWISS-MODEL là một công cụ được sử dụng rộng rãi để tạo mô hình đồng đẳng cho các protein có trình tự tương đồng với các protein có cấu trúc đã biết.
  • I-TASSER: Một máy chủ cho mô hình luồng và ab initio. I-TASSER kết hợp nhiều phương pháp dự đoán cấu trúc để tạo ra các mô hình cho các protein không có khuôn mẫu đồng đẳng phù hợp.
  • Protein Data Bank (PDB): Cơ sở dữ liệu chứa các cấu trúc protein được xác định bằng thực nghiệm. PDB là một nguồn tài nguyên vô giá cho các nhà nghiên cứu về cấu trúc protein, cung cấp một kho lưu trữ rộng lớn về dữ liệu cấu trúc thực nghiệm.

 

Nội dung được thẩm định bởi Công ty Cổ phần KH&CN Trí Tuệ Việt

P.5-8, Tầng 12, Tòa nhà Copac Square, 12 Tôn Đản, Quận 4, TP HCM.

PN: (+84).081.746.9527
[email protected]

Ban biên tập: 
GS.TS. Nguyễn Lương Vũ
GS.TS. Nguyễn Minh Phước
GS.TS. Hà Anh Thông
GS.TS. Nguyễn Trung Vĩnh

PGS.TS. Lê Đình An

PGS.TS. Hồ Bảo Quốc
PGS.TS. Lê Hoàng Trúc Duy
PGS.TS. Nguyễn Chu Gia
PGS.TS. Lương Minh Cang
TS. Nguyễn Văn Hồ
TS. Phạm Kiều Trinh

TS. Ngô Văn Bản
TS. Kiều Hà Minh Nhật
TS. Chu Phước An
ThS. Nguyễn Đình Kiên

CN. Lê Hoàng Việt
CN. Phạm Hạnh Nhi

Bản quyền thuộc về Công ty cổ phần Trí Tuệ Việt