Trình tự đồng thuận biopython

Zenodo DOI Badge

DOI

10.5281/zenodo.3949790

đánh dấu

[![DOI](https://sg.cdnki.com/trinh-tu-dong-thuan-biopython---aHR0cHM6Ly96ZW5vZG8ub3JnL2JhZGdlL0RPSS8xMC41MjgxL3plbm9kby4zOTQ5NzkwLnN2Zw==.webp)](https://doi.org/10.5281/zenodo.3949790)

cấu trúc lại văn bản

. image:: https://zenodo.org/badge/DOI/10.5281/zenodo.3949790.svg
   :target: https://doi.org/10.5281/zenodo.3949790

HTML

URL hình ảnh

https://zenodo.org/badge/DOI/10.5281/zenodo.3949790.svg

URL mục tiêu

https://doi.org/10.5281/zenodo.3949790

Thiết kế trình tự đồng thuận protein đã được chứng minh là một chiến lược thành công để chế tạo các protein có tính ổn định cao, duy trì các hoạt động sinh học của chúng. Một trình tự đồng nhất protein bao gồm phần dư thường xuyên nhất ở tất cả các vị trí trong sự liên kết nhiều trình tự (MSA) của các trình tự protein tương đồng. Tất cả những gì cần thiết để thiết kế trình tự đồng thuận protein là một MSA cho họ protein mục tiêu và các tập lệnh mã hóa cơ bản để xác định tần số dư lượng ở tất cả các vị trí trong MSA. Áp dụng các bước tiền xử lý cho một tập hợp trình tự có thể cải thiện sự liên kết trình tự và kết quả là trình tự đồng thuận. Ở đây chúng tôi đã tạo sẵn một tập lệnh (length_filter. py) để hỗ trợ tiền xử lý một tập hợp trình tự bằng cách lọc các trình tự theo độ dài trình tự trước khi căn chỉnh trình tự và một tập lệnh (sự đồng thuận. py) để xác định tần suất dư lượng tại tất cả các vị trí trong MSA, lọc các phần chèn dư lượng từ MSA và xác định trình tự đồng thuận

Yêu cầu

Cả hai tập lệnh đều yêu cầu Python3. 6 hoặc mới hơn. Các tập lệnh được viết bằng Python3. 6 trên hệ thống MacOSX (Unix)

Cả hai tập lệnh đều yêu cầu các gói không chuẩn sau.
numpy
matplotlib

Các gói này có thể được cài đặt bằng pip từ dòng lệnh bằng cách chạy

pip3 install numpy matplotlib

Để biết thông tin về cách cài đặt hoặc sử dụng pip nếu cần, hãy xem. píp

Cài đặt

Để cài đặt protein-consensus-sequence, hãy sao chép hoặc tải kho lưu trữ này về máy tính cục bộ của bạn

Cả hai length_filter. py và sự đồng thuận. py được chạy từ dòng lệnh. Các tham số có thể tùy chỉnh được cung cấp dưới dạng tùy chọn dòng lệnh để cho phép người dùng sử dụng các tập lệnh theo ý muốn. Sau đây là hướng dẫn về cách sử dụng cả length_filter. py và sự đồng thuận. tập lệnh py

GHI CHÚ. Bộ trình tự và MSA phải ở định dạng FASTA

GHI CHÚ. Cả hai length_filter. py và sự đồng thuận. py phải được thực thi trước khi sử dụng lần đầu. Điều này có thể được thực hiện từ dòng lệnh bằng cách

chmod +x length_filter.py
chmod +x consensus.py

chiều dài_bộ lọc. py

Tập lệnh length_filter. py sẽ lấy một tập hợp trình tự (phải ở định dạng FASTA) và loại bỏ các đoạn cắt ngắn của trình tự (các trình tự rất ngắn) và các trình tự dài bất thường (thường từ các phần chèn lớn) khỏi tập hợp. Quá trình lọc này được thực hiện bằng cách loại bỏ các trình tự sai lệch so với độ dài trình tự trung bình của tập hợp bằng +/- phần trăm độ dài ngưỡng. Ngưỡng mặc định có độ lệch 30% được sử dụng nhưng người dùng có thể thay đổi ngưỡng này bằng cách sử dụng cờ '-t'. Bước xử lý này giúp tạo ra sự sắp xếp trình tự tốt hơn

Các bước để chạy length_filter. py

  1. Mở giao diện dòng lệnh và nhập thư mục protein-consensus-sequence bằng cách

________số 8

  1. Nếu chưa làm như vậy, hãy thay đổi quyền của tệp thành có thể thực thi được (xem phần Cài đặt)
  2. Đặt trình tự mong muốn được đặt trong thư mục Đầu vào
  3. Chạy length_filter. tập lệnh py (ví dụ dành cho tham số mặc định) từ dòng lệnh bằng cách

./length_filter.py -i Inputs/

  1. Tệp tập hợp trình tự được sắp xếp, biểu đồ độ dài trình tự và tệp tóm tắt sẽ được lưu trong thư mục Đầu ra

Để sử dụng làm ví dụ, một bộ trình tự phosphoglycerate kinase (PGK) thu được từ cơ sở dữ liệu Interpro nằm trong thư mục Đầu vào. Để chạy ví dụ này, hãy chạy đoạn mã sau từ dòng lệnh

[![DOI](https://zenodo.org/badge/DOI/10.5281/zenodo.3949790.svg)](https://doi.org/10.5281/zenodo.3949790)
0

Tùy chọn dòng lệnh

Các tùy chọn có thể tùy chỉnh có thể được cung cấp dưới dạng cờ trên dòng lệnh. Để xem các tùy chọn cờ khả dụng khác nhau, hãy chạy

[![DOI](https://zenodo.org/badge/DOI/10.5281/zenodo.3949790.svg)](https://doi.org/10.5281/zenodo.3949790)
1

Bảng sau đây cũng cung cấp tổng quan về các tùy chọn cờ

FlagDescrip-iFilename để căn chỉnh FASTA. -oĐầu ra tên tệp FASTA. Nếu không được cung cấp sẽ sử dụng tên của tệp FASTA đầu vào làm mẫu để đặt tên cho tệp đầu ra. -tSequence độ dài lọc giá trị ngưỡng (mặc định. 0. 3 để loại bỏ các trình tự sai lệch +/- 30% so với độ dài trình tự trung bình của tập hợp). Phải là một giá trị từ 0 đến 1. Cờ -fInclude để ngăn lưu hình ảnh của biểu đồ độ dài chuỗi-cờ Bao gồm để giữ các khoảng trống trong chuỗi để căn chỉnh FASTA đầu ra (không được khuyến nghị để quản lý thêm)

Ví dụ: để chạy bộ trình tự PGK với giá trị ngưỡng lọc độ dài khác, hãy chạy đoạn mã sau từ dòng lệnh

[![DOI](https://zenodo.org/badge/DOI/10.5281/zenodo.3949790.svg)](https://doi.org/10.5281/zenodo.3949790)
2

đoàn kết. py

Kịch bản thống nhất. py sẽ lấy một MSA (phải ở định dạng FASTA), tính toán tần suất dư lượng ở tất cả các vị trí trong MSA, các vị trí chèn bộ lọc (xem ghi chú bên dưới để biết giải thích các phương pháp lọc chèn) và xác định trình tự đồng thuận cho MSA

GHI CHÚ. đoàn kết. py có thể được chạy trực tiếp trên MSA chưa được quản lý thu được từ cơ sở dữ liệu như Pfam (i. e. bỏ qua các bước 2-4 trong phần Quy trình làm việc bên dưới). Tuy nhiên, các bước giám tuyển này nên được áp dụng

Các bước chạy đồng thuận. py

  1. Mở giao diện dòng lệnh và nhập thư mục protein-consensus-sequence bằng cách

________số 8

  1. Nếu chưa làm như vậy, hãy thay đổi quyền của tệp thành có thể thực thi được (xem phần Cài đặt)
  2. Đặt MSA mong muốn trong thư mục Đầu vào
  3. Chạy sự đồng thuận. tập lệnh py (ví dụ dành cho tham số mặc định) từ dòng lệnh bằng cách

[![DOI](https://zenodo.org/badge/DOI/10.5281/zenodo.3949790.svg)](https://doi.org/10.5281/zenodo.3949790)
4

  1. Căn chỉnh chèn được lọc (xóa khoảng cách) của tất cả các trình tự trong MSA, tệp CSV về tần số dư tại tất cả các vị trí trong căn chỉnh được lọc chèn, biểu đồ tần số khoảng cách cho tất cả các vị trí, biểu đồ entropties trình tự (số đo vị trí

Để sử dụng làm ví dụ, một MSA đã được sắp xếp trước đó của các miền nội địa (HD) được lấy từ cơ sở dữ liệu Pfam nằm trong thư mục Đầu vào. Để chạy ví dụ này (sử dụng các tham số mặc định), hãy chạy đoạn mã sau từ dòng lệnh

[![DOI](https://zenodo.org/badge/DOI/10.5281/zenodo.3949790.svg)](https://doi.org/10.5281/zenodo.3949790)
5

Tùy chọn dòng lệnh

Các tùy chọn có thể tùy chỉnh có thể được cung cấp dưới dạng cờ trên dòng lệnh. Để xem các tùy chọn cờ khả dụng khác nhau, hãy chạy

chmod +x length_filter.py
chmod +x consensus.py
0

Bảng sau đây cũng cung cấp tổng quan về các tùy chọn cờ

FlagDescrip-iFilename để căn chỉnh FASTA. -cDesired phương pháp để loại bỏ chèn. Xem bên dưới để biết giải thích về tên tệp phương thức-oOutput FASTA. Nếu không được cung cấp sẽ sử dụng tên của tệp FASTA đầu vào làm mẫu để đặt tên cho tệp đầu ra. Ngưỡng tần số -tDap để xác định vị trí đồng thuận. Chỉ hợp lệ cho Tùy chọn 1 để xóa phần chèn. Phải là một giá trị từ 0 đến 1 (mặc định. 0. 5). -fInclude cờ để ngăn lưu hình ảnh phân tích dữ liệu MSA

Tùy chọn lọc chèn

Việc lọc MSA để chèn được thực hiện khác nhau bởi các nhóm khác nhau. Chèn lọc có thể được xem là "Tôi muốn đưa những vị trí nào vào trình tự đồng thuận của mình?" . tập lệnh py cho phép người dùng chọn phương thức họ thích. Các tùy chọn có sẵn là

  1. (Được khuyến nghị) Xóa các vị trí có tần suất chênh lệch > 50%. Hoặc nói ngược lại, giữ các vị thế có tần suất chênh lệch < 50%. Lưu ý rằng đối với chiến lược này, các vị trí được bao gồm trong chuỗi đồng thuận có thể có khoảng cách là ký tự có tần suất xuất hiện nhiều nhất trong liên kết, tuy nhiên, hơn một nửa số chuỗi trong liên kết sẽ có phần dư ở tất cả các vị trí được bao gồm
  2. Xóa các vị trí mà khoảng cách là ký tự thường xuyên nhất. Hoặc nói ngược lại, giữ các vị trí mà dư lượng là ký tự thường xuyên nhất
  3. Xóa các vị trí có khoảng trống trong trình tự tham chiếu do người dùng chỉ định. Đối với tùy chọn này, người dùng sẽ được yêu cầu cung cấp ID của chuỗi tham chiếu. Lưu ý rằng chuỗi tham chiếu và ID phải có trong MSA

quy trình làm việc

Các tập lệnh có sẵn trong chuỗi đồng thuận protein không bao gồm tất cả các bước trong quá trình thiết kế chuỗi đồng thuận protein. Thay vào đó, chúng được thiết kế để sử dụng kết hợp với chương trình lọc dự phòng trình tự và chương trình căn chỉnh nhiều trình tự. Quy trình làm việc cho toàn bộ quá trình xác định trình tự đồng thuận là