Python cho khoa học dữ liệu bộ gen
Tin sinh học
Giới thiệu về bộ gen
Giới thiệu Python
Thiết lập hệ thống cho khoa học dữ liệu
Hướng dẫn về Notebook Jupyter
Dữ liệu và công cụ bộ gen
Tôi đang trên đường
Notebook Jupyter
Tôi đang trên đường
Tài nguyên và liên kết
Bộ gen thực
Công cụ
Tin tức
Các kỹ thuật thí nghiệm thông lượng cao đã cho phép cuộc cách mạng khoa học dữ liệu trong sinh học hiện đại. Những người có kỹ năng sinh học, tính toán và thống kê là nền tảng cho sự thay đổi này. Chuyên ngành này sẽ giúp bạn là một phần của làn sóng khoa học dữ liệu lớn mới về bộ gen. Những kỹ năng này có nhu cầu cao trong suốt sinh học hiện đại, từ các nhà khoa học băng ghế dự bị trong ngành công nghiệp và học viện đến các nhà khoa học dữ liệu làm việc với các phân tích chăm sóc sức khỏe. Chuyên ngành này sẽ dạy bạn hiểu, phân tích và giải thích dữ liệu từ các thí nghiệm giải trình tự thế hệ tiếp theo. Bạn sẽ tìm hiểu các công cụ phổ biến của khoa học dữ liệu genomic, bao gồm Python, R, Bioconductor và Galaxy. Các khóa học này có thể phục vụ như một giới thiệu độc lập về khoa học dữ liệu bộ gen hoặc có thể khen ngợi mức độ chính hoặc postdoc trong sinh học, sinh học phân tử hoặc di truyền học. Chuyên ngành kết thúc với một dự án capstone cho phép bạn áp dụng các kỹ năng bạn đã học trong suốt các khóa học. Trong dự án này, bạn sẽ đọc một bài báo khoa học dữ liệu bộ gen và trả lời một số câu hỏi để giúp bạn tìm hiểu về cách các lĩnh vực khác nhau trong khoa học dữ liệu genomic hoạt động cùng nhau và để đánh giá sự hiểu biết của bạn về một số khái niệm chúng tôi đã học trong suốt khóa học. Bài báo chúng ta đang đọc được gọi là: gen vi sinh vật trong bộ gen của con người: chuyển giao hoặc mất gen bên? Bạn có thể truy cập bài báo từ trang web tạp chí khoa học tại đây: //www.sciencemag.org/content/292/5523/1903.full. Giải pháp dự án Trang xuất bản Trang này bao gồm mô tả về các phân tích của các vị trí đa hình DNA của các mẫu giải trình tự mẹ-con-con cái: Bước 1: Dữ liệu tải - Dữ liệu được tải từ các tệp cục bộ, đặt cơ sở dữ liệu "FastqSanger" và "HG19" trên trang bắt đầu Bước 2: Kiểm tra chất lượng của tất cả các tệp giải trình tự - Sử dụng công cụ FASTQC [phiên bản: 0,63] để kiểm tra chất lượng của trình tự Bước 3: Ánh xạ - Sử dụng Công cụ BWA -MEM [Phiên bản: 0.1] để ánh xạ trình tự đến bộ gen tham chiếu [chọn HG19 làm tài liệu tham khảo], kết thúc được ghép nối[Chuyên ngành Khoa học Dữ liệu Genom [Đại học Johns Hopkins và Coursera]] [//www.coursera.org/specialization/genomics/41]
Ưu đãi & lợi ích
Khóa học
Dự án
Project1 - Khái niệm về khoa học dữ liệu bộ gen
Project2 - Xác định các vị trí đa hình DNA với thiên hà
Bước 4: Thêm hoặc thay thế các nhóm đọc - Dán nhãn cho mỗi nhóm [tệp ánh xạ] bằng addorRePlacereadgroup [phiên bản: 1.126.0]
Bước 5: Hợp nhất 3 Tệp ánh xạ riêng lẻ - Sử dụng MergesAmfiles [Phiên bản: 1.126.0]
Bước 6: Bộ lọc - Sử dụng Công cụ lọc: Bộ lọc [Phiên bản: 1.126.0, Xóa ánh xạ chất lượng thấp], MarkDuplicates [Phiên bản: 1.126.0, lọc ra ánh xạ trùng lặp], CleanSam [Phiên bản: 1.126.0]
Bước 7: Xác định các vị trí đa hình - Sử dụng công cụ Freebayes [phiên bản: 0,4] để xác định các vị trí đa hình trên bộ gen HG19
Bước 8: Lọc ra các trang web dương tính giả - sử dụng vcffilter [phiên bản: 0,0.3] để chọn các trang web trong đó cơ hội của một cuộc gọi dương tính giả là 1 trên 10.000 hoặc tốt hơn.
Bước 9: Trích xuất quy trình làm việc và tải xuống tệp VCF cuối cùng để phân tích thêm.
Giai đoạn 2 - Phân tích dữ liệu của các vị trí đa hình dựa trên tệp VCF
Bước 10: Dữ liệu tải - Đặt định dạng là "VCF", cơ sở dữ liệu bộ gen là HG19
Bước 11: Xác định số lượng SNP, MNP, DEL, INS hoặc phức tạp - sử dụng công cụ Vcffilter [phiên bản: 0.0.3] để chọn các loại đa hình khác nhau [ví dụ: -f "type = snp", chỉ chọn SNP], sau đó Sử dụng công cụ lọc [phiên bản: 1.1.0] để tìm đa hình trùng lặp
Bước 12: Xác định các gen với các vị trí đa hình - sử dụng công cụ VCF Annovar Annotate [Phiên bản: 0.1] để chú thích tệp VCF trong bước 10
Bước 13: đếm các vị trí đa hình cho mỗi gen - sử dụng công cụ nhóm [phiên bản: 2.1.0, theo tên gen] để đếm số lượng vị trí đa hình cho mỗi gen
Bước 14: Sắp xếp kết quả trong bước 13 bằng công cụ sắp xếp [phiên bản: 1.0.3, bằng cách giảm dần].
Quy trình làm việc
Lịch sử phân tích
Project3 - Phát triển các công cụ tin sinh học Python để phân tích trình tự DNA
Trong dự án này, một chương trình Python lấy một tệp đầu vào chứa các chuỗi DNA ở định dạng đa fasta đã được phát triển. Chương trình bao gồm một tập hợp các công cụ để phân tích trình tự DNA [a. Kiểm tra bản ghi trong tệp [Count_Records], b. Tính độ dài của mỗi chuỗi DNA [Check_length], c. Xác định khung đọc mở trong mỗi chuỗi DNA [orf_identifier], d . identify repeated motif in sequence [repeats_identifier]]. Để sử dụng các bộ công cụ, vui lòng gán tên đường dẫn và tên tệp cho chức năng lớp. Ví dụ: DNA_Tools = DNA_Tool_Sets ["../data/dna.example.fasta"]. Sau đó, gọi các hàm trong lớp, ví dụ: hàm gọi để kiểm tra độ dài của chuỗi DNA: length = DNA_tools.check_length []
Mã Python
.
Project4 - Phát triển đường ống cho giải trình tự thế hệ tiếp theo: Phân tích liên kết DNA, lắp ráp DNA, biến thể di truyền và giải trình tự RNA trong Linux
Project_A [excl]Giả sử bạn đã giải trình tự và lắp ráp bộ gen của Malus interfic [Apple] và thực hiện chú thích gen. Sau đó, bạn đã thu thập các mẫu và chạy các thí nghiệm RNA-seq để xác định các bộ gen được biểu hiện trong các mô khác nhau. Thông tin này được lưu trữ, tương ứng, trong các tệp sau: apple apple.genome ,, Apple Apple.Genes ,, Apple Apple.Condition {a, b, c}.
Lưu ý: Bộ gen của Apple và các chú thích gen của Apple cho dự án này được trích xuất từ cơ sở dữ liệu bộ gen Rosaceae [RGD]. Dữ liệu thực tế sau đó đã được sửa đổi và do đó có thể không phản ánh trực tiếp thông tin trong các bản ghi RGD ban đầu. Trả lời từng câu hỏi riêng. Trong trường hợp yêu cầu nhiều giá trị, hãy tách chúng bằng ‘, chỉ, không có khoảng trống. Không sử dụng ‘, trong số các số.
Mã dự án_A
Giải pháp Project_A
Project_B [excor2]Là một phần của một biến thể di truyền dự án dự án lớn hơn trong thực vật Arabidopsis thaliana, bạn đã giải trình tự và lắp ráp bộ gen của một chủng [‘wu_0_a,], sau đó ánh xạ lại các lần đọc vào bộ gen lắp ráp. Tệp BAM kết quả được bao gồm trong gói ‘gencommand_proj2_data.tar.gz. Sử dụng Samtools và Bedtools cũng như các lệnh Unix khác được giới thiệu trong khóa học này, kiểm tra các tệp và trả lời các câu hỏi sau.
Lưu ý: Dữ liệu đầu vào đã được lấy và sửa đổi từ các dữ liệu được tạo bởi Dự án bộ gen 1001, gia nhập ‘Wu_0_a.
Mã dự án_B
Giải pháp Project_B
Project_c [excor3]Là một phần của nỗ lực lập danh mục biến thể di truyền trong thực vật Arabidopsis thaliana, bạn đã giới thiệu bộ gen của một chủng [‘wu_0_a, tập tin bộ gen:‘ wu_0.v7.fas,], để xác định các biến thể di truyền trong sinh vật này. Các lần đọc trình tự được tạo ra trong tệp ‘wu_0_a_wgs.fastq. Sử dụng các công cụ Bowtie2, Samtools và BCFTools, phát triển một đường ống để gọi biến thể trong bộ gen này.
Lưu ý: Dữ liệu bộ gen và trình tự đã được lấy và sửa đổi từ các dữ liệu được tạo bởi Dự án bộ gen 1001, gia nhập ‘Wu_0_a.
Mã dự án_C
Giải pháp Project_C
Project_d [exclBạn đang thực hiện một thí nghiệm RNA-seq để xác định các gen được biểu hiện khác nhau ở các giai đoạn khác nhau trong sự phát triển của arabidopsis thaliana bắn mô phân sinh đỉnh. Bạn đã thu thập các mẫu vào ngày 8 và ngày 16 [Tệp Day Day8.FastQ và Day Day16.Fastq], trích xuất và giải trình tự mRNA di động, và hiện được thiết lập để thực hiện phân tích tin sinh học. Bộ gen tham chiếu mà bạn sẽ cần để phân tích là Ath Athal_chr.fa và các chú thích gen tham chiếu là trong Ath Athal_Genes.gtf. Sử dụng các tham số mặc định trừ khi có quy định khác. Các tệp lệnh mẫu mà bạn có thể sửa đổi để tạo đường ống của riêng bạn được cung cấp trong tệp lệnh. Các lệnh.tar.gz. Tất cả các tệp được cung cấp trong kho lưu trữ genCommand_proj4.tar.gz.
Lưu ý: Dữ liệu bộ gen và chú thích đã được lấy và sửa đổi từ cơ sở dữ liệu Thông tin [TAIR] của Arabidopsis và các lần đọc RNA-seq được trích xuất từ Lưu trữ đọc ngắn [SRA] của GenBank.
Mã dự án_D
Giải pháp Project_D
Lệnh