Hướng dẫn python for genomic data science pdf - python cho khoa học dữ liệu bộ gen pdf

Python cho khoa học dữ liệu bộ gen

Tin sinh học

Giới thiệu về bộ gen

Giới thiệu Python

Thiết lập hệ thống cho khoa học dữ liệu

Hướng dẫn về Notebook Jupyter

Dữ liệu và công cụ bộ gen

Tôi đang trên đường

Notebook Jupyter

Tôi đang trên đường

Tài nguyên và liên kết

Bộ gen thực

Công cụ

Tin tức

[Chuyên ngành Khoa học Dữ liệu Genom (Đại học Johns Hopkins và Coursera)] (https://www.coursera.org/specialization/genomics/41)

Ưu đãi & lợi ích

Các kỹ thuật thí nghiệm thông lượng cao đã cho phép cuộc cách mạng khoa học dữ liệu trong sinh học hiện đại. Những người có kỹ năng sinh học, tính toán và thống kê là nền tảng cho sự thay đổi này. Chuyên ngành này sẽ giúp bạn là một phần của làn sóng khoa học dữ liệu lớn mới về bộ gen. Những kỹ năng này có nhu cầu cao trong suốt sinh học hiện đại, từ các nhà khoa học băng ghế dự bị trong ngành công nghiệp và học viện đến các nhà khoa học dữ liệu làm việc với các phân tích chăm sóc sức khỏe.

Khóa học

Chuyên ngành này sẽ dạy bạn hiểu, phân tích và giải thích dữ liệu từ các thí nghiệm giải trình tự thế hệ tiếp theo. Bạn sẽ tìm hiểu các công cụ phổ biến của khoa học dữ liệu genomic, bao gồm Python, R, Bioconductor và Galaxy. Các khóa học này có thể phục vụ như một giới thiệu độc lập về khoa học dữ liệu bộ gen hoặc có thể khen ngợi mức độ chính hoặc postdoc trong sinh học, sinh học phân tử hoặc di truyền học. Chuyên ngành kết thúc với một dự án capstone cho phép bạn áp dụng các kỹ năng bạn đã học trong suốt các khóa học.

Dự án

Project1 - Khái niệm về khoa học dữ liệu bộ gen

Trong dự án này, bạn sẽ đọc một bài báo khoa học dữ liệu bộ gen và trả lời một số câu hỏi để giúp bạn tìm hiểu về cách các lĩnh vực khác nhau trong khoa học dữ liệu genomic hoạt động cùng nhau và để đánh giá sự hiểu biết của bạn về một số khái niệm chúng tôi đã học trong suốt khóa học. Bài báo chúng ta đang đọc được gọi là: gen vi sinh vật trong bộ gen của con người: chuyển giao hoặc mất gen bên? Bạn có thể truy cập bài báo từ trang web tạp chí khoa học tại đây: http://www.sciencemag.org/content/292/5523/1903.full.

Giải pháp dự án

Project2 - Xác định các vị trí đa hình DNA với thiên hà

Trang xuất bản

Trang này bao gồm mô tả về các phân tích của các vị trí đa hình DNA của các mẫu giải trình tự mẹ-con-con cái:

Bước 1: Dữ liệu tải - Dữ liệu được tải từ các tệp cục bộ, đặt cơ sở dữ liệu "FastqSanger" và "HG19" trên trang bắt đầu

Bước 2: Kiểm tra chất lượng của tất cả các tệp giải trình tự - Sử dụng công cụ FASTQC (phiên bản: 0,63) để kiểm tra chất lượng của trình tự

Bước 3: Ánh xạ - Sử dụng Công cụ BWA -MEM (Phiên bản: 0.1) để ánh xạ trình tự đến bộ gen tham chiếu (chọn HG19 làm tài liệu tham khảo), kết thúc được ghép nối

Bước 4: Thêm hoặc thay thế các nhóm đọc - Dán nhãn cho mỗi nhóm (tệp ánh xạ) bằng addorRePlacereadgroup (phiên bản: 1.126.0)

Bước 5: Hợp nhất 3 Tệp ánh xạ riêng lẻ - Sử dụng MergesAmfiles (Phiên bản: 1.126.0)

Bước 6: Bộ lọc - Sử dụng Công cụ lọc: Bộ lọc (Phiên bản: 1.126.0, Xóa ánh xạ chất lượng thấp), MarkDuplicates (Phiên bản: 1.126.0, lọc ra ánh xạ trùng lặp), CleanSam (Phiên bản: 1.126.0)

Bước 7: Xác định các vị trí đa hình - Sử dụng công cụ Freebayes (phiên bản: 0,4) để xác định các vị trí đa hình trên bộ gen HG19

Bước 8: Lọc ra các trang web dương tính giả - sử dụng vcffilter (phiên bản: 0,0.3) để chọn các trang web trong đó cơ hội của một cuộc gọi dương tính giả là 1 trên 10.000 hoặc tốt hơn.

Bước 9: Trích xuất quy trình làm việc và tải xuống tệp VCF cuối cùng để phân tích thêm.

Giai đoạn 2 - Phân tích dữ liệu của các vị trí đa hình dựa trên tệp VCF

Bước 10: Dữ liệu tải - Đặt định dạng là "VCF", cơ sở dữ liệu bộ gen là HG19

Bước 11: Xác định số lượng SNP, MNP, DEL, INS hoặc phức tạp - sử dụng công cụ Vcffilter (phiên bản: 0.0.3) để chọn các loại đa hình khác nhau (ví dụ: -f "type = snp", chỉ chọn SNP), sau đó Sử dụng công cụ lọc (phiên bản: 1.1.0) để tìm đa hình trùng lặp

Bước 12: Xác định các gen với các vị trí đa hình - sử dụng công cụ VCF Annovar Annotate (Phiên bản: 0.1) để chú thích tệp VCF trong bước 10

Bước 13: đếm các vị trí đa hình cho mỗi gen - sử dụng công cụ nhóm (phiên bản: 2.1.0, theo tên gen) để đếm số lượng vị trí đa hình cho mỗi gen

Bước 14: Sắp xếp kết quả trong bước 13 bằng công cụ sắp xếp (phiên bản: 1.0.3, bằng cách giảm dần).

Quy trình làm việc

Lịch sử phân tích

Project3 - Phát triển các công cụ tin sinh học Python để phân tích trình tự DNA

Trong dự án này, một chương trình Python lấy một tệp đầu vào chứa các chuỗi DNA ở định dạng đa fasta đã được phát triển. Chương trình bao gồm một tập hợp các công cụ để phân tích trình tự DNA (a. Kiểm tra bản ghi trong tệp (Count_Records), b. Tính độ dài của mỗi chuỗi DNA (Check_length), c. Xác định khung đọc mở trong mỗi chuỗi DNA (orf_identifier), d . identify repeated motif in sequence (repeats_identifier)). Để sử dụng các bộ công cụ, vui lòng gán tên đường dẫn và tên tệp cho chức năng lớp. Ví dụ: DNA_Tools = DNA_Tool_Sets ("../data/dna.example.fasta"). Sau đó, gọi các hàm trong lớp, ví dụ: hàm gọi để kiểm tra độ dài của chuỗi DNA: length = DNA_tools.check_length ()

Mã Python

.

Project4 - Phát triển đường ống cho giải trình tự thế hệ tiếp theo: Phân tích liên kết DNA, lắp ráp DNA, biến thể di truyền và giải trình tự RNA trong Linux

Project_A (excl)

Giả sử bạn đã giải trình tự và lắp ráp bộ gen của Malus interfic (Apple) và thực hiện chú thích gen. Sau đó, bạn đã thu thập các mẫu và chạy các thí nghiệm RNA-seq để xác định các bộ gen được biểu hiện trong các mô khác nhau. Thông tin này được lưu trữ, tương ứng, trong các tệp sau: apple apple.genome ,, Apple Apple.Genes ,, Apple Apple.Condition {a, b, c}.

Lưu ý: Bộ gen của Apple và các chú thích gen của Apple cho dự án này được trích xuất từ ​​cơ sở dữ liệu bộ gen Rosaceae (RGD). Dữ liệu thực tế sau đó đã được sửa đổi và do đó có thể không phản ánh trực tiếp thông tin trong các bản ghi RGD ban đầu. Trả lời từng câu hỏi riêng. Trong trường hợp yêu cầu nhiều giá trị, hãy tách chúng bằng ‘, chỉ, không có khoảng trống. Không sử dụng ‘, trong số các số.

Mã dự án_A

Giải pháp Project_A

Project_B (excor2)

Là một phần của một biến thể di truyền dự án dự án lớn hơn trong thực vật Arabidopsis thaliana, bạn đã giải trình tự và lắp ráp bộ gen của một chủng (‘wu_0_a,), sau đó ánh xạ lại các lần đọc vào bộ gen lắp ráp. Tệp BAM kết quả được bao gồm trong gói ‘gencommand_proj2_data.tar.gz. Sử dụng Samtools và Bedtools cũng như các lệnh Unix khác được giới thiệu trong khóa học này, kiểm tra các tệp và trả lời các câu hỏi sau.

Lưu ý: Dữ liệu đầu vào đã được lấy và sửa đổi từ các dữ liệu được tạo bởi Dự án bộ gen 1001, gia nhập ‘Wu_0_a.

Mã dự án_B

Giải pháp Project_B

Project_c (excor3)

Là một phần của nỗ lực lập danh mục biến thể di truyền trong thực vật Arabidopsis thaliana, bạn đã giới thiệu bộ gen của một chủng (‘wu_0_a, tập tin bộ gen:‘ wu_0.v7.fas,), để xác định các biến thể di truyền trong sinh vật này. Các lần đọc trình tự được tạo ra trong tệp ‘wu_0_a_wgs.fastq. Sử dụng các công cụ Bowtie2, Samtools và BCFTools, phát triển một đường ống để gọi biến thể trong bộ gen này.

Lưu ý: Dữ liệu bộ gen và trình tự đã được lấy và sửa đổi từ các dữ liệu được tạo bởi Dự án bộ gen 1001, gia nhập ‘Wu_0_a.

Mã dự án_C

Giải pháp Project_C

Project_d (excl

Bạn đang thực hiện một thí nghiệm RNA-seq để xác định các gen được biểu hiện khác nhau ở các giai đoạn khác nhau trong sự phát triển của arabidopsis thaliana bắn mô phân sinh đỉnh. Bạn đã thu thập các mẫu vào ngày 8 và ngày 16 (Tệp Day Day8.FastQ và Day Day16.Fastq), trích xuất và giải trình tự mRNA di động, và hiện được thiết lập để thực hiện phân tích tin sinh học. Bộ gen tham chiếu mà bạn sẽ cần để phân tích là Ath Athal_chr.fa và các chú thích gen tham chiếu là trong Ath Athal_Genes.gtf. Sử dụng các tham số mặc định trừ khi có quy định khác. Các tệp lệnh mẫu mà bạn có thể sửa đổi để tạo đường ống của riêng bạn được cung cấp trong tệp lệnh. Các lệnh.tar.gz. Tất cả các tệp được cung cấp trong kho lưu trữ genCommand_proj4.tar.gz.

Lưu ý: Dữ liệu bộ gen và chú thích đã được lấy và sửa đổi từ cơ sở dữ liệu Thông tin (TAIR) của Arabidopsis và các lần đọc RNA-seq được trích xuất từ ​​Lưu trữ đọc ngắn (SRA) của GenBank.

Mã dự án_D

Giải pháp Project_D

Lệnh

Làm thế nào khoa học dữ liệu được sử dụng trong bộ gen?

Khoa học dữ liệu bộ gen là một lĩnh vực nghiên cứu cho phép các nhà nghiên cứu sử dụng các phương pháp tính toán và thống kê mạnh mẽ để giải mã thông tin chức năng ẩn trong các chuỗi DNA. Ước tính dự đoán rằng nghiên cứu genomics sẽ tạo ra từ 2 đến 40 exabyte dữ liệu trong thập kỷ tới.enables researchers to use powerful computational and statistical methods to decode the functional information hidden in DNA sequences. Estimates predict that genomics research will generate between 2 and 40 exabytes of data within the next decade.

3 loại bộ gen là gì?

Vì đột biến là A - G, có ba loại bộ gen tồn tại - cụ thể là, AA, AG và GG, như chúng ta đã học trong ví dụ trước.Trong số ba loại bộ gen này, hoạt động mạnh nhất chống lại rượu là loại GG và loại AA là hoạt động yếu nhất mà khó có thể tiêu hóa rượu.AA, AG, and GG, as we learned in the previous example. Among these three genome types, the strongest activity against alcohol is the GG type, and the AA type is the weakest activity which can hardly digest alcohol.

Bốn loại genomics là gì?

Bốn loại thử nghiệm bộ gen được giải thích..
Kiểm tra chẩn đoán.Một xét nghiệm chẩn đoán thường nên đưa ra kết quả có/không.....
Xét nghiệm dự đoán lâm sàng.....
Thử nghiệm dược động học.....
Xét nghiệm khối u ..

Những kỹ năng nào là cần thiết tại Genomics?

Một lần nữa, có nhiều kỹ năng cần thiết để thực hiện bộ gen.Các kỹ năng hữu ích bao gồm lập trình máy tính, kỹ năng phòng thí nghiệm băng ghế dự bị, chuyên môn kỹ thuật và tổng hợp hóa học.Bạn càng biết rõ hơn bạn sẽ ở trong một môi trường làm việc thay đổi nhanh chóng.computer programming, bench laboratory skills, engineering expertise, and chemical synthesis. The more you know the better off you'll be in a rapidly changing work environment.