Đối với một nhà sinh vật học hoặc nhà khoa học y sinh bắt đầu trong Khoa học dữ liệu, có vẻ như hai ngôn ngữ này có thể hoán đổi cho nhau và đối với một số chức năng, chúng là. Tuy nhiên, giữa chúng cũng có sự khác biệt rõ ràng và câu trả lời là “nó phụ thuộc vào những gì bạn đang cố gắng thực hiện”
Python dựa trên C, nó là một ngôn ngữ phát triển phần mềm sâu, khổng lồ và trực quan. Nó dễ học hơn nhiều ngôn ngữ khác và bạn không cần phải hoàn toàn thông thạo để sử dụng nó cho nghiên cứu gen hoặc phân tích dữ liệu sinh học khác. Nó có thể thực hiện một số thống kê và là một ngôn ngữ kịch bản tuyệt vời để giúp bạn liên kết quy trình công việc hoặc các thành phần đường ống của mình với nhau. Hãy nghĩ về nó như mô liên kết
R là một ngôn ngữ thống kê và trực quan sâu sắc, đồ sộ và mang tính toán học. Một khi bạn biết cách của mình, bạn có thể tiến hành phân tích thống kê về hầu hết mọi thứ và bạn cần có mức độ thông thạo tốt để tận dụng nó một cách tốt nhất. Nó có thể được sử dụng như một ngôn ngữ kịch bản nhưng đó không phải là thế mạnh của nó. Hãy nghĩ về nó như các sợi cơ
Chúng tôi đã khảo sát một số trang web khoa học dữ liệu và công nghệ có uy tín và đi đến sự đồng thuận chung sau đây
Tôi nên học R hay Python? . Ở đây chúng tôi cung cấp cho bạn câu trả lời dứt khoát dựa trên các trường hợp sử dụng, mức độ phổ biến, tính dễ học và hơn thế nữa
Thời gian đọc 4 phút
Nếu bạn đang muốn trở thành một nhà khoa học dữ liệu chuyên nghiệp, bạn sẽ cần học ít nhất một ngôn ngữ lập trình. Đó là một câu hỏi thông minh để hỏi. Tôi nên học R hay Python?
Là một nhà khoa học dữ liệu, bạn có thể muốn và cần học Ngôn ngữ truy vấn có cấu trúc hoặc SQL. SQL là ngôn ngữ thực tế của cơ sở dữ liệu quan hệ, nơi hầu hết thông tin công ty vẫn nằm. Nhưng điều đó chỉ cung cấp cho bạn khả năng truy xuất dữ liệu — không phải để dọn sạch dữ liệu hoặc chạy các mô hình dựa trên dữ liệu đó — và đó là lúc Python và R xuất hiện
Một chút nền tảng về R
R được tạo ra bởi Ross Ihaka và Robert Gentleman - hai nhà thống kê từ Đại học Auckland ở New Zealand. Nó được phát hành lần đầu vào năm 1995 và họ đã tung ra phiên bản beta ổn định vào năm 2000. Đó là một ngôn ngữ thông dịch [bạn không cần chạy nó qua trình biên dịch trước khi chạy mã] và có một bộ công cụ cực kỳ mạnh mẽ để lập mô hình thống kê và vẽ đồ thị
Đối với những người mê lập trình, R là một triển khai của S — một ngôn ngữ lập trình thống kê được phát triển vào những năm 1970 tại Bell Labs— và nó được lấy cảm hứng từ Scheme — một biến thể của Lisp. Nó cũng có thể mở rộng, giúp dễ dàng gọi các đối tượng R từ nhiều ngôn ngữ lập trình khác
R miễn phí và ngày càng trở nên phổ biến với chi phí của các gói thống kê thương mại truyền thống như SAS và SPSS. Hầu hết người dùng viết và chỉnh sửa mã R của họ bằng RStudio, Môi trường phát triển tích hợp [IDE] để viết mã trong R
Như một lưu ý phụ. Các biểu đồ bên trên và bên dưới cho thấy mức độ phổ biến tương đối dựa trên số lượt kéo GitHub được thực hiện mỗi năm cho ngôn ngữ đó. Chúng dựa trên dữ liệu từ , được tạo bởi littleark
Một chút nền tảng về Python
Python cũng đã xuất hiện được một thời gian. Ban đầu nó được Guido van Rossum phát hành vào năm 1991 dưới dạng ngôn ngữ lập trình đa năng. Giống như R, nó cũng là một ngôn ngữ được giải thích và có một thư viện tiêu chuẩn toàn diện cho phép lập trình dễ dàng nhiều tác vụ phổ biến mà không cần phải cài đặt thêm thư viện. Python có một số thư viện viết mã mạnh mẽ nhất hiện có. Chúng cũng có sẵn miễn phí
Đối với khoa học dữ liệu, có một số thư viện Python cực mạnh. Có NumPy [tính toán số hiệu quả], Pandas [một loạt các công cụ để làm sạch và phân tích dữ liệu] và StatsModels [các phương pháp thống kê phổ biến]. Bạn cũng có TensorFlow, Keras và PyTorch [tất cả các thư viện để xây dựng mạng thần kinh nhân tạo – hệ thống học sâu]
Ngày nay, nhiều nhà khoa học dữ liệu sử dụng Python viết và chỉnh sửa mã của họ bằng Jupyter Notebooks. Jupyter Notebooks cho phép dễ dàng tạo các tài liệu là sự kết hợp của văn xuôi, mã, dữ liệu và trực quan hóa, giúp bạn dễ dàng ghi lại quy trình của mình và giúp các nhà khoa học dữ liệu khác xem xét và sao chép công việc của bạn
Chọn ngôn ngữ cho khoa học dữ liệu
Trong lịch sử đã có sự chia rẽ khá đồng đều trong cộng đồng khoa học dữ liệu và phân tích dữ liệu. R vs Python cho khoa học dữ liệu bắt nguồn từ nền tảng của một nhà khoa học. Thông thường, các nhà khoa học dữ liệu có nền tảng khoa học dữ liệu học thuật hoặc toán học vững chắc hơn sẽ ưu tiên R, trong khi các nhà khoa học dữ liệu có nền tảng lập trình nhiều hơn có xu hướng thích Python hơn
Điểm mạnh của Python
So với R, Python là ngôn ngữ có mục đích chung
Python là ngôn ngữ lập trình mục đích chung. Thật tuyệt vời cho phân tích thống kê, nhưng mã Python sẽ là lựa chọn linh hoạt, có khả năng hơn nếu bạn muốn xây dựng một trang web để chia sẻ kết quả của mình hoặc một dịch vụ web để tích hợp dễ dàng với các hệ thống sản xuất của bạn
Python phổ biến hơn nhiều so với R
Trong chỉ số Tiobe về các ngôn ngữ lập trình phổ biến nhất vào tháng 9 năm 2019, Python là ngôn ngữ lập trình phổ biến thứ ba [và đã tăng hơn 2% trong năm ngoái] trong tất cả các lĩnh vực khoa học máy tính và phát triển phần mềm, trong khi R đã giảm trong năm qua
R vs Python để học sâu — Python lại phổ biến hơn
Hầu hết các dự án deep learning nghiêm túc đều sử dụng TensorFlow hoặc PyTorch. Cả hai đều hoạt động tốt với Python và mặc dù hiện tại đã có giao diện R cho TensorFlow, nhưng nhiều công việc học sâu hơn đang được thực hiện với Python so với R. Khi học sâu có thể áp dụng cho nhiều lĩnh vực ngày càng rộng [bắt đầu với thị giác máy tính, giờ đây nó cũng trở thành cách tiếp cận mặc định cho hầu hết các tác vụ Xử lý ngôn ngữ tự nhiên], điều đó ngày càng quan trọng
Python cũng cực kỳ phổ biến trong dữ liệu lớn, trí tuệ nhân tạo và máy học. Cuối cùng, nó cũng có thể được sử dụng làm ngôn ngữ giao diện người dùng và trong các ứng dụng web
Python giống với các ngôn ngữ khác hơn R là
Mặc dù ai đó có nền tảng về Lisp có thể học R khá nhanh nếu ai đó có nền tảng lập trình bằng ngôn ngữ lập trình mục đích chung phổ biến hơn - như Java, C #, JavaScript hoặc Ruby - họ sẽ thấy việc học dễ dàng hơn
Kết luận - tốt hơn hết là bạn nên học Python trước khi học R
Vẫn còn rất nhiều công việc yêu cầu R, vì vậy nếu bạn có thời gian thì học cả hai cũng không hại gì, nhưng tôi khuyên rằng ngày nay, Python đang trở thành ngôn ngữ lập trình thống trị cho các nhà khoa học dữ liệu và là lựa chọn đầu tiên tốt hơn
Trường Flatiron bao gồm rộng rãi Python trong chương trình Khoa học dữ liệu của chúng tôi, khóa học 15 tuần của chúng tôi dạy cho bạn tất cả các kỹ năng bạn cần để bắt đầu sự nghiệp trong lĩnh vực dữ liệu. Đây là cách để tham gia khóa học khoa học dữ liệu đó
Nếu bạn đang nghĩ về một nghề nghiệp mới nhưng đang tự hỏi làm thế nào để tài trợ cho chương trình đào tạo của mình, hãy đọc “Cách thanh toán cho một chương trình đào tạo viết mã” hoặc truy cập trang Học phí & Tài chính.
Đăng bởi Peter Bell / Ngày 4 tháng 2 năm 2021
Khoa học dữ liệu Xu hướng công nghệ
bài viết liên quan
xu hướng công nghệ
Học viết mã Python. Bài học miễn phí cho người mới bắt đầu
xu hướng công nghệ
Sabrina Hernández. Từ Công nghệ Nha khoa đến Nhà thiết kế Sản phẩm UX/UI
xu hướng công nghệ
Tại sao dịch vụ tài chính nên đầu tư vào nhân viên của họ
Tài nguyên liên quan
Khoa học dữ liệu Xếp sau JavaScript, HTML/CSS và SQL, Python là ngôn ngữ phổ biến thứ tư với 44. 1% nhà phát triển. Kiểm tra bài viết này về cách bạn có thể học ngôn ngữ lập trình phổ biến này miễn phíHọc viết mã Python. Bài học miễn phí cho người mới bắt đầu
Câu chuyện cựu sinh viên Sau 7 năm làm kỹ thuật viên nha khoa, Sabrina Hernandez đã sẵn sàng cho một sự thay đổi. Cô đăng ký vào Trường Flatiron và từ đó chuyển hướng sang sự nghiệp Thiết kế Sản phẩm UX / UISabrina Hernández. Từ Công nghệ Nha khoa đến Nhà thiết kế Sản phẩm UX/UI
doanh nghiệp Đối với các công ty Dịch vụ Tài chính, đầu tư vào đào tạo nhân viên là rất quan trọng. Đây là lý do tại sao nó cần thiết và làm thế nào để làm cho đúngTại sao dịch vụ tài chính nên đầu tư vào nhân viên của họ
Python có dễ hơn R không?
Bạn có nên học cả R và Python không?
R có khó lắm không?