Học python với jupyter notebook pdf
Gần đây, chúng tôi đã ra mắt SDK Python đầu tiên của mình đặc biệt để hỗ trợ Adobe PDF Extract API. Điều này đặc biệt thú vị đối với tôi khi tôi mới làm quen với Python và tôi thực sự thích học nó. Một trong những điều tôi gặp phải khi khám phá Python là việc sử dụng sổ ghi chép. Trong bài đăng này, tôi sẽ giải thích cách sử dụng PDF Extract API và Python trong môi trường này, bao gồm cả nền tảng Colab của Google và hỗ trợ sổ ghi chép trong Visual Studio Code Show Jupyter Notebooks đến từ một dự án nguồn mở được thiết kế để tạo ra một loại sân chơi tương tác để làm việc với mã. Thành thật mà nói, tôi vẫn còn khá mới với khái niệm này và thật khó để tôi có thể thực sự hiểu được những gì họ đã làm, nhưng bây giờ tôi đã dành một chút thời gian với họ, tôi gần như bị choáng ngợp. Ở mức độ đơn giản nhất, một cuốn sổ bao gồm các ô. Một ô có thể là văn bản hoặc mã. Trong khi chúng tôi đang tập trung vào Python ở đây, các ngôn ngữ khác như R và Haskell cũng được hỗ trợ Văn bản trong một ô có thể được sử dụng để mô tả những gì đang diễn ra, do đó, theo một số cách, nó giống như nhận xét mã, nhưng với sự hỗ trợ Markdown phong phú, nó trở nên dễ đọc hơn một chút cũng như cung cấp tài liệu phong phú hơn Khi một ô chứa mã và được chạy, đầu ra của nó sẽ được in ngay bên dưới ô. Trong nhiều trường hợp, bạn có thể cung cấp đầu ra phong phú hơn bình thường với các bảng được hiển thị độc đáo với các tính năng sắp xếp hoặc biểu đồ giúp kết quả dễ đọc hơn Và đây là những gì thực sự thuyết phục tôi về ý tưởng. Mặc dù bạn có thể chạy sổ ghi chép từ đầu đến cuối nhưng bạn cũng có thể chạy từng ô một. Vì vậy, hãy tưởng tượng một quy trình gồm hai bước. Bước một lấy dữ liệu từ một số nguồn. Bước hai sau đó thao tác dữ liệu đó. Bạn có thể chạy ô đầu tiên, sau đó là ô thứ hai, nhận ra rằng bạn đã nhầm lẫn và chọn chỉ chạy lại ô thứ hai. Nó sẽ chỉ sử dụng kết quả cuối cùng từ ô trước đó Với giao diện dựa trên web, một người sử dụng sổ ghi chép không cần phải lo lắng về môi trường và các phụ thuộc. Trên thực tế, họ thậm chí không cần phải là nhà phát triển, vì sổ ghi chép có thể hướng dẫn bạn toàn bộ quá trình Đây là một ví dụ được tạo trong Visual Studio Code như một ví dụ đơn giản Đây là một cuốn sổ gồm bốn ô. Cái trên cùng là Markdown được hiển thị bằng HTML. Nếu bạn bấm vào bên trong ô, nó sẽ chuyển sang chế độ chỉnh sửa Ô thứ hai chứa một vài dòng mã Python tạo dữ liệu. Nó tạo ra một danh sách những con mèo có tuổi là ngẫu nhiên. Ô thứ ba có nhiều văn bản hơn và ô cuối cùng chỉ cần in nó ra. Đối với những người mới sử dụng Python như tôi, pandas là một công cụ mã nguồn mở để phân tích dữ liệu. Trong trường hợp của chúng tôi, chúng tôi chỉ đơn giản là sẽ sử dụng nó để xuất ra một bảng đẹp Nếu bạn chạy sổ ghi chép này, mỗi bước mã sẽ thực thi theo thứ tự. Sau đó, bạn có thể thấy đầu ra bên dưới ô cuối cùng Bây giờ cho phần thú vị. Bạn có thể chuyển đến bước mã đầu tiên và chọn tùy chọn “Thực thi ô trở xuống” sẽ hiển thị độ tuổi mới cho mèo. Nhưng - nếu bạn thực hiện thao tác tương tự trên ô mã chỉ hiển thị dữ liệu, nó sẽ không thay đổi. Nó chỉ đơn giản là sử dụng kết quả cuối cùng Bây giờ hãy tưởng tượng rằng ô đầu tiên hoạt động hơi chậm. Điều này có nghĩa là bạn có thể bỏ qua việc chạy lại nó nhiều lần khi bạn lặp lại cách bạn làm việc với dữ liệu đó Như tôi đã nói, tôi vẫn còn khá mới với tất cả những điều này và tôi chắc chắn rằng tôi không mô tả đầy đủ sự tuyệt vời của những gì có thể làm được, nhưng nó đã thay đổi cách tôi nghĩ về việc làm việc với Python Sử dụng Notebooks với PDF Extract — Google ColabĐối với ví dụ đầu tiên về việc sử dụng PDF Extract với Jupyter Notebooks, chúng ta sẽ xem xét Google Colab. Đây là cách sử dụng sổ ghi chép miễn phí, hoàn toàn dựa trên web. Mọi thứ được chạy trên đám mây mà không cần bất kỳ cài đặt cục bộ nào Sau khi mở Google Colab, tạo Notebook mới. Để sử dụng Adobe PDF Services SDK trong Google Colab, trước tiên bạn phải cài đặt SDK. Điều này có thể được thực hiện trong một ô mã một dòng như vậy !pip install pdfservices-sdk Sau đó, bạn có thể viết mã của mình như bình thường. Sổ ghi chép có thể có các tệp được liên kết, nghĩa là chúng có thể đọc tệp PDF và lưu trữ kết quả vào các tệp của sổ ghi chép được liên kết. Tạo một ô khác và sử dụng mã Python này Mã này sẽ tìm kiếm một số thứ. Đầu tiên, nó giả sử một tệp, Sau đó, bạn có thể kiểm tra Notebook bằng cách sử dụng menu Nếu mọi thứ diễn ra theo đúng kế hoạch, bạn sẽ có một Nếu bạn di chuột qua Làm như vậy sẽ báo lỗi cho bạn Đây là lỗi dự kiến vì SDK sẽ không cho phép bạn lưu đầu ra của một thao tác trên một tệp hiện có. Bạn sẽ thấy vấn đề tương tự chạy “theo cách thông thường” trên máy của chính bạn. Và giải pháp sẽ giống nhau. Xóa Bạn có thể tìm thấy một sổ ghi chép ở trên, với một số văn bản bổ sung, tại đây https. // colab. nghiên cứu. Google. com/drive/1yUzQ5oC9O0d7iS7y905glQs7Tj6oTHd8?usp=sharing Tôi đã sử dụng tính năng ô văn bản để cung cấp khá nhiều ngữ cảnh giống như tài liệu ở trên Cải thiện trải nghiệmChúng tôi có thể tiếp tục phát triển dựa trên sổ ghi chép này và làm cho nó linh hoạt hơn nhiều. Ví dụ: Google đã xuất bản mô-đun Python của riêng họ để thêm các tiện ích vào Colab, một trong số đó cung cấp cho bạn khả năng nhắc tải tệp lên. Đây là mã Dòng cuối cùng chỉ trích xuất tên của tệp đã tải lên. Khi chạy, bạn sẽ nhận được lời nhắc tải lên dựa trên web cơ bản Sau đó, chúng tôi có thể sử dụng kết quả trong bước tiếp theo của chúng tôi. Đây là một ô được cập nhật Trích xuất từ tệp tải lên và xử lý làm cho tên tệp zip động hơn một chút. Nếu bạn tải lên Cuối cùng, chúng ta có thể sử dụng một tính năng khác từ mô-đun Google Colab để buộc tải xuống tệp zip Bạn có thể chơi với máy tính xách tay này tại đây. https. // colab. nghiên cứu. Google. com/drive/1kNubpPw0JaXaCxxpspxtzOMvf2DkqIxj?usp=sharing Tôi muốn nhanh chóng gửi lời cảm ơn tới đồng nghiệp Richard Cohn của mình vì đã cải thiện quy trình làm việc này Làm việc với dữ liệu được trích xuấtCho đến nay sổ ghi chép của chúng tôi chỉ thực hiện trích xuất. Họ chưa thực sự làm bất cứ điều gì với kết quả. Chúng tôi có thể sửa đổi sổ làm việc trước đó để trích xuất kết quả JSON từ tệp zip do API trích xuất tạo ra. Tệp JSON này có thể khá phức tạp (xem tài liệu của chúng tôi để có cái nhìn tổng quan về các phần khác nhau của tệp JSON), nhưng hiện tại chúng tôi chỉ có thể lấy văn bản thô. Điều này được thực hiện với mã dưới đây Bây giờ, sổ ghi chép sẽ cho phép bạn tải lên tệp PDF, chạy API trích xuất trên tệp đó và trả về nội dung văn bản. Đây là liên kết. https. // colab. nghiên cứu. Google. com/drive/1mg5bPJxNHClf_Gu5VQP-jrVXbdNOGA2U?usp=sharing Sử dụng Ghi chú với Visual Studio CodeVisual Studio Code cung cấp hỗ trợ tuyệt vời cho Jupyter Notebooks thông qua tiện ích mở rộng của nó. Tài liệu của Microsoft cung cấp thông tin tổng quan tốt nhưng cách dễ nhất để nhanh chóng bắt đầu là tạo một tệp mới và sử dụng tiện ích mở rộng Sau đó, bạn có thể sử dụng các nút ở trên cùng để thêm văn bản (Markdown) hoặc ô mã. Bạn có thể chạy sổ ghi chép của mình thông qua liên kết “Chạy tất cả” ở phía dưới. Đối với hầu hết các phần, trải nghiệm chỉnh sửa khá giống nhau. Bạn có thể thêm bao nhiêu ô mã và văn bản tùy thích Google Colab cũng cho phép bạn tải xuống sổ ghi chép trực tuyến của mình dưới dạng tệp Để bắt đầu chơi với PDF Extract API, hãy đăng ký dùng thử miễn phí ngay hôm nay. Bạn có thể xem qua các ví dụ về Python trên repo GitHub của chúng tôi. Quan tâm đến việc tìm hiểu thêm về Python? . Giải phóng siêu năng lực mã hóa của bạn với Python” Tôi có thể học Python trong Jupyter Notebook không?Ý chính này cung cấp mã học-python3. ipynb, tệp này có thể được xem và chỉnh sửa trong máy chủ Jupyter Notebook để tìm hiểu Python 3 . Khi bạn tải tệp sổ ghi chép lên máy chủ jupyter cục bộ của mình, bạn có thể chỉnh sửa bất kỳ ô nào, thêm ô mới hoặc xóa ô.
Máy tính xách tay Jupyter có dành cho người mới bắt đầu không?Nếu bạn là người mới bắt đầu lập trình và khoa học dữ liệu, Jupyter Notebook là một trong những nơi tốt nhất để bắt đầu . Nền tảng này đã được thiết kế đặc biệt cho các nhiệm vụ khoa học dữ liệu và hỗ trợ hơn 40 ngôn ngữ lập trình, bao gồm cả Python.
PyCharm hay Jupyter cái nào tốt hơn?Tính năng tự động hoàn thành của PyCharm thực sự tạo điều kiện thuận lợi cho quá trình phát triển và quy trình làm việc nhanh hơn và đó là điều mà Jupyter không cung cấp. Tính năng chỉnh sửa thông minh này là lý do tại sao PyCharm rõ ràng là sự lựa chọn cho các nhà phát triển và kỹ sư phần mềm , đặc biệt là những người chỉ làm việc với Python. |