Học python với jupyter notebook pdf

Gần đây, chúng tôi đã ra mắt SDK Python đầu tiên của mình đặc biệt để hỗ trợ Adobe PDF Extract API. Điều này đặc biệt thú vị đối với tôi khi tôi mới làm quen với Python và tôi thực sự thích học nó. Một trong những điều tôi gặp phải khi khám phá Python là việc sử dụng sổ ghi chép. Trong bài đăng này, tôi sẽ giải thích cách sử dụng PDF Extract API và Python trong môi trường này, bao gồm cả nền tảng Colab của Google và hỗ trợ sổ ghi chép trong Visual Studio Code

Máy tính xách tay Jupyter là gì?

Jupyter Notebooks đến từ một dự án nguồn mở được thiết kế để tạo ra một loại sân chơi tương tác để làm việc với mã. Thành thật mà nói, tôi vẫn còn khá mới với khái niệm này và thật khó để tôi có thể thực sự hiểu được những gì họ đã làm, nhưng bây giờ tôi đã dành một chút thời gian với họ, tôi gần như bị choáng ngợp.

Ở mức độ đơn giản nhất, một cuốn sổ bao gồm các ô. Một ô có thể là văn bản hoặc mã. Trong khi chúng tôi đang tập trung vào Python ở đây, các ngôn ngữ khác như R và Haskell cũng được hỗ trợ

Văn bản trong một ô có thể được sử dụng để mô tả những gì đang diễn ra, do đó, theo một số cách, nó giống như nhận xét mã, nhưng với sự hỗ trợ Markdown phong phú, nó trở nên dễ đọc hơn một chút cũng như cung cấp tài liệu phong phú hơn

Khi một ô chứa mã và được chạy, đầu ra của nó sẽ được in ngay bên dưới ô. Trong nhiều trường hợp, bạn có thể cung cấp đầu ra phong phú hơn bình thường với các bảng được hiển thị độc đáo với các tính năng sắp xếp hoặc biểu đồ giúp kết quả dễ đọc hơn

Và đây là những gì thực sự thuyết phục tôi về ý tưởng. Mặc dù bạn có thể chạy sổ ghi chép từ đầu đến cuối nhưng bạn cũng có thể chạy từng ô một. Vì vậy, hãy tưởng tượng một quy trình gồm hai bước. Bước một lấy dữ liệu từ một số nguồn. Bước hai sau đó thao tác dữ liệu đó. Bạn có thể chạy ô đầu tiên, sau đó là ô thứ hai, nhận ra rằng bạn đã nhầm lẫn và chọn chỉ chạy lại ô thứ hai. Nó sẽ chỉ sử dụng kết quả cuối cùng từ ô trước đó

Với giao diện dựa trên web, một người sử dụng sổ ghi chép không cần phải lo lắng về môi trường và các phụ thuộc. Trên thực tế, họ thậm chí không cần phải là nhà phát triển, vì sổ ghi chép có thể hướng dẫn bạn toàn bộ quá trình

Đây là một ví dụ được tạo trong Visual Studio Code như một ví dụ đơn giản

Đây là một cuốn sổ gồm bốn ô. Cái trên cùng là Markdown được hiển thị bằng HTML. Nếu bạn bấm vào bên trong ô, nó sẽ chuyển sang chế độ chỉnh sửa

Ô thứ hai chứa một vài dòng mã Python tạo dữ liệu. Nó tạo ra một danh sách những con mèo có tuổi là ngẫu nhiên. Ô thứ ba có nhiều văn bản hơn và ô cuối cùng chỉ cần in nó ra. Đối với những người mới sử dụng Python như tôi, pandas là một công cụ mã nguồn mở để phân tích dữ liệu. Trong trường hợp của chúng tôi, chúng tôi chỉ đơn giản là sẽ sử dụng nó để xuất ra một bảng đẹp

Nếu bạn chạy sổ ghi chép này, mỗi bước mã sẽ thực thi theo thứ tự. Sau đó, bạn có thể thấy đầu ra bên dưới ô cuối cùng

Bây giờ cho phần thú vị. Bạn có thể chuyển đến bước mã đầu tiên và chọn tùy chọn “Thực thi ô trở xuống” sẽ hiển thị độ tuổi mới cho mèo. Nhưng - nếu bạn thực hiện thao tác tương tự trên ô mã chỉ hiển thị dữ liệu, nó sẽ không thay đổi. Nó chỉ đơn giản là sử dụng kết quả cuối cùng

Bây giờ hãy tưởng tượng rằng ô đầu tiên hoạt động hơi chậm. Điều này có nghĩa là bạn có thể bỏ qua việc chạy lại nó nhiều lần khi bạn lặp lại cách bạn làm việc với dữ liệu đó

Như tôi đã nói, tôi vẫn còn khá mới với tất cả những điều này và tôi chắc chắn rằng tôi không mô tả đầy đủ sự tuyệt vời của những gì có thể làm được, nhưng nó đã thay đổi cách tôi nghĩ về việc làm việc với Python

Sử dụng Notebooks với PDF Extract — Google Colab

Đối với ví dụ đầu tiên về việc sử dụng PDF Extract với Jupyter Notebooks, chúng ta sẽ xem xét Google Colab. Đây là cách sử dụng sổ ghi chép miễn phí, hoàn toàn dựa trên web. Mọi thứ được chạy trên đám mây mà không cần bất kỳ cài đặt cục bộ nào

Sau khi mở Google Colab, tạo Notebook mới. Để sử dụng Adobe PDF Services SDK trong Google Colab, trước tiên bạn phải cài đặt SDK. Điều này có thể được thực hiện trong một ô mã một dòng như vậy

!pip install pdfservices-sdk

Sau đó, bạn có thể viết mã của mình như bình thường. Sổ ghi chép có thể có các tệp được liên kết, nghĩa là chúng có thể đọc tệp PDF và lưu trữ kết quả vào các tệp của sổ ghi chép được liên kết. Tạo một ô khác và sử dụng mã Python này

Mã này sẽ tìm kiếm một số thứ. Đầu tiên, nó giả sử một tệp, sample.pdf. Thứ hai, nó cũng giả sử các tệp thông tin xác thực. Google Colab cho phép bạn tải các tệp bạn chọn lên sổ ghi chép của mình. Việc tải lên thông tin đăng nhập của chúng tôi tương đối an toàn vì sổ ghi chép dùng chung sẽ không chia sẻ tệp. Nhấp vào biểu tượng "thư mục" ở phía bên trái của trang web và trong bảng điều khiển tệp, sử dụng biểu tượng tải lên để tải tệp PDF lên, tệp JSON thông tin đăng nhập và khóa riêng tư của bạn. Hãy nhớ rằng mã của chúng tôi đang tìm kiếm sample.pdf, nhưng bảng điều khiển tệp bao gồm chức năng đổi tên đơn giản, vì vậy hãy đảm bảo đổi tên tệp PDF của bạn sau khi tải lên

Sau đó, bạn có thể kiểm tra Notebook bằng cách sử dụng menu Runtime ở trên cùng và chọn Run all. Sau đó, bạn có thể xem khi sổ ghi chép thực thi. Bạn sẽ thấy đầu ra từ ô đã cài đặt SDK cũng như thao tác Trích xuất

Nếu mọi thứ diễn ra theo đúng kế hoạch, bạn sẽ có một output.zip trong bảng điều khiển tệp của mình

Nếu bạn di chuột qua output.zip, bạn có thể chọn tùy chọn tải xuống và bạn đã sẵn sàng. Nếu bạn muốn lặp lại quy trình, hãy nhấp vào ô mã có Mã trích xuất và trong menu Runtime, hãy chọn Run after. Như tôi nghĩ, điều này không có nghĩa là chạy các ô sau ô hiện tại, mà thay vào đó có nghĩa là chạy ô hiện tại và bất kỳ ô nào sau đó

Làm như vậy sẽ báo lỗi cho bạn

Đây là lỗi dự kiến ​​vì SDK sẽ không cho phép bạn lưu đầu ra của một thao tác trên một tệp hiện có. Bạn sẽ thấy vấn đề tương tự chạy “theo cách thông thường” trên máy của chính bạn. Và giải pháp sẽ giống nhau. Xóa output.zip hoặc đổi tên tệp sẽ được sử dụng trong mã

Bạn có thể tìm thấy một sổ ghi chép ở trên, với một số văn bản bổ sung, tại đây

https. // colab. nghiên cứu. Google. com/drive/1yUzQ5oC9O0d7iS7y905glQs7Tj6oTHd8?usp=sharing

Tôi đã sử dụng tính năng ô văn bản để cung cấp khá nhiều ngữ cảnh giống như tài liệu ở trên

Cải thiện trải nghiệm

Chúng tôi có thể tiếp tục phát triển dựa trên sổ ghi chép này và làm cho nó linh hoạt hơn nhiều. Ví dụ: Google đã xuất bản mô-đun Python của riêng họ để thêm các tiện ích vào Colab, một trong số đó cung cấp cho bạn khả năng nhắc tải tệp lên. Đây là mã

Dòng cuối cùng chỉ trích xuất tên của tệp đã tải lên. Khi chạy, bạn sẽ nhận được lời nhắc tải lên dựa trên web cơ bản

Sau đó, chúng tôi có thể sử dụng kết quả trong bước tiếp theo của chúng tôi. Đây là một ô được cập nhật Trích xuất từ ​​​​tệp tải lên và xử lý làm cho tên tệp zip động hơn một chút. Nếu bạn tải lên sample.pdf0, bạn sẽ nhận được sample.pdf1

Cuối cùng, chúng ta có thể sử dụng một tính năng khác từ mô-đun Google Colab để buộc tải xuống tệp zip

Bạn có thể chơi với máy tính xách tay này tại đây. https. // colab. nghiên cứu. Google. com/drive/1kNubpPw0JaXaCxxpspxtzOMvf2DkqIxj?usp=sharing

Tôi muốn nhanh chóng gửi lời cảm ơn tới đồng nghiệp Richard Cohn của mình vì đã cải thiện quy trình làm việc này

Làm việc với dữ liệu được trích xuất

Cho đến nay sổ ghi chép của chúng tôi chỉ thực hiện trích xuất. Họ chưa thực sự làm bất cứ điều gì với kết quả. Chúng tôi có thể sửa đổi sổ làm việc trước đó để trích xuất kết quả JSON từ tệp zip do API trích xuất tạo ra. Tệp JSON này có thể khá phức tạp [xem tài liệu của chúng tôi để có cái nhìn tổng quan về các phần khác nhau của tệp JSON], nhưng hiện tại chúng tôi chỉ có thể lấy văn bản thô. Điều này được thực hiện với mã dưới đây

Bây giờ, sổ ghi chép sẽ cho phép bạn tải lên tệp PDF, chạy API trích xuất trên tệp đó và trả về nội dung văn bản. Đây là liên kết. https. // colab. nghiên cứu. Google. com/drive/1mg5bPJxNHClf_Gu5VQP-jrVXbdNOGA2U?usp=sharing

Sử dụng Ghi chú với Visual Studio Code

Visual Studio Code cung cấp hỗ trợ tuyệt vời cho Jupyter Notebooks thông qua tiện ích mở rộng của nó. Tài liệu của Microsoft cung cấp thông tin tổng quan tốt nhưng cách dễ nhất để nhanh chóng bắt đầu là tạo một tệp mới và sử dụng tiện ích mở rộng sample.pdf2. Thao tác này sẽ tạo sổ ghi chép mới và sử dụng hệ thống soạn thảo giống như Google Colab

Sau đó, bạn có thể sử dụng các nút ở trên cùng để thêm văn bản [Markdown] hoặc ô mã. Bạn có thể chạy sổ ghi chép của mình thông qua liên kết “Chạy tất cả” ở phía dưới. Đối với hầu hết các phần, trải nghiệm chỉnh sửa khá giống nhau. Bạn có thể thêm bao nhiêu ô mã và văn bản tùy thích

Google Colab cũng cho phép bạn tải xuống sổ ghi chép trực tuyến của mình dưới dạng tệp sample.pdf2

Tiến về phía trước

Để bắt đầu chơi với PDF Extract API, hãy đăng ký dùng thử miễn phí ngay hôm nay. Bạn có thể xem qua các ví dụ về Python trên repo GitHub của chúng tôi. Quan tâm đến việc tìm hiểu thêm về Python? . Giải phóng siêu năng lực mã hóa của bạn với Python”

Tôi có thể học Python trong Jupyter Notebook không?

Ý chính này cung cấp mã học-python3. ipynb, tệp này có thể được xem và chỉnh sửa trong máy chủ Jupyter Notebook để tìm hiểu Python 3 . Khi bạn tải tệp sổ ghi chép lên máy chủ jupyter cục bộ của mình, bạn có thể chỉnh sửa bất kỳ ô nào, thêm ô mới hoặc xóa ô.

Máy tính xách tay Jupyter có dành cho người mới bắt đầu không?

Nếu bạn là người mới bắt đầu lập trình và khoa học dữ liệu, Jupyter Notebook là một trong những nơi tốt nhất để bắt đầu . Nền tảng này đã được thiết kế đặc biệt cho các nhiệm vụ khoa học dữ liệu và hỗ trợ hơn 40 ngôn ngữ lập trình, bao gồm cả Python.

PyCharm hay Jupyter cái nào tốt hơn?

Tính năng tự động hoàn thành của PyCharm thực sự tạo điều kiện thuận lợi cho quá trình phát triển và quy trình làm việc nhanh hơn và đó là điều mà Jupyter không cung cấp. Tính năng chỉnh sửa thông minh này là lý do tại sao PyCharm rõ ràng là sự lựa chọn cho các nhà phát triển và kỹ sư phần mềm , đặc biệt là những người chỉ làm việc với Python.

Chủ Đề