Hướng dẫn how python read data from aws s3? - python đọc dữ liệu từ aws s3 như thế nào?
Trong bài viết này, tôi sẽ giải thích Amazon S3 là gì và làm thế nào để kết nối với nó bằng Python. Bài viết này sẽ tập trung vào những người mới bắt đầu đang cố gắng để có được Python và làm việc xung quanh hệ sinh thái AWS. AWS, như bạn có thể biết, là một trong những nhà cung cấp đám mây lớn nhất cùng với nền tảng Microsoft Azure và Google Cloud. Có rất nhiều dịch vụ được cung cấp bởi Amazon bao gồm AWS S3. Amazon S3, cũng được viết tắt là Dịch vụ lưu trữ đơn giản Amazon là dịch vụ lưu trữ được cung cấp bởi nhà cung cấp đám mây cho phép người dùng lưu trữ bất kỳ loại tệp nào trong dịch vụ này. Nó được thiết kế để làm cho điện toán quy mô web dễ dàng hơn cho các nhà phát triển. Show
Theo định nghĩa được cung cấp bởi Wikipedia - Dịch vụ lưu trữ đơn giản của Amazon S3 hoặc Amazon là dịch vụ được cung cấp bởi Amazon Web Services (AWS) cung cấp lưu trữ đối tượng thông qua giao diện dịch vụ web. Các đơn vị lưu trữ riêng lẻ của Amazon S3 được gọi là xô. Những thùng này cũng có thể được coi là thư mục gốc, theo đó tất cả các mục tiếp theo sẽ được lưu trữ. Tất cả các thư mục và tệp được coi là đối tượng trong hệ sinh thái S3. Các đối tượng này được thể hiện bằng một khóa duy nhất và được chỉ định của người dùng. Bạn có thể truy cập vào các nhóm Amazon S3 bằng cách sử dụng bất kỳ một trong bốn cách sau đây.
Các đối tượng hoặc vật phẩm được lưu trữ bằng Amazon CLI hoặc API còn lại được giới hạn ở kích thước 5TB với thông tin siêu dữ liệu 2kb. Đọc thêm về Amazon S3 từ tài liệu chính thức từ Amazon. Điều kiện tiên quyếtNhư đã đề cập, trong bài viết này, chúng tôi sẽ sử dụng AWS S3 và Python để kết nối với dịch vụ AWS, các điều kiện tiên quyết sau đây phải được thực hiện.
Sử dụng AWS S3 từ bảng điều khiểnKhi bạn đã đăng ký cho Amazon Web Services, hãy đăng nhập vào ứng dụng Bảng điều khiển. Nhấp vào Dịch vụ và chọn S3 trong kho lưu trữ.
Hình 1 - Bắt đầu S3 Bạn sẽ thấy rằng màn hình chính S3 mở ra trông giống như bên dưới.
Hình 2 - Màn hình chính AWS S3 Như bạn có thể thấy trong hình trên, tôi chưa tạo ra bất kỳ thùng nào trong S3 của mình. Hãy để chúng tôi đi trước và tạo ra một số xô đầu tiên. Tôi sẽ tạo hai thùng với các tên như sau.
Hình 3 - Tạo các thùng S3 Lặp lại giống nhau cho cả hai thùng. Khi các thùng được tạo, bạn có thể thấy danh sách như sau.
Hình 4 - Xô S3 được tạo ra Tôi cũng sẽ tải một tệp CSV mẫu vào một trong các thùng chỉ để đọc dữ liệu từ nó sau trong quá trình hướng dẫn.
Hình 5 - Tải lên tệp CSV mẫu được tải lên Tạo mã thông báo bí mậtBây giờ chúng tôi đã tạo ra các thùng của mình trong S3, bước tiếp theo là tiếp tục và tạo thông tin đăng nhập để truy cập vào các thùng S3 bằng cách sử dụng Python. Bạn có thể làm theo hướng dẫn này để tạo thông tin đăng nhập AWS hoặc theo dõi tài liệu chính thức từ Amazon. Khi các thông tin này được tạo, vui lòng lưu thông tin này vào một vị trí được bảo mật. Một mẫu của khóa truy cập và khóa bí mật như sau. Khóa truy cập: AKIAIOSFODNN7EXEXMample Bí mật: wjalrxutnfemi/k7mdeng/bpxrficyexampleKey Viết mã PythonVì vậy, bây giờ chúng tôi đã có các thùng của chúng tôi sẵn sàng trong S3 và chúng tôi cũng đã tạo ra các thông tin truy cập được yêu cầu để kết nối với môi trường AWS từ tệp Python. Bây giờ chúng ta hãy tiếp tục và bắt đầu viết mã của chúng tôi. Đầu tiên, chúng tôi cần nhập mô -đun BOTO3 sau đây vào mã của chúng tôi. Đây là SDK AWS cho Python do Amazon cung cấp. Nếu bạn chưa cài đặt cái này trên máy của mình, vui lòng cài đặt nó bằng Python Pip. Ngoài ra, chúng tôi cũng sẽ sử dụng mô -đun Python Pandas để chúng tôi có thể đọc dữ liệu từ S3 và lưu trữ chúng vào khung dữ liệu Pandas. Bạn có thể chạy các lệnh sau để cài đặt các mô -đun nếu chưa hoàn thành. PIP Cài đặt Boto3 Pip Cài đặt Pandas Lệnh này sẽ cài đặt mô -đun trên máy của bạn. Vì tôi đã cài đặt nó sớm hơn, nó sẽ hiển thị thông báo sau.
Hình 6 - Cài đặt SDK AWS cho Python - BOTO3 Bây giờ chúng ta hãy nhập mô -đun này vào mã Python của chúng tôi.
Khi mô -đun đã được nhập vào mã, bước tiếp theo là tạo máy khách S3 và tài nguyên cho phép chúng tôi truy cập các đối tượng được lưu trữ trong môi trường S3 của chúng tôi. Cả máy khách và tài nguyên đều có sẵn để kết nối với các đối tượng S3. Máy khách là giao diện chức năng cấp thấp, trong khi tài nguyên là giao diện hướng đối tượng cấp cao. Nếu bạn muốn làm việc với các tệp S3 đơn, bạn có thể chọn làm việc với máy khách. Tuy nhiên, nếu bạn cần làm việc với nhiều thùng S3 và cần lặp lại những thứ đó, thì việc sử dụng tài nguyên sẽ là lý tưởng. Hãy để chúng tôi đi trước và tạo ra cả hai. Ngoài ra, chúng ta cần chỉ định thông tin đăng nhập trong khi tạo các đối tượng. Bạn có thể sử dụng mã bên dưới để tạo máy khách và tài nguyên.
# Tạo giao diện hướng đối tượng cấp cao
& nbsp;
Đầu ra của mã trên như sau. Hình 7 - Tên xô in từ AWS S3
# Tạo giao diện hướng đối tượng cấp cao
Khi cả hai đối tượng được tạo, chúng ta hãy tiếp tục và cố gắng hiển thị một danh sách tất cả các thùng trong môi trường S3 của chúng ta. Sử dụng mã bên dưới để in danh sách tất cả các thùng. # Lấy danh sách các thùng hiện có
# In tên xô từng cái một
In ('Tên xô in ...') Forbucket InclientResponse ['Buckets']:& nbsp; Đầu ra của mã trên như sau.
Aveeek là một kỹ sư dữ liệu và phân tích có kinh nghiệm, hiện đang làm việc tại Dublin, Ireland. Các lĩnh vực chính được quan tâm kỹ thuật của anh ấy bao gồm SQL Server, SSIS/ETL, SSAS, Python, các công cụ dữ liệu lớn như Apache Spark, Kafka và Cloud Technologies như AWS/Amazon và Azure. Ông là một tác giả sung mãn, với hơn 100 bài báo được xuất bản trên nhiều blog kỹ thuật khác nhau, bao gồm blog của riêng ông và là người đóng góp thường xuyên cho các diễn đàn kỹ thuật khác nhau. Trong thời gian rảnh rỗi, anh thích nhiếp ảnh nghiệp dư chủ yếu là hình ảnh đường phố và cuộc sống tĩnh lặng. Một số cái nhìn thoáng qua về công việc của anh ấy có thể được tìm thấy trên Instagram. Bạn cũng có thể tìm thấy anh ấy trên LinkedIn Xem tất cả các bài viết của Aveeek Das Làm thế nào để Python đọc các tệp S3?# Tạo đối tượng S3 .. obj = máy khách. get_object (. Xô = 'sql-server-shack-demo-1',. Key = 'SQL-Shack-demo.csv'. # Đọc dữ liệu từ đối tượng S3 .. Dữ liệu = gấu trúc. read_csv (obj ['cơ thể']). # In khung dữ liệu .. Làm cách nào để lấy dữ liệu từ AWS S3 bằng Python?Cách tải lên và tải xuống các tệp từ AWS S3 bằng Python (2022).. Bước 1: Thiết lập tài khoản..... Bước 2: Tạo người dùng..... Bước 3: Tạo một thùng..... Bước 4: Tạo chính sách và thêm nó vào người dùng của bạn..... Bước 5: Tải xuống AWS CLI và định cấu hình người dùng của bạn..... Bước 6: Tải lên các tệp của bạn .. Làm thế nào để pyspark đọc dữ liệu S3?Trong Spark SparkContext này.TextFile () và SparkContext.Các phương thức wholetextfiles () để sử dụng để đọc tệp thử nghiệm từ Amazon AWS S3 thành RDD và Spark.đọc... 1.1 TextFile () - Đọc tệp văn bản từ S3 vào RDD..... 1.2 wholetextFiles () - Đọc các tệp văn bản từ S3 thành RDD của tuple .. Làm cách nào để liên kết Amazon S3 của tôi với Python?Trong trường hợp của chúng tôi, chúng tôi đã chọn vùng mặc định là AP-South-1 trong đó chúng tôi sẽ thực hiện các hoạt động này ... 1 danh sách S3 Xô.Để thực hiện thao tác Danh sách Than, chúng tôi sẽ sử dụng tập lệnh Python sau..... 2 Tạo xô S3..... 3 Tải lên tệp lên đối tượng S3..... 4 Danh sách các đối tượng xô S3..... 5 Xóa đối tượng xô S3 .. |