Trình phân tích cú pháp địa chỉ python

Việc quét web thường có thể dẫn đến việc bạn có dữ liệu địa chỉ được cạo không có cấu trúc. Ví dụ: nếu bạn đã gặp một số lượng lớn địa chỉ dạng tự do dưới dạng một chuỗi – 9 Downing St Westminster London SW1A, Vương quốc Anh”,  bạn biết việc xác thực, so sánh và loại bỏ các địa chỉ này khó khăn như thế nào. Để bắt đầu, bạn sẽ phải chia địa chỉ này thành một dạng có cấu trúc hơn với số nhà, tên đường, thành phố, tiểu bang, quốc gia và mã zip riêng biệt. Phân tích cú pháp địa chỉ trong Python khá dễ dàng và hướng dẫn này sẽ chỉ cho bạn cách.

Các gói trình phân tích địa chỉ Python có sẵn

Python cung cấp một vài gói để phân tích địa chỉ trong python –

  • Địa chỉ – package này là một thư viện phân tích cú pháp địa chỉ, nó giúp bạn không cần phỏng đoán khi sử dụng .
  • USAAddress – USAAddress  là một thư viện python để phân tích các chuỗi địa chỉ phi cấu trúc thành các thành phần địa chỉ, sử dụng các phương pháp NLP nâng cao. Bạn có thể dùng thử giao diện web của họ tại liên kết tại đây.
  • Địa chỉ đường phố – Được sử dụng làm địa chỉ đường phố trình định dạng và trình phân tích cú pháp. Dựa trên các trường hợp thử nghiệm từ http. // pyparsing. không gian wiki. com/file/view/streetAddressParser. p

Các gói này hoàn thành công việc cho hầu hết các địa chỉ, sử dụng Xử lý ngôn ngữ tự nhiên

Kiểm tra một số hướng dẫn cạo web của chúng tôi

Phân tích cú pháp địa chỉ bằng API mã hóa địa lý của Google Maps

Trong hướng dẫn này, chúng tôi sẽ chỉ cho bạn cách chuyển đổi địa chỉ chuỗi đơn dạng tự do thành địa chỉ có cấu trúc với Vĩ độ và Kinh độ bằng cách sử dụng API mã hóa địa lý của Google Maps. Bạn cũng có thể sử dụng API này để Mã hóa địa lý ngược. tôi. e. , bạn có thể chuyển đổi tọa độ địa lý thành địa chỉ.

Mã hóa địa lý là gì?

Mã hóa địa lý là quá trình chuyển đổi các địa chỉ như – “71 Pilgrim Avenue Chevy Chase, Md 20815” thành tọa độ địa lý như – vĩ độ 38. 9292172, kinh độ -77. 07120479

API mã hóa địa lý của Google Maps

API mã hóa địa lý của Google Maps là dịch vụ cung cấp mã hóa địa lý và mã hóa địa lý ngược cho một địa chỉ. Vì vậy, tập lệnh Python này là một loại trình bao bọc cho API này.

Mỗi yêu cầu Dịch vụ web của Google Maps yêu cầu một khóa API được cung cấp miễn phí với Tài khoản Google tại Google Developers Console. Loại khóa API bạn cần là Khóa máy chủ.

Cách lấy Khóa API

  1. Truy cập Google Developers Console và đăng nhập bằng Tài khoản Google.
  2. Chọn một trong các dự án hiện có của bạn hoặc tạo một dự án mới
  3. Bật API mã hóa địa lý
  4. Tạo khóa máy chủ mới
  5. Bạn có thể hạn chế các yêu cầu đối với một địa chỉ IP cụ thể, nhưng đó là tùy chọn

Quan trọng. Không chia sẻ Khóa API của bạn, hãy cẩn thận để bảo mật chúng. Bạn có thể xóa cái cũ và tạo cái mới nếu cần.

Giới hạn sử dụng API

tiêu chuẩn sử dụng. 2500 yêu cầu miễn phí mỗi ngày và 50 yêu cầu mỗi giây

Sử dụng cao cấp. 100.000 yêu cầu mỗi ngày và 50* yêu cầu phía máy chủ mỗi giây

*  Có thể thay đổi giới hạn mặc định

Đọc thêm - Cạo Zillow bằng Python và LXML

Bản trình diễn đơn giản – Phân tích cú pháp địa chỉ bằng Python

Tập lệnh bên dưới có thể chấp nhận chuỗi địa chỉ dưới dạng CSV hoặc bạn chỉ cần dán địa chỉ vào danh sách. Tập lệnh sẽ xuất kết quả dưới dạng tệp CSV sạch

https. //ý chính. github. com/scrapehero/1cb241a9dbe3798e4bdc36644b703dbb

Nếu phần nhúng để phân tích địa chỉ trong python ở trên không hoạt động, bạn có thể lấy mã từ GIST tại đây

Lưu tệp và chạy tập lệnh trong dấu nhắc lệnh hoặc thiết bị đầu cuối dưới dạng

python geocoder.py

Khi nó chạy xong, bạn sẽ nhận được đầu ra ở dạng dữ liệu tệp CSV. csv. Bạn có thể sửa đổi tên tệp từ dòng không. 47. Bạn cũng có thể sửa đổi mã để cung cấp tên tệp làm đối số vị trí.  

Bạn có thể tiếp tục và sửa đổi các dòng đọc địa chỉ và ghi địa chỉ, để đọc từ đường dẫn dữ liệu và ghi địa chỉ đó vào cơ sở dữ liệu. Nó tương đối dễ dàng, nhưng nằm ngoài phạm vi của minh họa đơn giản này

Hãy cho chúng tôi biết trong phần nhận xét bên dưới cách tập lệnh này để phân tích địa chỉ trong python hoạt động với bạn hoặc nếu bạn có giải pháp tốt hơn

Nếu bạn cần trợ giúp chuyên nghiệp trong việc quét các trang web phức tạp, hãy liên hệ với chúng tôi bằng cách điền vào biểu mẫu bên dưới

Hãy cho chúng tôi biết về các dự án quét web phức tạp của bạn

Biến Internet thành dữ liệu có ý nghĩa, có cấu trúc và có thể sử dụng được



Vui lòng KHÔNG liên hệ với chúng tôi để được trợ giúp về Hướng dẫn và Mã của chúng tôi bằng cách sử dụng biểu mẫu này hoặc bằng cách gọi cho chúng tôi, thay vào đó, vui lòng thêm nhận xét vào cuối trang hướng dẫn để được trợ giúp

liên hệ bán hàng


từ chối trách nhiệm. Bất kỳ mã nào được cung cấp trong hướng dẫn của chúng tôi chỉ nhằm mục đích minh họa và học tập. Chúng tôi không chịu trách nhiệm về cách nó được sử dụng và không chịu trách nhiệm pháp lý đối với bất kỳ việc sử dụng mã nguồn gây bất lợi nào. Sự hiện diện đơn thuần của mã này trên trang web của chúng tôi không ngụ ý rằng chúng tôi khuyến khích cạo hoặc cạo các trang web được tham chiếu trong mã và hướng dẫn đi kèm. Các hướng dẫn chỉ giúp minh họa kỹ thuật lập trình web scraper cho các trang web phổ biến trên internet. Chúng tôi không bắt buộc phải cung cấp bất kỳ hỗ trợ nào cho mã, tuy nhiên, nếu bạn thêm câu hỏi của mình vào phần nhận xét, chúng tôi có thể giải quyết chúng theo định kỳ

Tiếp tục đọc

  • Cách xoay Proxy và thay đổi địa chỉ IP bằng Python 3

    Khi cạo nhiều trang từ một trang web, sử dụng cùng một địa chỉ IP sẽ dẫn đến bị chặn. Một cách để tránh điều này là luân phiên các địa chỉ IP có thể ngăn không cho trình dọn dẹp của bạn bị gián đoạn. …

  • Cách giải Captcha đơn giản bằng Python Tesseract

    CAPTCHA là viết tắt của bài kiểm tra Turing công cộng hoàn toàn tự động để phân biệt máy tính và con người. Như từ viết tắt gợi ý, đây là một bài kiểm tra được sử dụng để xác định xem người dùng có phải là con người hay không. Một hình ảnh xác thực điển hình…

  • MOD Pizza nên mở cửa hàng mới ở đâu?

    MOD Pizza có 431 cửa hàng trên 28 tiểu bang và 350 thành phố. ScrapeHero đang đề xuất 190 địa điểm mà MOD Pizza có thể mở rộng bằng trí thông minh vị trí

Chủ Đề