Nhập HTML vào Excel

quét web, tôi. e. trích xuất dữ liệu từ các trang web, là một trong những cách thu thập dữ liệu thường xuyên nhất. Điều này có thể được thực hiện thủ công [sao chép và dán dữ liệu từ trang web] hoặc sử dụng quy trình tự động. Thông thường, việc quét web yêu cầu quyền truy cập vào các công cụ như Alteryx hoặc kiến ​​thức về ngôn ngữ lập trình như Python hoặc R, nhưng trong blog này, tôi sẽ thảo luận về một số giải pháp nhanh chóng cho phép nhập dữ liệu dạng bảng từ các trang web chỉ bằng cách sử dụng

Trong hướng dẫn này, tôi sẽ nhập danh sách các công ty bao gồm chỉ số chứng khoán S&P 500 từ trang Wikipedia này

Định vị các bảng trong một trang web bằng mã nguồn HTML của nó

1 – Trước tiên, hãy xác định các bảng trên trang web đã chọn của chúng tôi. Trên Firefox hoặc Chrome, nhấn F12 [⌘ + ⌥ + I trên Mac] để hiển thị cửa sổ phụ Công cụ dành cho nhà phát triển web và chọn tab Trình kiểm tra. Nó cũng có thể được gọi thông qua menu của trình duyệt từ phần “Công cụ dành cho nhà phát triển”

  • firefox. Menu ➤ Nhà phát triển web ➤ Chuyển đổi công cụ hoặc Công cụ ➤ Nhà phát triển web ➤ Chuyển đổi công cụ
  • Trình duyệt Chrome. Công cụ khác ➤ Công cụ dành cho nhà phát triển
  • Cuộc đi săn. Phát triển ➤ Hiển thị Trình kiểm tra web. Nếu bạn không thể thấy menu Phát triển, hãy đi tới Safari ➤ Tùy chọn ➤ Nâng cao và chọn hộp kiểm Hiển thị menu Phát triển trong thanh menu.  
  • Ô-pê-ra. Nhà phát triển ➤ Công cụ dành cho nhà phát triển

2 – Now let’s find the

tag that defines a table in HTML in the Inspector sub-window [see the highlighted section in the screenshot below]. A table header is defined with the tag, each table row is defined with the tag, and a table cell is defined with the
tag. Click the arrow icon in the top left corner of the Inspector to select an element from the page; its location will be highlighted in the Inspector. 

Bảng chúng tôi sẽ xuất được đánh dấu bằng màu xanh lam nhạt, cũng lưu ý mã nguồn được đánh dấu bên cạnh con trỏ trong Trình kiểm tra ở bên phải

Nhập bảng HTML bằng Google Trang tính

1 – Mở bảng tính mới trong Google Trang tính. Trong một ô trống nhập công thức sau

=IMPORTHTML["//en.wikipedia.org/wiki/List_of_S%26P_500_companies", "table", 1]

Công thức IMPORTHTML yêu cầu 3 đầu vào

URL:"//en.wikipedia.org/wiki/List_of_S%26P_500_companies"

Đây là URL của trang chúng tôi sẽ nhập dữ liệu từ. Nó nên bao gồm giao thức [e. g. http. // hoặc https. //] và đặt trong ngoặc kép. Ngoài ra, nó có thể là một tham chiếu đến một ô trong sổ làm việc của bạn có chứa URL có liên quan.  

QUERY:"table"

Google Sheets also gives you the option to import lists from a webpage. Search for a list element [either an unordered list, tag