Nhập HTML vào Excel

quét web, tôi. e. trích xuất dữ liệu từ các trang web, là một trong những cách thu thập dữ liệu thường xuyên nhất. Điều này có thể được thực hiện thủ công (sao chép và dán dữ liệu từ trang web) hoặc sử dụng quy trình tự động. Thông thường, việc quét web yêu cầu quyền truy cập vào các công cụ như Alteryx hoặc kiến ​​thức về ngôn ngữ lập trình như Python hoặc R, nhưng trong blog này, tôi sẽ thảo luận về một số giải pháp nhanh chóng cho phép nhập dữ liệu dạng bảng từ các trang web chỉ bằng cách sử dụng

Trong hướng dẫn này, tôi sẽ nhập danh sách các công ty bao gồm chỉ số chứng khoán S&P 500 từ trang Wikipedia này

Định vị các bảng trong một trang web bằng mã nguồn HTML của nó

1 – Trước tiên, hãy xác định các bảng trên trang web đã chọn của chúng tôi. Trên Firefox hoặc Chrome, nhấn F12 (⌘ + ⌥ + I trên Mac) để hiển thị cửa sổ phụ Công cụ dành cho nhà phát triển web và chọn tab Trình kiểm tra. Nó cũng có thể được gọi thông qua menu của trình duyệt từ phần “Công cụ dành cho nhà phát triển”

  • firefox. Menu ➤ Nhà phát triển web ➤ Chuyển đổi công cụ hoặc Công cụ ➤ Nhà phát triển web ➤ Chuyển đổi công cụ
  • Trình duyệt Chrome. Công cụ khác ➤ Công cụ dành cho nhà phát triển
  • Cuộc đi săn. Phát triển ➤ Hiển thị Trình kiểm tra web. Nếu bạn không thể thấy menu Phát triển, hãy đi tới Safari ➤ Tùy chọn ➤ Nâng cao và chọn hộp kiểm Hiển thị menu Phát triển trong thanh menu.  
  • Ô-pê-ra. Nhà phát triển ➤ Công cụ dành cho nhà phát triển

2 – Now let’s find the

tag that defines a table in HTML in the Inspector sub-window (see the highlighted section in the screenshot below). A table header is defined with the tag, and a table cell is defined with the
tag, each table row is defined with the
tag. Click the arrow icon in the top left corner of the Inspector to select an element from the page; its location will be highlighted in the Inspector. 

  • Nhập HTML vào Excel

Bảng chúng tôi sẽ xuất được đánh dấu bằng màu xanh lam nhạt, cũng lưu ý mã nguồn được đánh dấu bên cạnh con trỏ trong Trình kiểm tra ở bên phải

Nhập bảng HTML bằng Google Trang tính

1 – Mở bảng tính mới trong Google Trang tính. Trong một ô trống nhập công thức sau

=IMPORTHTML("https://en.wikipedia.org/wiki/List_of_S%26P_500_companies", "table", 1)

Công thức IMPORTHTML yêu cầu 3 đầu vào

URL:"https://en.wikipedia.org/wiki/List_of_S%26P_500_companies"

Đây là URL của trang chúng tôi sẽ nhập dữ liệu từ. Nó nên bao gồm giao thức (e. g. http. // hoặc https. //) và đặt trong ngoặc kép. Ngoài ra, nó có thể là một tham chiếu đến một ô trong sổ làm việc của bạn có chứa URL có liên quan.  

QUERY:"table"

Google Sheets also gives you the option to import lists from a webpage. Search for a list element (either an unordered list, tag

    , or an ordered list, tag
      ). Each list item starts with the
    1. tag.

      Nó có thể là "danh sách" hoặc "bảng", tùy thuộc vào loại phần tử của trang web mà bạn muốn nhập dữ liệu từ đó. Nó cũng nên được đặt trong dấu ngoặc kép. Trong ví dụ này, chúng tôi đang nhập một bảng

      INDEX:1

      Chỉ mục, bắt đầu từ 1, xác định bảng hoặc danh sách nào sẽ được trả về từ nguồn HTML của trang. Điều này hữu ích nếu trang của bạn chứa nhiều bảng hoặc danh sách

      2 – Nhấn Enter và tận hưởng dữ liệu đã nhập. Quá trình nhập này là động và sẽ tự động cập nhật khi dữ liệu mới được thêm vào bảng. Điều đó có thể hữu ích khi quét các bảng được cập nhật thường xuyên, chẳng hạn như kết quả của các cuộc thi thể thao hoặc bầu cử.  

      3 – Bạn có thể tải xuống tập dữ liệu mới tạo này dưới dạng. xlsx,. csv. hoặc là. tsv để thao tác thêm hoặc kết nối trực tiếp với nó từ Tableau Desktop bằng cách chọn “Google Sheets” từ danh sách máy chủ

      Nhập HTML vào Excel

      Nhập bảng HTML bằng Excel

      Hoạt động trong Excel 2007, 2010 & 2013

      1 – Mở một sổ làm việc trống và đi tới Dữ liệu > Lấy dữ liệu từ web

      • Nhập HTML vào Excel

      2 – Trong hộp thoại, dán URL bạn muốn truy cập vào trường “URL” và nhấp vào OK

      Nhập HTML vào Excel

      3 – Trong hộp thoại Điều hướng xuất hiện tiếp theo, bạn sẽ thấy tất cả các bảng từ trang được yêu cầu ở phía bên trái trong phần “Tùy chọn hiển thị”. Bạn có thể xem trước bảng trong cửa sổ bên phải bằng cách nhấp vào tên của bảng có liên quan (nếu có nhiều bảng trên trang)

      Nhập HTML vào Excel

      4 – Khi bạn đã chọn bảng bạn muốn nhập, hãy nhấp vào “Tải”. Bảng sẽ xuất hiện trong trang tính đã được định dạng dưới dạng bảng

      5 – Bạn có thể nhận thêm thông tin về nguồn của bảng và lần cập nhật cuối cùng bằng cách di chuột qua tên của bảng trong thanh bên “Truy vấn & Kết nối” ở bên phải. Để làm mới dữ liệu của bảng, hãy nhấp vào biểu tượng làm mới bên cạnh tên của bảng.