Chọn các phần tử trong các phần tử: Tìm kiếm các liên kết trong một phần tử: Tìm kiếm văn bản trên trang:Yêu cầu-HTML: phân tích cú pháp HTML cho Human ™
About\n\n
\n'>>> about.find['a']
[, , , , , ]
>>> about.absolute_links
{'//brochure.getpython.info/', '//www.python.org/about/gettingstarted/', '//www.python.org/about/', '//www.python.org/about/quotes/', '//www.python.org/about/help/', '//www.python.org/about/apps/'}
>>> from requests_html import AsyncHTMLSession
>>> asession = AsyncHTMLSession[]
>>> async def get_pythonorg[]:
... r = await asession.get['//python.org/']
>>> async def get_reddit[]:
... r = await asession.get['//reddit.com/']
>>> async def get_google[]:
... r = await asession.get['//google.com/']
>>> result = session.run[get_pythonorg, get_reddit, get_google]
0Ví dụ về bộ chọn CSS phức tạp hơn [được sao chép từ công cụ Chrome Dev]:
>>> from requests_html import AsyncHTMLSession
>>> asession = AsyncHTMLSession[]
>>> async def get_pythonorg[]:
... r = await asession.get['//python.org/']
>>> async def get_reddit[]:
... r = await asession.get['//reddit.com/']
>>> async def get_google[]:
... r = await asession.get['//google.com/']
>>> result = session.run[get_pythonorg, get_reddit, get_google]
1XPath cũng được hỗ trợ:
>>> from requests_html import AsyncHTMLSession
>>> asession = AsyncHTMLSession[]
>>> async def get_pythonorg[]:
... r = await asession.get['//python.org/']
>>> async def get_reddit[]:
... r = await asession.get['//reddit.com/']
>>> async def get_google[]:
... r = await asession.get['//google.com/']
>>> result = session.run[get_pythonorg, get_reddit, get_google]
2Hỗ trợ JavaScript
Hãy để lấy một số văn bản mà JavaScript kết xuất bởi JavaScript:
>>> from requests_html import AsyncHTMLSession
>>> asession = AsyncHTMLSession[]
>>> async def get_pythonorg[]:
... r = await asession.get['//python.org/']
>>> async def get_reddit[]:
... r = await asession.get['//reddit.com/']
>>> async def get_google[]:
... r = await asession.get['//google.com/']
>>> result = session.run[get_pythonorg, get_reddit, get_google]
3Hoặc bạn cũng có thể làm điều này Async:
>>> from requests_html import AsyncHTMLSession
>>> asession = AsyncHTMLSession[]
>>> async def get_pythonorg[]:
... r = await asession.get['//python.org/']
>>> async def get_reddit[]:
... r = await asession.get['//reddit.com/']
>>> async def get_google[]:
... r = await asession.get['//google.com/']
>>> result = session.run[get_pythonorg, get_reddit, get_google]
4Lưu ý, lần đầu tiên bạn chạy phương thức render [], nó sẽ tải crom vào thư mục nhà của bạn [ví dụ: ~/.pyppeteer/]. Điều này chỉ xảy ra một lần.render[] method, it will download Chromium into your home directory [e.g. ~/.pyppeteer/]. This only happens once.
Sử dụng mà không cần yêu cầu
Bạn cũng có thể sử dụng thư viện này mà không cần yêu cầu:
>>> from requests_html import AsyncHTMLSession
>>> asession = AsyncHTMLSession[]
>>> async def get_pythonorg[]:
... r = await asession.get['//python.org/']
>>> async def get_reddit[]:
... r = await asession.get['//reddit.com/']
>>> async def get_google[]:
... r = await asession.get['//google.com/']
>>> result = session.run[get_pythonorg, get_reddit, get_google]
5Cài đặt
>>> from requests_html import AsyncHTMLSession
>>> asession = AsyncHTMLSession[]
>>> async def get_pythonorg[]:
... r = await asession.get['//python.org/']
>>> async def get_reddit[]:
... r = await asession.get['//reddit.com/']
>>> async def get_google[]:
... r = await asession.get['//google.com/']
>>> result = session.run[get_pythonorg, get_reddit, get_google]
6Chỉ Python 3.6 được hỗ trợ.Python 3.6 is supported.