Máy cạo twitter python

Là một nhà phân tích dữ liệu, sẽ có những trường hợp dữ liệu của bạn đến từ các nguồn thứ cấp. một số trong số chúng sẽ được nhận thông qua quét web. Một trường hợp sử dụng đơn giản ở đây; .  

Để có được dữ liệu để phân tích, trước tiên bạn phải tìm cách cạo dữ liệu này, làm sạch, phân tích và sau đó sử dụng công cụ trực quan để trình bày cho doanh nghiệp

Dự án này là sự hợp tác giữa Abisola Agboola [@Abisola_Agboola] và tôi. Cả hai chúng tôi đều là Đại sứ sinh viên phiên bản Beta của Microsoft Learn. Bài viết này chứa các liên kết được nhúng sẽ dẫn đến Phần 2 của công việc này [Trực quan hóa dữ liệu Twitter bằng Microsoft Power BI] do @Abisola_Agboola thực hiện

Phân tích tình cảm là gì?

Phân tích tình cảm là một trường hợp sử dụng của Xử lý ngôn ngữ tự nhiên. Nó được sử dụng để có được âm điệu đằng sau một ý kiến, văn bản hoặc câu trong một ngôn ngữ. Do đó, đây là một phân tích giúp đơn giản hóa nhiệm vụ tìm hiểu cảm giác đằng sau ý kiến ​​của mọi người. Có một số cách phân tích này hữu ích, từ tính hữu ích của nó trong doanh nghiệp, sự chấp nhận sản phẩm, nhận thức về dịch vụ và nhiều mục đích sử dụng khác

Trường hợp sử dụng. Dữ liệu Twitter

Là một nhà phân tích dữ liệu, sẽ có những trường hợp dữ liệu của bạn đến từ các nguồn thứ cấp. một số trong số chúng sẽ được nhận thông qua quét web. Một trường hợp sử dụng đơn giản ở đây; .  

Để có được dữ liệu để phân tích, trước tiên bạn phải tìm cách cạo dữ liệu này, làm sạch, phân tích và sau đó sử dụng công cụ trực quan để trình bày cho doanh nghiệp

Mục tiêu của kế hoạch

từ chối trách nhiệm

Phân tích này không phải để dự đoán kết quả bầu cử Nigeria năm 2023, mà là một trường hợp sử dụng để chứng minh việc quét, chuyển đổi, phân tích và trực quan hóa dữ liệu twitter

Thông qua dự án này, chúng tôi mong muốn kể một câu chuyện hấp dẫn và khiến công chúng nhận thức được xu hướng chung trong các hoạt động của họ trên twitter hướng tới cuộc tổng tuyển cử sắp tới vào năm 2023

Thư viện quan trọng được sử dụng

Các thư viện và mô-đun cần thiết được sử dụng trong dự án này được liệt kê trong sổ ghi chép Jupyter có chứa mã. Mặc dù công cụ chính được sử dụng là Snscraper để quét dữ liệu lịch sử và TextBlob để xác định tính phân cực của các từ để lấy ý kiến ​​của họ

quy trình làm việc

  1. Thu thập dữ liệu
  2. Tiền xử lý dữ liệu
  3. Phân tích tình cảm
  4. Trực quan hóa dữ liệu
  5. truyền đạt kết quả

Thu thập dữ liệu

Dữ liệu được thu thập bằng snscraper do không bị hạn chế khi sử dụng thư viện. Snscraper cho phép một người cạo dữ liệu lịch sử và không yêu cầu sử dụng các khóa API không giống như các thư viện như Tweepy. Tổng số 58.633 dữ liệu đã được thu thập từ ngày 1/1/2022 đến ngày 30/7/2022. Sản lượng dữ liệu này cho mỗi tháng khác nhau vì một số tháng không có giới hạn tối đa 20.000 được đặt trong mã trong khi một số tháng đã vượt quá giới hạn đó

Truy vấn là nơi các tweet mà một người muốn tìm kiếm được viết và một vòng lặp for được chạy

Kết quả của truy vấn có thể được nhìn thấy trong một khung dữ liệu

Sắp xếp dữ liệu/tiền xử lý

Các vị trí bị thiếu được lấp đầy bằng từ 'Không xác định'. Các từ có cách viết khác nhau đã được thay thế bằng cách viết thống nhất để phân tích được chính xác. Các cột mới cũng được tạo cho từng đảng trong số ba ứng cử viên tổng thống hàng đầu là APC, PDP và Đảng Lao động. Một tập hợp các cột khác cũng được tạo cho ba tên ứng cử viên hàng đầu. Cột này được tạo để lấy chính xác số lần mỗi tên xuất hiện trong tweet

Để biết số lần mỗi tên trong số 3 ứng cử viên hàng đầu và nhóm của họ được đề cập trong một tweet, tên cần được trích xuất thành các cột riêng biệt bằng cách viết một hàm

Kết quả của mã trên có thể được nhìn thấy dưới đây

tiền xử lý dữ liệu. Phần lớn của dự án nằm ở bước này. Để phân tích tình cảm được thực hiện, giai đoạn này cần phải được thực hiện chính xác. Tiền xử lý dữ liệu không được đúc bằng đá. chúng phụ thuộc vào bản chất của dữ liệu bạn đang làm việc và những gì cần thay đổi, tuy nhiên, có một số biến đổi được cố định để thực hiện phân tích cảm tính. Những quá trình tiền xử lý này không theo thứ tự cụ thể

  • Chuyển đổi các từ thành chữ thường. Trong giai đoạn tiền xử lý, cột tweet được chuyển đổi thành các từ viết thường để làm cho các từ đồng nhất
  • Xóa liên kết Url, chữ số, dấu chấm câu, biểu tượng cảm xúc và mọi thứ khác có thể không cần thiết cho phân tích tình cảm
  • Mã hóa cột tweet đang chia nhỏ câu thành các từ
  • Loại bỏ các từ dừng. Đây là từ không mang lại ý nghĩa cho ngữ cảnh của một câu ví dụ là, v.v.
  • từ bổ đề. Điều này là để lấy cơ sở của các từ tức là túi dạng từ vựng là túi

Một cột mới có tên là Các tweet đã xử lý được tạo và có thể được nhìn thấy trong khung dữ liệu bên dưới

Một chút xáo trộn dữ liệu đã được thực hiện trên cột Tweet đã xử lý

Sau khi sắp xếp/xử lý trước dữ liệu, thư viện TextBlob được sử dụng để lấy mức phân cực của văn bản; . Một điều kiện được đặt để có được cảm tính được đặt ở < 0 là tích cực, == 0 là trung lập và > 1 là tiêu cực

Liên kết đến mã dự án này có thể được nhìn thấy trên trang Github của tôi

Trực quan hóa dữ liệu

Để trực quan hóa dữ liệu và kể câu chuyện hấp dẫn hơn, chúng tôi sẽ sử dụng Microsoft Power BI

Python không phải là công cụ tốt nhất để trực quan hóa vì hình ảnh của nó không bắt mắt. Dữ liệu được sử dụng cho dự án này đã được lưu trong một tệp và được gửi cho đối tác của tôi để trực quan hóa

Điều này được thực hiện bởi đối tác của tôi @Abisola_Agboola. Kết quả có thể được nhìn thấy dưới đây. Để xem bảng điều khiển này được xây dựng như thế nào, hãy xem phần II của bài viết này

Phần II

Nhấp vào liên kết ở đây https. // hay còn gọi là. ms/twitterdataanalysispart2 để xem cách tạo hình ảnh Power BI này và theo dõi để tạo hình ảnh của bạn

Tóm lược

Trong bài viết này, chúng tôi đã làm rõ rằng trong một số tình huống, bạn sẽ phải làm việc với dữ liệu thứ cấp trong tổ chức của mình. một trong những cách để có được những dữ liệu này là thông qua quét web

Bằng cách theo dõi bài viết này

  • Bạn đã học cách cạo twitter bằng thư viện snscraper
  • Cách làm sạch dữ liệu và chuyển đổi dữ liệu thành dạng bảng
  • Cách sử dụng thư viện TextBlob để tính điểm tình cảm dựa trên tweet
  • Cách xuất dữ liệu này sang csv/excel. cái này sẽ được nhập trong Power BI để trực quan hóa

Bạn có thể bấm vào đây để kiểm tra Phần II https. // hay còn gọi là. ms/twitterdataanalysispart2 Bạn sẽ có thể xây dựng hình ảnh Power BI của riêng mình và trau dồi kỹ năng của mình

Chủ Đề