Máy cạo twitter python
Là một nhà phân tích dữ liệu, sẽ có những trường hợp dữ liệu của bạn đến từ các nguồn thứ cấp. một số trong số chúng sẽ được nhận thông qua quét web. Một trường hợp sử dụng đơn giản ở đây; . Show Để có được dữ liệu để phân tích, trước tiên bạn phải tìm cách cạo dữ liệu này, làm sạch, phân tích và sau đó sử dụng công cụ trực quan để trình bày cho doanh nghiệp Dự án này là sự hợp tác giữa Abisola Agboola (@Abisola_Agboola) và tôi. Cả hai chúng tôi đều là Đại sứ sinh viên phiên bản Beta của Microsoft Learn. Bài viết này chứa các liên kết được nhúng sẽ dẫn đến Phần 2 của công việc này (Trực quan hóa dữ liệu Twitter bằng Microsoft Power BI) do @Abisola_Agboola thực hiện Phân tích tình cảm là gì? Phân tích tình cảm là một trường hợp sử dụng của Xử lý ngôn ngữ tự nhiên. Nó được sử dụng để có được âm điệu đằng sau một ý kiến, văn bản hoặc câu trong một ngôn ngữ. Do đó, đây là một phân tích giúp đơn giản hóa nhiệm vụ tìm hiểu cảm giác đằng sau ý kiến của mọi người. Có một số cách phân tích này hữu ích, từ tính hữu ích của nó trong doanh nghiệp, sự chấp nhận sản phẩm, nhận thức về dịch vụ và nhiều mục đích sử dụng khác Trường hợp sử dụng. Dữ liệu TwitterLà một nhà phân tích dữ liệu, sẽ có những trường hợp dữ liệu của bạn đến từ các nguồn thứ cấp. một số trong số chúng sẽ được nhận thông qua quét web. Một trường hợp sử dụng đơn giản ở đây; . Để có được dữ liệu để phân tích, trước tiên bạn phải tìm cách cạo dữ liệu này, làm sạch, phân tích và sau đó sử dụng công cụ trực quan để trình bày cho doanh nghiệp Mục tiêu của kế hoạchtừ chối trách nhiệm Phân tích này không phải để dự đoán kết quả bầu cử Nigeria năm 2023, mà là một trường hợp sử dụng để chứng minh việc quét, chuyển đổi, phân tích và trực quan hóa dữ liệu twitter Thông qua dự án này, chúng tôi mong muốn kể một câu chuyện hấp dẫn và khiến công chúng nhận thức được xu hướng chung trong các hoạt động của họ trên twitter hướng tới cuộc tổng tuyển cử sắp tới vào năm 2023 Thư viện quan trọng được sử dụngCác thư viện và mô-đun cần thiết được sử dụng trong dự án này được liệt kê trong sổ ghi chép Jupyter có chứa mã. Mặc dù công cụ chính được sử dụng là Snscraper để quét dữ liệu lịch sử và TextBlob để xác định tính phân cực của các từ để lấy ý kiến của họ quy trình làm việc
Thu thập dữ liệuDữ liệu được thu thập bằng snscraper do không bị hạn chế khi sử dụng thư viện. Snscraper cho phép một người cạo dữ liệu lịch sử và không yêu cầu sử dụng các khóa API không giống như các thư viện như Tweepy. Tổng số 58.633 dữ liệu đã được thu thập từ ngày 1/1/2022 đến ngày 30/7/2022. Sản lượng dữ liệu này cho mỗi tháng khác nhau vì một số tháng không có giới hạn tối đa 20.000 được đặt trong mã trong khi một số tháng đã vượt quá giới hạn đó Truy vấn là nơi các tweet mà một người muốn tìm kiếm được viết và một vòng lặp for được chạy Kết quả của truy vấn có thể được nhìn thấy trong một khung dữ liệu Sắp xếp dữ liệu/tiền xử lýCác vị trí bị thiếu được lấp đầy bằng từ 'Không xác định'. Các từ có cách viết khác nhau đã được thay thế bằng cách viết thống nhất để phân tích được chính xác. Các cột mới cũng được tạo cho từng đảng trong số ba ứng cử viên tổng thống hàng đầu là APC, PDP và Đảng Lao động. Một tập hợp các cột khác cũng được tạo cho ba tên ứng cử viên hàng đầu. Cột này được tạo để lấy chính xác số lần mỗi tên xuất hiện trong tweet Để biết số lần mỗi tên trong số 3 ứng cử viên hàng đầu và nhóm của họ được đề cập trong một tweet, tên cần được trích xuất thành các cột riêng biệt bằng cách viết một hàm Kết quả của mã trên có thể được nhìn thấy dưới đây tiền xử lý dữ liệu. Phần lớn của dự án nằm ở bước này. Để phân tích tình cảm được thực hiện, giai đoạn này cần phải được thực hiện chính xác. Tiền xử lý dữ liệu không được đúc bằng đá. chúng phụ thuộc vào bản chất của dữ liệu bạn đang làm việc và những gì cần thay đổi, tuy nhiên, có một số biến đổi được cố định để thực hiện phân tích cảm tính. Những quá trình tiền xử lý này không theo thứ tự cụ thể
Một cột mới có tên là Các tweet đã xử lý được tạo và có thể được nhìn thấy trong khung dữ liệu bên dưới Một chút xáo trộn dữ liệu đã được thực hiện trên cột Tweet đã xử lý Sau khi sắp xếp/xử lý trước dữ liệu, thư viện TextBlob được sử dụng để lấy mức phân cực của văn bản; . Một điều kiện được đặt để có được cảm tính được đặt ở < 0 là tích cực, == 0 là trung lập và > 1 là tiêu cực Liên kết đến mã dự án này có thể được nhìn thấy trên trang Github của tôi Trực quan hóa dữ liệuĐể trực quan hóa dữ liệu và kể câu chuyện hấp dẫn hơn, chúng tôi sẽ sử dụng Microsoft Power BI Python không phải là công cụ tốt nhất để trực quan hóa vì hình ảnh của nó không bắt mắt. Dữ liệu được sử dụng cho dự án này đã được lưu trong một tệp và được gửi cho đối tác của tôi để trực quan hóa Điều này được thực hiện bởi đối tác của tôi @Abisola_Agboola. Kết quả có thể được nhìn thấy dưới đây. Để xem bảng điều khiển này được xây dựng như thế nào, hãy xem phần II của bài viết này Phần IINhấp vào liên kết ở đây https. // hay còn gọi là. ms/twitterdataanalysispart2 để xem cách tạo hình ảnh Power BI này và theo dõi để tạo hình ảnh của bạn Tóm lượcTrong bài viết này, chúng tôi đã làm rõ rằng trong một số tình huống, bạn sẽ phải làm việc với dữ liệu thứ cấp trong tổ chức của mình. một trong những cách để có được những dữ liệu này là thông qua quét web Bằng cách theo dõi bài viết này
Bạn có thể bấm vào đây để kiểm tra Phần II https. // hay còn gọi là. ms/twitterdataanalysispart2 Bạn sẽ có thể xây dựng hình ảnh Power BI của riêng mình và trau dồi kỹ năng của mình |