Hướng dẫn twitter trend analysis python - phân tích xu hướng twitter python

Dữ liệu lớn ở khắp mọi nơi. Giai đoạn = Stage. Trong quá trình điều hành một doanh nghiệp thành công trong ngày hôm nay, bạn có thể sẽ gặp phải nó cho dù bạn có thích hay không. is everywhere. Period. In the process of running a successful business in today’s day and age, you’re likely going to run into it whether you like it or not. is everywhere. Period. In the process of running a successful business in today’s day and age, you’re likely going to run into it whether you like it or not.

Nội dung chính ShowShow

  • Dữ liệu lớn là gì?
  • Tại sao dữ liệu Twitter?
  • Bắt đầu
  • Tài khoản nhà phát triển Twitter
  • Cài đặt Tweepy
  • Xác thực
  • Ví dụ 1: Dòng thời gian của bạn
  • JSON đằng sau kết quả
  • Ví dụ 2: tweet từ một người dùng cụ thể
  • Ví dụ 3: Tìm các tweet bằng cách sử dụng từ khóa
  • Sự kết luận
  • Làm cách nào để lấy dữ liệu Twitter và phân tích nó bằng Python?
  • Làm cách nào để lấy dữ liệu từ Twitter bằng Python?
  • Làm thế nào để bạn phân tích dữ liệu từ Twitter?
  • Gói Python nào là tốt nhất để nhận dữ liệu từ Twitter?

Cho dù bạn là một doanh nhân đang cố gắng bắt kịp thời đại hay một thần đồng mã hóa đang tìm kiếm dự án tiếp theo của họ, hướng dẫn này sẽ cung cấp cho bạn một cái nhìn tổng quan ngắn gọn về dữ liệu lớn là gì. Bạn sẽ tìm hiểu cách nó áp dụng cho bạn và cách bạn có thể bắt đầu nhanh chóng thông qua API và Python Twitter.

Dữ liệu lớn là gì?

Tại sao dữ liệu Twitter?

Bắt đầu

Tài khoản nhà phát triển Twitter1.2 billion monthly active users. In this case, the big data are conversations between users. If you were to individually read the conversations of each user, you would be able to get a good sense of what they like, and be able to recommend products to them accordingly. Using a machine learning technique known as Natural Language Processing (NLP), you can do this on a large scale with the entire process automated and left up to machines.

Cài đặt Tweepy

Tại sao dữ liệu Twitter?

Bắt đầu

Tài khoản nhà phát triển Twitter

Cài đặt Tweepy

Xác thực

Ví dụ 1: Dòng thời gian của bạn

Để kết nối với API Twitter, chúng tôi sẽ sử dụng thư viện Python có tên Tweepy, mà chúng tôi sẽ cài đặt một chút.

Bắt đầu

Tài khoản nhà phát triển Twitter

Để sử dụng API Twitter, chúng tôi phải tạo một tài khoản nhà phát triển trên trang web ứng dụng Twitter.

  1. Đăng nhập hoặc tạo tài khoản Twitter tại https://apps.twitter.com/.
  2. Tạo một ứng dụng mới (nút ở trên cùng bên phải)

  3. Điền vào trang tạo ứng dụng với một tên duy nhất, tên trang web (sử dụng trang web giữ chỗ nếu bạn không có) và mô tả dự án. Chấp nhận các điều khoản và điều kiện và tiến hành trang tiếp theo.unique name, a website name (use a placeholder website if you don’t have one), and a project description. Accept the terms and conditions and proceed to the next page. unique name, a website name (use a placeholder website if you don’t have one), and a project description. Accept the terms and conditions and proceed to the next page.

  4. Khi dự án của bạn đã được tạo, hãy nhấp vào tab Khóa và Truy cập mã thông báo. Bây giờ bạn sẽ có thể xem Bí mật tiêu dùng và khóa tiêu dùng của bạn.

  5. Bạn cũng sẽ cần một cặp mã thông báo truy cập. Cuộn xuống và yêu cầu những mã thông báo đó. Trang nên làm mới và giờ đây bạn sẽ có mã thông báo truy cập và Bí mật truy cập.

Chúng tôi sẽ cần tất cả những thứ này sau, vì vậy hãy chắc chắn rằng bạn sẽ mở tab này.

Cài đặt Tweepy

Tweepy là một công cụ được hỗ trợ xuất sắc để truy cập API Twitter. Nó hỗ trợ Python 2.6, 2.7, 3.3, 3.4, 3.5 và 3.6. Có một vài cách khác nhau để cài đặt Tweepy. Cách dễ nhất là sử dụng

import tweepy
consumer_key = "wXXXXXXXXXXXXXXXXXXXXXXX1"
consumer_secret = "qXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXh"
access_token = "9XXXXXXXX-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXi"
access_token_secret = "kXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXT"
4.

Sử dụng pip

Đơn giản chỉ cần gõ

import tweepy
consumer_key = "wXXXXXXXXXXXXXXXXXXXXXXX1"
consumer_secret = "qXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXh"
access_token = "9XXXXXXXX-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXi"
access_token_secret = "kXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXT"
5 vào thiết bị đầu cuối của bạn.

Sử dụng GitHub

Bạn có thể làm theo các hướng dẫn trên kho lưu trữ GitHub Tweepy. Các bước cơ bản như sau:

git clone https://github.com/tweepy/tweepy.git
cd tweepy
python setup.py install

Bạn cũng có thể khắc phục mọi vấn đề cài đặt ở đó.

Xác thực

Bây giờ chúng tôi đã có các công cụ cần thiết sẵn sàng, chúng tôi có thể bắt đầu mã hóa! Đường cơ sở của mỗi ứng dụng mà chúng tôi sẽ xây dựng ngày hôm nay yêu cầu sử dụng Tweepy để tạo đối tượng API mà chúng tôi có thể gọi các chức năng. Tuy nhiên, để tạo đối tượng API, trước tiên chúng ta phải xác thực chính mình với thông tin nhà phát triển của chúng tôi.

Đầu tiên, hãy để Lừa nhập Tweepy và thêm thông tin xác thực của riêng chúng tôi.

import tweepy
consumer_key = "wXXXXXXXXXXXXXXXXXXXXXXX1"
consumer_secret = "qXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXh"
access_token = "9XXXXXXXX-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXi"
access_token_secret = "kXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXT"

Bây giờ, thời gian để tạo đối tượng API của chúng tôi.

# Creating the authentication object
auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
# Setting your access token and secret
auth.set_access_token(access_token, access_token_secret)
# Creating the API object while passing in auth information
api = tweepy.API(auth) 

Đây sẽ là cơ sở của mọi ứng dụng chúng tôi xây dựng, vì vậy hãy chắc chắn rằng bạn không xóa nó.

Ví dụ 1: Dòng thời gian của bạn

Trong ví dụ này, chúng tôi sẽ lấy mười tweet gần đây nhất từ ​​nguồn cấp dữ liệu Twitter của bạn. Chúng tôi sẽ làm điều này bằng cách sử dụng chức năng API đối tượng ____ ____. Sau đó, chúng ta có thể lưu trữ kết quả trong một biến và lặp qua nó để in kết quả.

# Using the API object to get tweets from your timeline, and storing it in a variable called public_tweets
public_tweets = api.home_timeline()
# foreach through all tweets pulled
for tweet in public_tweets:
   # printing the text stored inside the tweet object
   print tweet.text

Kết quả sẽ trông giống như một loạt các tweet ngẫu nhiên, tiếp theo là URL đến chính tweet.

Theo liên kết đến tweet thường sẽ đưa bạn đến tweet. Theo liên kết từ tweet đầu tiên sẽ cho chúng tôi kết quả sau:

Lưu ý rằng nếu bạn đang chạy điều này thông qua thiết bị đầu cuối và không phải là một IDE như Pycharm, bạn có thể gặp một số vấn đề về định dạng khi cố gắng in văn bản tweet.

JSON đằng sau kết quả

Trong ví dụ trên, chúng tôi đã in văn bản từ mỗi tweet bằng

import tweepy
consumer_key = "wXXXXXXXXXXXXXXXXXXXXXXX1"
consumer_secret = "qXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXh"
access_token = "9XXXXXXXX-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXi"
access_token_secret = "kXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXT"
6. Để chỉ các thuộc tính cụ thể của mỗi đối tượng tweet, chúng ta phải xem xét JSON được API Twitter trả về.

Kết quả bạn nhận được từ API Twitter ở định dạng JSON và có khá nhiều thông tin được đính kèm. Để đơn giản, hướng dẫn này chủ yếu tập trung vào thuộc tính văn bản trên mạng của mỗi tweet và thông tin về tweeter (người dùng đã tạo tweet). Đối với mẫu trên, bạn có thể thấy toàn bộ đối tượng JSON được trả về ở đây.

Ở đây, một cái nhìn nhanh về một số thuộc tính mà một tweet phải cung cấp.

Nếu bạn muốn tìm ngày tweet được tạo, bạn sẽ truy vấn nó bằng

import tweepy
consumer_key = "wXXXXXXXXXXXXXXXXXXXXXXX1"
consumer_secret = "qXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXh"
access_token = "9XXXXXXXX-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXi"
access_token_secret = "kXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXT"
0.

Bạn cũng có thể thấy rằng mỗi đối tượng tweet đi kèm với thông tin về tweeter.

Để có được thuộc tính tên của tên gọi và vị trí của người khác trong tweeter, bạn có thể chạy

import tweepy
consumer_key = "wXXXXXXXXXXXXXXXXXXXXXXX1"
consumer_secret = "qXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXh"
access_token = "9XXXXXXXX-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXi"
access_token_secret = "kXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXT"
1 và
import tweepy
consumer_key = "wXXXXXXXXXXXXXXXXXXXXXXX1"
consumer_secret = "qXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXh"
access_token = "9XXXXXXXX-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXi"
access_token_secret = "kXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXT"
2.

Lưu ý rằng các thuộc tính này có thể cực kỳ hữu ích nếu ứng dụng của bạn phụ thuộc vào dữ liệu không gian.

Ví dụ 2: tweet từ một người dùng cụ thể

Trong ví dụ này, chúng tôi chỉ cần lấy hai mươi tweet mới nhất từ ​​người dùng mà chúng tôi lựa chọn.

Đầu tiên, chúng tôi sẽ kiểm tra tài liệu Tweepy để xem liệu một chức năng như thế có tồn tại không. Với một chút nghiên cứu, chúng tôi thấy rằng chức năng

import tweepy
consumer_key = "wXXXXXXXXXXXXXXXXXXXXXXX1"
consumer_secret = "qXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXh"
access_token = "9XXXXXXXX-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXi"
access_token_secret = "kXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXT"
3 là những gì chúng tôi đang tìm kiếm.

Chúng ta có thể thấy rằng hàm

import tweepy
consumer_key = "wXXXXXXXXXXXXXXXXXXXXXXX1"
consumer_secret = "qXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXh"
access_token = "9XXXXXXXX-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXi"
access_token_secret = "kXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXT"
3 có một số tham số hữu ích mà chúng ta có thể sử dụng, cụ thể là
import tweepy
consumer_key = "wXXXXXXXXXXXXXXXXXXXXXXX1"
consumer_secret = "qXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXh"
access_token = "9XXXXXXXX-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXi"
access_token_secret = "kXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXT"
5 (ID của người dùng) và
import tweepy
consumer_key = "wXXXXXXXXXXXXXXXXXXXXXXX1"
consumer_secret = "qXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXh"
access_token = "9XXXXXXXX-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXi"
access_token_secret = "kXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXT"
6 (số lượng tweet chúng ta muốn kéo). Lưu ý rằng chúng tôi chỉ có thể rút một số tweet giới hạn cho mỗi truy vấn do giới hạn tỷ lệ twitter của Twitter.

Hãy thử thử hai mươi tweet mới nhất từ ​​tài khoản twitter @nytimes.

Chúng tôi có thể tạo các biến để lưu trữ số lượng tweet chúng tôi muốn kéo (đếm) và người dùng chúng tôi muốn kéo chúng từ (tên). Sau đó, chúng ta có thể gọi hàm user_timeline với hai tham số đó. Dưới đây là mã được cập nhật (lưu ý rằng bạn nên giữ xác thực và tạo đối tượng API ở đầu mã của bạn).

import tweepy
consumer_key = "wXXXXXXXXXXXXXXXXXXXXXXX1"
consumer_secret = "qXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXh"
access_token = "9XXXXXXXX-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXi"
access_token_secret = "kXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXT"
1

Kết quả của chúng tôi sẽ trông giống như thế này:

Các ứng dụng phổ biến của loại dữ liệu này có thể bao gồm:

  • Chạy phân tích trên người dùng cụ thể và cách họ tương tác với thế giới
  • Tìm kiếm những người có ảnh hưởng Twitter và phân tích xu hướng và tương tác theo dõi của họ
  • Giám sát những thay đổi trong người theo dõi của người dùng

Ví dụ 3: Tìm các tweet bằng cách sử dụng từ khóa

Hãy cùng làm một ví dụ cuối cùng: Nhận các tweet gần đây nhất có chứa từ khóa. Điều này có thể cực kỳ hữu ích nếu bạn muốn theo dõi các chủ đề được đề cập cụ thể trong thế giới Twitter hoặc thậm chí để xem doanh nghiệp của bạn được đề cập như thế nào. Hãy nói rằng chúng tôi muốn xem Twitter đã đề cập đến Toptal như thế nào.

Sau khi xem qua tài liệu Tweepy, chức năng

import tweepy
consumer_key = "wXXXXXXXXXXXXXXXXXXXXXXX1"
consumer_secret = "qXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXh"
access_token = "9XXXXXXXX-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXi"
access_token_secret = "kXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXT"
7 dường như là công cụ tốt nhất để hoàn thành mục tiêu của chúng tôi.

Tham số quan trọng nhất ở đây là ____ 18 18 tham số truy vấn, đó là từ khóa mà chúng tôi đang tìm kiếm.

Chúng tôi cũng có thể đặt tham số ngôn ngữ để chúng tôi không nhận được bất kỳ tweet nào từ một ngôn ngữ không mong muốn. Hãy để chỉ trả lại các tweet của tiếng Anh (en en).

Bây giờ chúng tôi có thể sửa đổi mã của chúng tôi để phản ánh những thay đổi chúng tôi muốn thực hiện. Trước tiên, chúng tôi tạo các biến để lưu trữ các tham số của chúng tôi (truy vấn và ngôn ngữ), sau đó gọi hàm thông qua đối tượng API. Hãy để Lừa cũng in tên màn hình, của người dùng đã tạo tweet, trong vòng lặp của chúng tôi.

import tweepy
consumer_key = "wXXXXXXXXXXXXXXXXXXXXXXX1"
consumer_secret = "qXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXh"
access_token = "9XXXXXXXX-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXi"
access_token_secret = "kXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXT"
3

Kết quả của chúng tôi sẽ trông giống như thế này:

Dưới đây là một số cách thực tế bạn có thể sử dụng thông tin này:

  • Tạo một biểu đồ không gian về nơi công ty của bạn được đề cập nhiều nhất trên toàn thế giới
  • Chạy phân tích tình cảm trên các tweet để xem liệu ý kiến ​​chung của công ty bạn là tích cực hay tiêu cực
  • Tạo một biểu đồ xã hội của những người dùng phổ biến nhất tweet về công ty hoặc sản phẩm của bạn

Chúng tôi có thể đề cập đến một số chủ đề này trong các bài viết trong tương lai.

Sự kết luận

API Twitter Twitter rất hữu ích trong các ứng dụng khai thác dữ liệu và có thể cung cấp những hiểu biết lớn về dư luận. Nếu API Twitter và phân tích dữ liệu lớn là điều bạn quan tâm hơn nữa, tôi khuyến khích bạn đọc thêm về API Twitter, Tweepy và Twitter.

Chúng tôi chỉ đề cập đến những điều cơ bản của việc truy cập và kéo. API Twitter có thể được tận dụng trong các vấn đề dữ liệu lớn rất phức tạp, liên quan đến con người, xu hướng và đồ thị xã hội quá phức tạp để tâm trí con người nắm bắt một mình.

Làm cách nào để lấy dữ liệu Twitter và phân tích nó bằng Python?

Tweepy: Tweepy là khách hàng Python cho API chính thức của Twitter. Cài đặt nó bằng lệnh PIP sau: Cài đặt PIP Tweepy ..

TextBlob: TextBlob là thư viện Python để xử lý dữ liệu văn bản. Cài đặt nó bằng lệnh PIP sau: Cài đặt PIP TextBlob ..

Làm cách nào để lấy dữ liệu từ Twitter bằng Python?

Cách trích xuất dữ liệu tweet từ Twitter bằng Python...

Đầu tiên chúng tôi sẽ trích xuất các tweet đề cập đến tên người dùng.....

Sau đó, chúng tôi sẽ trích xuất các tweet có chứa hashtag ..

Sau đó, chúng tôi sẽ trích xuất các tweet sau một ngày nhất định ..

Cuối cùng, chúng tôi sẽ trích xuất các tweet được tweet bởi một người dùng cụ thể và lưu trữ nó trong DataFrame ..

Làm thế nào để bạn phân tích dữ liệu từ Twitter?

Truy cập Phân tích> Twitter> Phân tích các tweet và chọn tất cả các tài liệu Twitter mà bạn muốn đưa vào phân tích của mình.Kết quả sẽ được hiển thị trong một bảng, bao gồm thông tin về tác giả và tweet (ví dụ: tần suất tweet đã được chuyển tiếp hoặc số lượt thích nhận được tweet).. The results will be shown in a table, which includes information about the author and the tweet (for example, how often the tweet has been retweeted or the number of likes a tweet received).. The results will be shown in a table, which includes information about the author and the tweet (for example, how often the tweet has been retweeted or the number of likes a tweet received).

Gói Python nào là tốt nhất để nhận dữ liệu từ Twitter?

Tweepy là một thư viện Python để tích hợp với API Twitter.Bởi vì Tweepy được kết nối với API Twitter, bạn có thể thực hiện các truy vấn phức tạp ngoài việc quét các tweet.Nó cho phép bạn tận dụng tất cả các khả năng của API Twitter. is a Python library for integrating with the Twitter API. Because Tweepy is connected with the Twitter API, you can perform complex queries in addition to scraping tweets. It enables you to take advantage of all of the Twitter API's capabilities. is a Python library for integrating with the Twitter API. Because Tweepy is connected with the Twitter API, you can perform complex queries in addition to scraping tweets. It enables you to take advantage of all of the Twitter API's capabilities.