Làm thế nào để bạn có được những từ thường xuyên nhất trong python?

Trong chương trình này, chúng ta cần tìm từ được lặp lại nhiều nhất trong tệp văn bản đã cho. Điều này có thể được thực hiện bằng cách mở tệp ở chế độ đọc bằng cách sử dụng con trỏ tệp. Đọc từng dòng tệp. Tách một dòng tại một thời điểm và lưu trữ trong một mảng. Lặp lại mảng và tìm tần suất của từng từ và so sánh tần suất với maxcount. Nếu tần suất lớn hơn maxcount thì lưu trữ tần số trong maxcount và từ tương ứng trong từ biến. Nội dung của dữ liệu. txt được sử dụng trong chương trình được hiển thị bên dưới

Chương trình máy tính là tập hợp các hướng dẫn thực hiện tác vụ cụ thể khi được máy tính thực hiện

Máy tính yêu cầu các chương trình hoạt động

Chương trình máy tính thường được viết bởi một lập trình viên máy tính bằng ngôn ngữ lập trình

Một tập hợp các chương trình máy tính, thư viện và dữ liệu liên quan được gọi là phần mềm

Các chương trình máy tính có thể được phân loại theo các dòng chức năng, chẳng hạn như phần mềm ứng dụng và phần mềm hệ thống

Các từ thường xuyên nhất trong một tệp văn bản trong Python

Bởi Daruvuri phanith

Xin chào những người học trăn. Trong phần này, chúng ta sẽ học cách tìm những từ xuất hiện nhiều nhất trong một văn bản được đọc từ một tệp. Thay vì thực hiện trên văn bản bình thường, chúng ta hãy thực hiện việc này trên văn bản được đọc từ tệp. Để hiểu rõ hơn chúng ta cần làm quen với tệp và các thao tác trên tệp. Vì vậy, chúng ta hãy tìm hiểu về các tập tin

Xử lý tệp trong python

Dữ liệu thường được lưu trữ trong các tệp văn bản, được sắp xếp. Có nhiều loại tập tin. Các tệp văn bản, tệp nhạc, video và các tài liệu trình bày và xử lý văn bản khác nhau là những tệp mà chúng ta quen thuộc

Các tệp văn bản chỉ chứa các ký tự trong khi tất cả các định dạng tệp khác bao gồm thông tin định dạng dành riêng cho định dạng tệp đó. Các thao tác thực hiện trên dữ liệu trong tệp bao gồm thao tác đọc và ghi. Để thực hiện bất kỳ thao tác nào, chương trình phải mở tệp. Cú pháp để mở một tập tin được đưa ra dưới đây

with open[«filename», «mode»] as «variable»:
«block»

Mặc dù có một số cách mở tệp nhưng tôi thích cách này hơn vì chúng ta không cần chỉ định câu lệnh đóng ở cuối

Để hiểu rõ hơn về tệp, hãy truy cập liên kết này  xử lý tệp

Đọc một tập tin

Có một số kỹ thuật đọc tệp. Một cách là đọc toàn bộ nội dung của tệp thành một chuỗi và chúng tôi cũng có các kỹ thuật lặp trong đó trong mỗi lần lặp, một dòng văn bản được đọc. Chúng tôi, cũng có thể đọc từng dòng văn bản và lưu trữ tất cả chúng trong một danh sách. Cú pháp cho từng kỹ thuật được đưa ra dưới đây

#to read the entire contents of text into a single string 
with open['file1.txt', 'r'] as f:
contents = f.read[]
#to read each line and store them as list
with open['file1.txt', 'r'] as f:
lines = f.readlines[]
#for iterative method of reading text in files
with open['planets.txt', 'r'] as f:
    for line in f:
    print[len[line]]

Vì công việc của chúng tôi là chỉ đọc nội dung của tệp và sau đó tìm từ thường xuyên nhất trong văn bản được đọc từ tệp, chúng tôi không có khoảng trống cho thao tác ghi. Trong trường hợp bạn muốn tìm hiểu, hãy truy cập tệp văn bản liên kết này bằng Python

Bây giờ chúng ta hãy bắt tay vào công việc tìm những từ thường xuyên nhất trong một văn bản được đọc từ một tệp

Các từ phổ biến nhất trong một tệp văn bản với Python

Trước tiên, bạn phải tạo một tệp văn bản và lưu tệp văn bản vào cùng thư mục nơi bạn sẽ lưu chương trình python của mình. Bởi vì một khi bạn chỉ định tên tệp để mở, trình thông dịch sẽ tìm kiếm tệp trong cùng thư mục của chương trình. Đảm bảo bạn đã tạo và lưu tệp trong thư mục thích hợp

Thuật toán mà chúng ta sắp thực hiện khá đơn giản, đầu tiên chúng ta mở tệp sau đó đọc nội dung, chúng ta sẽ xem mỗi từ được lặp lại bao nhiêu lần và lưu chúng vào một biến có tên là đếm. Sau đó, chúng tôi kiểm tra nó với số lượng tối đa được khởi tạo bằng 0 ngay từ đầu. Nếu số lượng nhỏ hơn số lượng tối đa, chúng tôi bỏ qua từ nếu nó bằng nhau, chúng tôi sẽ đặt nó vào danh sách. Ngược lại, nếu nó lớn hơn thì chúng ta xóa danh sách và đặt từ này vào danh sách

Hãy để chúng tôi bắt đầu với việc khởi tạo các biến và mở tệp

fname=input["enter file name"]
count=0             #count of a specific word
maxcount=0          #maximum among the count of each words
l=[]                #list to store the words with maximum count
with open[fname,'r'] as f:

chúng tôi đã mở tệp dưới dạng f và chúng tôi sẽ sử dụng f bất cứ khi nào chúng tôi phải chỉ định tệp

Bây giờ chúng ta phải đọc nội dung. Chúng tôi có nhiều kỹ thuật cho điều đó như chúng tôi đã thảo luận trước đây. Nhưng, vấn đề là chúng ta nên chọn người đáng tin cậy nhất cho nhiệm vụ của mình. Vì chúng tôi quan tâm đến các từ của tệp, sẽ tốt hơn nếu chúng tôi đọc toàn bộ nội dung. Và, sau đó chúng tôi chia chuỗi thành một danh sách với các từ trong chuỗi bằng phương pháp phân tách

Đọc nội dung

with open[fname,'r'] as f:
    contents=f.read[]
    words=content.split[]

Tìm từ thường xuyên nhất

Bây giờ, chúng tôi có tất cả các từ trong một danh sách, chúng tôi sẽ triển khai thuật toán đã thảo luận sớm

for i in range[len[words]]:
    for j in range[len[words]]:
        if[words[i]==words[j]]:        #finding count of each word
            count+=1
        else:
            count=count
        if[count==maxcount]:          #comparing with maximum count
            l.append[words[i]]
        elif[count>maxcount]:         #if count greater than maxcount
            l.clear[]
            l.append[words[i]]
            maxcount=count
        else:
            l=l
        count=0
print[l]                              #printing contents of l

Bây giờ, chúng tôi có những từ thường xuyên nhất trong danh sách 'l' sẽ được in cuối cùng

đầu ra

Giả sử bạn có một tệp văn bản có nội dung như thế này

Hi, friends this program is found in codespeedy.
This program works perfectly

Sau đó, đầu ra của bạn sẽ là

[program]

Hy vọng các bạn thích phiên này guys

3 phản hồi cho “Các từ thường gặp nhất trong tệp văn bản bằng Python”

  1. Purnendu nói.

    Bài đăng khá tốt cho khái niệm cơ bản thuần túy về đếm

    Cách khác của chương trình này sẽ là

    Sử dụng chức năng sẵn có của python. bộ sưu tập và ở đây chúng tôi sử dụng phương pháp truy cập. Sau đó, chương trình lớn sẽ chỉ trong khoảng từ 3 đến 4 dòng để tìm từ thường xuyên nhất

Chủ Đề