Trong chương trình này, chúng ta cần tìm từ được lặp lại nhiều nhất trong tệp văn bản đã cho. Điều này có thể được thực hiện bằng cách mở tệp ở chế độ đọc bằng cách sử dụng con trỏ tệp. Đọc từng dòng tệp. Tách một dòng tại một thời điểm và lưu trữ trong một mảng. Lặp lại mảng và tìm tần suất của từng từ và so sánh tần suất với maxcount. Nếu tần suất lớn hơn maxcount thì lưu trữ tần số trong maxcount và từ tương ứng trong từ biến. Nội dung của dữ liệu. txt được sử dụng trong chương trình được hiển thị bên dưới
Chương trình máy tính là tập hợp các hướng dẫn thực hiện tác vụ cụ thể khi được máy tính thực hiện
Máy tính yêu cầu các chương trình hoạt động
Chương trình máy tính thường được viết bởi một lập trình viên máy tính bằng ngôn ngữ lập trình
Một tập hợp các chương trình máy tính, thư viện và dữ liệu liên quan được gọi là phần mềm
Các chương trình máy tính có thể được phân loại theo các dòng chức năng, chẳng hạn như phần mềm ứng dụng và phần mềm hệ thống
Các từ thường xuyên nhất trong một tệp văn bản trong Python
Bởi Daruvuri phanith
Xin chào những người học trăn. Trong phần này, chúng ta sẽ học cách tìm những từ xuất hiện nhiều nhất trong một văn bản được đọc từ một tệp. Thay vì thực hiện trên văn bản bình thường, chúng ta hãy thực hiện việc này trên văn bản được đọc từ tệp. Để hiểu rõ hơn chúng ta cần làm quen với tệp và các thao tác trên tệp. Vì vậy, chúng ta hãy tìm hiểu về các tập tin
Xử lý tệp trong python
Dữ liệu thường được lưu trữ trong các tệp văn bản, được sắp xếp. Có nhiều loại tập tin. Các tệp văn bản, tệp nhạc, video và các tài liệu trình bày và xử lý văn bản khác nhau là những tệp mà chúng ta quen thuộc
Các tệp văn bản chỉ chứa các ký tự trong khi tất cả các định dạng tệp khác bao gồm thông tin định dạng dành riêng cho định dạng tệp đó. Các thao tác thực hiện trên dữ liệu trong tệp bao gồm thao tác đọc và ghi. Để thực hiện bất kỳ thao tác nào, chương trình phải mở tệp. Cú pháp để mở một tập tin được đưa ra dưới đây
with open[«filename», «mode»] as «variable»: «block»
Mặc dù có một số cách mở tệp nhưng tôi thích cách này hơn vì chúng ta không cần chỉ định câu lệnh đóng ở cuối
Để hiểu rõ hơn về tệp, hãy truy cập liên kết này xử lý tệp
Đọc một tập tin
Có một số kỹ thuật đọc tệp. Một cách là đọc toàn bộ nội dung của tệp thành một chuỗi và chúng tôi cũng có các kỹ thuật lặp trong đó trong mỗi lần lặp, một dòng văn bản được đọc. Chúng tôi, cũng có thể đọc từng dòng văn bản và lưu trữ tất cả chúng trong một danh sách. Cú pháp cho từng kỹ thuật được đưa ra dưới đây
#to read the entire contents of text into a single string with open['file1.txt', 'r'] as f: contents = f.read[] #to read each line and store them as list with open['file1.txt', 'r'] as f: lines = f.readlines[] #for iterative method of reading text in files with open['planets.txt', 'r'] as f: for line in f: print[len[line]]
Vì công việc của chúng tôi là chỉ đọc nội dung của tệp và sau đó tìm từ thường xuyên nhất trong văn bản được đọc từ tệp, chúng tôi không có khoảng trống cho thao tác ghi. Trong trường hợp bạn muốn tìm hiểu, hãy truy cập tệp văn bản liên kết này bằng Python
Bây giờ chúng ta hãy bắt tay vào công việc tìm những từ thường xuyên nhất trong một văn bản được đọc từ một tệp
Các từ phổ biến nhất trong một tệp văn bản với Python
Trước tiên, bạn phải tạo một tệp văn bản và lưu tệp văn bản vào cùng thư mục nơi bạn sẽ lưu chương trình python của mình. Bởi vì một khi bạn chỉ định tên tệp để mở, trình thông dịch sẽ tìm kiếm tệp trong cùng thư mục của chương trình. Đảm bảo bạn đã tạo và lưu tệp trong thư mục thích hợp
Thuật toán mà chúng ta sắp thực hiện khá đơn giản, đầu tiên chúng ta mở tệp sau đó đọc nội dung, chúng ta sẽ xem mỗi từ được lặp lại bao nhiêu lần và lưu chúng vào một biến có tên là đếm. Sau đó, chúng tôi kiểm tra nó với số lượng tối đa được khởi tạo bằng 0 ngay từ đầu. Nếu số lượng nhỏ hơn số lượng tối đa, chúng tôi bỏ qua từ nếu nó bằng nhau, chúng tôi sẽ đặt nó vào danh sách. Ngược lại, nếu nó lớn hơn thì chúng ta xóa danh sách và đặt từ này vào danh sách
Hãy để chúng tôi bắt đầu với việc khởi tạo các biến và mở tệp
fname=input["enter file name"] count=0 #count of a specific word maxcount=0 #maximum among the count of each words l=[] #list to store the words with maximum count with open[fname,'r'] as f:
chúng tôi đã mở tệp dưới dạng f và chúng tôi sẽ sử dụng f bất cứ khi nào chúng tôi phải chỉ định tệp
Bây giờ chúng ta phải đọc nội dung. Chúng tôi có nhiều kỹ thuật cho điều đó như chúng tôi đã thảo luận trước đây. Nhưng, vấn đề là chúng ta nên chọn người đáng tin cậy nhất cho nhiệm vụ của mình. Vì chúng tôi quan tâm đến các từ của tệp, sẽ tốt hơn nếu chúng tôi đọc toàn bộ nội dung. Và, sau đó chúng tôi chia chuỗi thành một danh sách với các từ trong chuỗi bằng phương pháp phân tách
Đọc nội dung
with open[fname,'r'] as f: contents=f.read[] words=content.split[]
Tìm từ thường xuyên nhất
Bây giờ, chúng tôi có tất cả các từ trong một danh sách, chúng tôi sẽ triển khai thuật toán đã thảo luận sớm
for i in range[len[words]]: for j in range[len[words]]: if[words[i]==words[j]]: #finding count of each word count+=1 else: count=count if[count==maxcount]: #comparing with maximum count l.append[words[i]] elif[count>maxcount]: #if count greater than maxcount l.clear[] l.append[words[i]] maxcount=count else: l=l count=0 print[l] #printing contents of l
Bây giờ, chúng tôi có những từ thường xuyên nhất trong danh sách 'l' sẽ được in cuối cùng
đầu ra
Giả sử bạn có một tệp văn bản có nội dung như thế này
Hi, friends this program is found in codespeedy. This program works perfectly
Sau đó, đầu ra của bạn sẽ là
[program]
Hy vọng các bạn thích phiên này guys
3 phản hồi cho “Các từ thường gặp nhất trong tệp văn bản bằng Python”
Purnendu nói.
Bài đăng khá tốt cho khái niệm cơ bản thuần túy về đếm
Cách khác của chương trình này sẽ là
Sử dụng chức năng sẵn có của python. bộ sưu tập và ở đây chúng tôi sử dụng phương pháp truy cập. Sau đó, chương trình lớn sẽ chỉ trong khoảng từ 3 đến 4 dòng để tìm từ thường xuyên nhất