Hướng dẫn find the most frequent words in a text read from a file in python - tìm các từ thường gặp nhất trong văn bản được đọc từ tệp trong python

Xem thảo luận

Cải thiện bài viết

Lưu bài viết

  • Đọc
  • Bàn luận
  • Xem thảo luận

    Cải thiện bài viết

    Lưu bài viết

    Đọc

    • Bàn luận In this type of file, Each line of text is terminated with a special character called EOL [End of Line], which is the new line character [‘\n’] in python by default.
    • Python cung cấp các chức năng sẵn có để tạo, viết và đọc các tệp. Hai loại tệp có thể được xử lý trong Python, tệp văn bản thông thường và tệp nhị phân [được viết bằng ngôn ngữ nhị phân, 0s và 1s]. In this type of file, there is no terminator for a line, and the data is stored after converting it into machine-understandable binary language.

    Tệp văn bản: Trong loại tệp này, mỗi dòng văn bản được chấm dứt với một ký tự đặc biệt có tên EOL [cuối dòng], là ký tự dòng mới [‘\ n,] trong Python theo mặc định. .txt file in Python. Through this program, we will find the most repeated word in a file.

    Approach:

    • Tệp nhị phân: Trong loại tệp này, không có bộ hủy nào cho một dòng và dữ liệu được lưu trữ sau khi chuyển đổi nó thành ngôn ngữ nhị phân có thể hiểu bằng máy.
    • Ở đây chúng tôi đang hoạt động trên tệp .txt trong Python. Thông qua chương trình này, chúng tôi sẽ tìm thấy từ lặp đi lặp lại nhất trong một tệp.
    • Chúng tôi sẽ lấy nội dung của tệp làm đầu vào.
    • Chúng tôi sẽ lưu từng từ trong một danh sách sau khi xóa khoảng trắng và dấu câu từ chuỗi đầu vào.

    Tìm tần số của mỗi từ.

    In từ có tần số tối đa.

    Python3

    Tệp đầu vào:

    Dưới đây là việc thực hiện phương pháp trên:

    file = open[

     Most repeated word: computer
    
    0____11
     Most repeated word: computer
    
    2
     Most repeated word: computer
    
    3

     Most repeated word: computer
    
    4=
     Most repeated word: computer
    
    6

     Most repeated word: computer
    
    7= ________ 19 & nbsp;

    Most repeated word: computer
    
    0____7
    Most repeated word: computer
    
    2

    Most repeated word: computer
    
    3
    Most repeated word: computer
    
    4
    Most repeated word: computer
    
    5 file
    Most repeated word: computer
    
    7

    Most repeated word: computer
    
    5
    Most repeated word: computer
    
    6

    Các

    Most repeated word: computer
    
    8
    Most repeated word: computer
    
    3
    Most repeated word: computer
    
    2
    Most repeated word: computer
    
    5
    Most repeated word: computer
    
    4

    Most repeated word: computer
    
    3
    Most repeated word: computer
    
    8
    Most repeated word: computer
    
    5
    Most repeated word: computer
    
    0[
     Most repeated word: computer
    
    9
    Most repeated word: computer
    
    3
    Most repeated word: computer
    
    4
    Most repeated word: computer
    
    5

    Most repeated word: computer
    
    8
    Most repeated word: computer
    
    7=
    Most repeated word: computer
    
    9file0

    Most repeated word: computer
    
    8
    Most repeated word: computer
    
    3 file3
    Most repeated word: computer
    
    5
    Most repeated word: computer
    
    0file.

    Most repeated word: computer
    
    8=3open7

    Các

    Most repeated word: computer
    
    5
     Most repeated word: computer
    
    7= [1

    Most repeated word: computer
    
    5
     Most repeated word: computer
    
    4= [5

    file

     Most repeated word: computer
    
    08

    Output:

    Most repeated word: well
    Frequency: 3

    Giải trình

    Trong chương trình này, chúng ta cần tìm từ lặp đi lặp lại nhất trong tệp văn bản đã cho. Điều này có thể được thực hiện bằng cách mở một tệp trong chế độ đọc bằng con trỏ tệp. Đọc dòng tệp từng dòng. Chia một dòng tại một thời điểm và lưu trữ trong một mảng. Lặp lại thông qua mảng và tìm tần số của từng từ và so sánh tần số với MaxCount. Nếu tần số lớn hơn MaxCount thì lưu trữ tần số trong MaxCount và từ tương ứng trong từ biến. Nội dung của tệp data.txt được sử dụng trong chương trình được hiển thị bên dưới.

    Chương trình máy tính là một tập hợp các hướng dẫn thực hiện nhiệm vụ cụ thể khi được thực hiện bởi máy tính.

    Máy tính yêu cầu các chương trình hoạt động.

    Chương trình máy tính thường được viết bởi một lập trình viên máy tính bằng ngôn ngữ lập trình.

    Một bộ sưu tập các chương trình máy tính, thư viện và dữ liệu liên quan được gọi là phần mềm.

    Các chương trình máy tính có thể được phân loại dọc theo các dòng chức năng, chẳng hạn như phần mềm ứng dụng và phần mềm hệ thống.

    Thuật toán

    1. Biến MaxCount sẽ lưu trữ số lượng của hầu hết các từ được lặp lại.
    2. Mở một tệp trong chế độ đọc bằng cách sử dụng con trỏ tệp.
    3. Đọc một dòng từ tập tin. Chuyển đổi từng dòng thành chữ thường và loại bỏ các dấu chấm câu.
    4. Chia dòng thành các từ và lưu trữ nó thành một mảng.
    5. Sử dụng hai vòng để lặp qua mảng. Vòng lặp bên ngoài sẽ chọn một từ cần được tính. Vòng lặp bên trong sẽ khớp với từ đã chọn với phần còn lại của mảng. Nếu tìm thấy trận đấu, số lượng tăng lên 1.
    6. Nếu số lượng lớn hơn maxcount thì, giá trị lưu trữ số lượng trong MaxCount và từ tương ứng trong từ biến.
    7. Cuối cùng, MaxCount sẽ giữ số lượng tối đa và từ biến sẽ chứa hầu hết các từ được lặp lại.

    Dung dịch

    Python

    Output:

     Most repeated word: computer
    

    C

    Output:

    Most repeated word: computer
    

    Java

    Output:

    Most repeated word: computer
    

    C#

    Output:

    Most repeated word: computer
    

    PHP

    Output:

    Most repeated word: computer
    

    Chủ đề tiếp theo##

    Làm thế nào để tôi tìm thấy các từ lặp đi lặp lại nhất trong một tệp văn bản?

    Điều này có thể được thực hiện bằng cách mở một tệp trong chế độ đọc bằng con trỏ tệp. Đọc dòng tệp từng dòng. Chia một dòng tại một thời điểm và lưu trữ trong một mảng. Lặp lại thông qua mảng và tìm tần số của từng từ và so sánh tần số với MaxCount.

    Làm cách nào để tìm từ phổ biến nhất trong một python văn bản?

    Cách tiếp cận :..
    Nhập lớp bộ đếm từ mô -đun bộ sưu tập ..
    Chia chuỗi thành danh sách bằng cách sử dụng split [], nó sẽ trả về danh sách các từ ..
    Bây giờ chuyển danh sách vào thể hiện của lớp quầy ..
    Hàm 'hầu hết phổ biến []' bên trong bộ đếm sẽ trả về danh sách các từ thường xuyên nhất từ ​​danh sách và số lượng của nó ..

    Làm cách nào để tìm kiếm một từ lặp lại trong một tệp văn bản trong Python?

    Python cung cấp các chức năng sẵn có để tạo, viết và đọc các tệp ...
    Chúng tôi sẽ lấy nội dung của tệp làm đầu vào ..
    Chúng tôi sẽ lưu từng từ trong danh sách sau khi xóa khoảng trắng và dấu câu từ chuỗi đầu vào ..
    Tìm tần số của mỗi từ ..
    In từ có tần số tối đa ..

    Làm thế nào để tôi tìm thấy những từ lặp đi lặp lại nhất trong một chuỗi trong Python?

    Cách tiếp cận là đơn giản,..
    Chuỗi phân tách đầu tiên được phân tách bằng không gian ..
    Bây giờ chuyển đổi danh sách các từ thành từ điển bằng cách sử dụng các bộ sưu tập.Phương pháp bộ đếm [iterator].Từ điển chứa các từ là khóa và tần số của nó là giá trị ..
    Bây giờ, danh sách các từ truyền lại và kiểm tra từ đầu tiên có tần số lớn hơn 1 ..

    Bài Viết Liên Quan

    Chủ Đề