Xem thảo luận
Cải thiện bài viết
Lưu bài viết
Xem thảo luận
Cải thiện bài viết
Lưu bài viết
Đọc
- Bàn luận In this type of file, Each line of text is terminated with a special character called EOL [End of Line], which is the new line character [‘\n’] in python by default.
- Python cung cấp các chức năng sẵn có để tạo, viết và đọc các tệp. Hai loại tệp có thể được xử lý trong Python, tệp văn bản thông thường và tệp nhị phân [được viết bằng ngôn ngữ nhị phân, 0s và 1s]. In this type of file, there is no terminator for a line, and the data is stored after converting it into machine-understandable binary language.
Tệp văn bản: Trong loại tệp này, mỗi dòng văn bản được chấm dứt với một ký tự đặc biệt có tên EOL [cuối dòng], là ký tự dòng mới [‘\ n,] trong Python theo mặc định. .txt file in Python. Through this program, we will find the most repeated word in a file.
Approach:
- Tệp nhị phân: Trong loại tệp này, không có bộ hủy nào cho một dòng và dữ liệu được lưu trữ sau khi chuyển đổi nó thành ngôn ngữ nhị phân có thể hiểu bằng máy.
- Ở đây chúng tôi đang hoạt động trên tệp .txt trong Python. Thông qua chương trình này, chúng tôi sẽ tìm thấy từ lặp đi lặp lại nhất trong một tệp.
- Chúng tôi sẽ lấy nội dung của tệp làm đầu vào.
- Chúng tôi sẽ lưu từng từ trong một danh sách sau khi xóa khoảng trắng và dấu câu từ chuỗi đầu vào.
Tìm tần số của mỗi từ.
In từ có tần số tối đa.
Python3
Tệp đầu vào:
Dưới đây là việc thực hiện phương pháp trên:
file
=
open
[
Most repeated word: computer0____11
Most repeated word: computer2
Most repeated word: computer3
Most repeated word: computer4
=
Most repeated word: computer6
Most repeated word: computer7
=
________ 19 & nbsp;Most repeated word: computer0____7
Most repeated word: computer2
Most repeated word: computer3
Most repeated word: computer4
Most repeated word: computer5
file
Most repeated word: computer7
Most repeated word: computer5
Most repeated word: computer6
Các
Most repeated word: computer8
Most repeated word: computer3
Most repeated word: computer2
Most repeated word: computer5
Most repeated word: computer4
Most repeated word: computer3
Most repeated word: computer8
Most repeated word: computer5
Most repeated word: computer0
[
Most repeated word: computer9
Most repeated word: computer3
Most repeated word: computer4
Most repeated word: computer5
Most repeated word: computer8
Most repeated word: computer7
=
Most repeated word: computer9
file
0Most repeated word: computer8
Most repeated word: computer3
file
3Most repeated word: computer5
Most repeated word: computer0
file
.Most repeated word: computer8
=
3open
7Các
‘
Most repeated word: computer5
Most repeated word: computer7
=
[
1Most repeated word: computer5
Most repeated word: computer4
=
[
5file
Most repeated word: computer08
Output:
Most repeated word: well Frequency: 3
Giải trình
Trong chương trình này, chúng ta cần tìm từ lặp đi lặp lại nhất trong tệp văn bản đã cho. Điều này có thể được thực hiện bằng cách mở một tệp trong chế độ đọc bằng con trỏ tệp. Đọc dòng tệp từng dòng. Chia một dòng tại một thời điểm và lưu trữ trong một mảng. Lặp lại thông qua mảng và tìm tần số của từng từ và so sánh tần số với MaxCount. Nếu tần số lớn hơn MaxCount thì lưu trữ tần số trong MaxCount và từ tương ứng trong từ biến. Nội dung của tệp data.txt được sử dụng trong chương trình được hiển thị bên dưới.
Chương trình máy tính là một tập hợp các hướng dẫn thực hiện nhiệm vụ cụ thể khi được thực hiện bởi máy tính.
Máy tính yêu cầu các chương trình hoạt động.
Chương trình máy tính thường được viết bởi một lập trình viên máy tính bằng ngôn ngữ lập trình.
Một bộ sưu tập các chương trình máy tính, thư viện và dữ liệu liên quan được gọi là phần mềm.
Các chương trình máy tính có thể được phân loại dọc theo các dòng chức năng, chẳng hạn như phần mềm ứng dụng và phần mềm hệ thống.
Thuật toán
- Biến MaxCount sẽ lưu trữ số lượng của hầu hết các từ được lặp lại.
- Mở một tệp trong chế độ đọc bằng cách sử dụng con trỏ tệp.
- Đọc một dòng từ tập tin. Chuyển đổi từng dòng thành chữ thường và loại bỏ các dấu chấm câu.
- Chia dòng thành các từ và lưu trữ nó thành một mảng.
- Sử dụng hai vòng để lặp qua mảng. Vòng lặp bên ngoài sẽ chọn một từ cần được tính. Vòng lặp bên trong sẽ khớp với từ đã chọn với phần còn lại của mảng. Nếu tìm thấy trận đấu, số lượng tăng lên 1.
- Nếu số lượng lớn hơn maxcount thì, giá trị lưu trữ số lượng trong MaxCount và từ tương ứng trong từ biến.
- Cuối cùng, MaxCount sẽ giữ số lượng tối đa và từ biến sẽ chứa hầu hết các từ được lặp lại.
Dung dịch
Python
Output:
Most repeated word: computer
C
Output:
Most repeated word: computer
Java
Output:
Most repeated word: computer
C#
Output:
Most repeated word: computer
PHP
Output:
Most repeated word: computer
Chủ đề tiếp theo##