Hướng dẫn python save audio file - python lưu tập tin âm thanh

Question

I am working with speech recognition library in Python and trying to save an audio file after submiting to the API that recognize it. So, my problem comes when I want to save that audio to a file.

Nội dung chính Show

« Prev: Python: Tôi có thể làm gì với Python?
» Next: Python: Cách in có định dạng trong Python với bài toán in các thừa số nguyên tố
Chọn gói nhận dạng giọng nói Python
Cài đặt SpeechRecognition
các >>> r.recognize_google() 1Lớp
Làm việc với tệp âm thanh
Các loại tệp được hỗ trợ
Sử dụng >>> harvard = sr.AudioFile('harvard.wav') >>> with harvard as source: ... audio = r.record(source) ... 7để chụp dữ liệu từ tệp
Chụp phân đoạn với >>> type(audio) 4và>>> type(audio) 5
Để chỉ ghi lại cụm từ thứ hai trong tệp, bạn có thể bắt đầu với khoảng chênh lệch là bốn giây và ghi lại, chẳng hạn, ba giây.
Làm việc với micrô
Cài đặt PyAudio
các $ pip install SpeechRecognition 06Lớp
Sử dụng $ pip install SpeechRecognition 11để chụp đầu vào micrô
Xử lý giọng nói không thể nhận dạng
Kết hợp tất cả lại với nhau: Trò chơi “Đoán từ”
Tóm tắt và bổ sung tài nguyên
Phụ lục: Nhận dạng giọng nói bằng các ngôn ngữ khác ngoài tiếng Anh

import speech_recognition as sr

r = sr.Recognizer()
mic = sr.Microphone()

print('Recording...')
with mic as source:
    audio = r.listen(source)

with open("audio_file.wav", "wb") as file:
    file.write(audio.frame_data)

The audio_file.wav have a size approximately of 210kb(about 4 or 5 seconds recording)

when I try to reproduce the audio file.wav, the player throws an error saying that can not play the audio... due to a codec problem.can not play the audio... due to a codec problem.

My question are: am I missing save a headers or something like that? Is there another way to saves audio bytes into a file?

Edit My answer is in this question Wav file from microphone on Python My answer is in this question Wav file from microphone on Python

Các khóa học qua video:

Lập trình C Java C# SQL Server PHP HTML5-CSS3-JavaScript

« Prev: Python: Tôi có thể làm gì với Python?

» Next: Python: Cách in có định dạng trong Python với bài toán in các thừa số nguyên tố
Mục lục bài viết:
Cách hoạt động của tính năng Nhận dạng giọng nói - Tổng quan
Chọn gói nhận dạng giọng nói Python
Cài đặt SpeechRecognition
- Lớp nhận dạng
- Làm việc với tệp âm thanh
- Các loại tệp được hỗ trợ
- Sử dụng record () để chụp dữ liệu từ tệp
Chụp phân đoạn với độ lệch và thời lượng
- Ảnh hưởng của tiếng ồn đối với nhận dạng giọng nói
- Làm việc với micrô
- Cài đặt PyAudio
- Lớp Micrô
Sử dụng nghe () để chụp đầu vào micrô
Xử lý giọng nói không thể nhận dạng
Kết hợp tất cả lại với nhau: Trò chơi “Đoán từ”

Tóm tắt và bổ sung tài nguyên

Phụ lục: Nhận dạng giọng nói bằng các ngôn ngữ khác ngoài tiếng Anh

Bạn đã bao giờ tự hỏi làm thế nào để thêm nhận dạng giọng nói vào dự án Python của mình? Nếu vậy, sau đó tiếp tục đọc! Nó dễ dàng hơn bạn nghĩ.

Không còn là một thứ lỗi mốt, sự thành công vượt bậc của các sản phẩm hỗ trợ giọng nói như Amazon Alexa đã chứng minh rằng hỗ trợ giọng nói ở một mức độ nào đó sẽ là một khía cạnh thiết yếu của công nghệ gia dụng trong tương lai gần. Nếu bạn nghĩ về nó, lý do tại sao là khá rõ ràng. Việc kết hợp tính năng nhận dạng giọng nói vào ứng dụng Python của bạn mang lại mức độ tương tác và khả năng truy cập mà ít công nghệ nào có thể sánh kịp.

Chỉ riêng các cải tiến về khả năng tiếp cận cũng đáng được xem xét Nhận dạng giọng nói cho phép người già và người khiếm thị tương tác với các sản phẩm và dịch vụ hiện đại một cách nhanh chóng và tự nhiên — không cần GUI!
Hơn hết, bao gồm cả nhận dạng giọng nói trong một dự án Python thực sự đơn giản. Trong hướng dẫn này, bạn sẽ tìm hiểu cách thực hiện. Bạn sẽ học:
Cách thức hoạt động của tính năng nhận dạng giọng nói,

Những gói nào có sẵn trên PyPI; và

» Next: Python: Cách in có định dạng trong Python với bài toán in các thừa số nguyên tố

Mục lục bài viết:

Cách hoạt động của tính năng Nhận dạng giọng nói - Tổng quan

Chọn gói nhận dạng giọng nói Python

Cài đặt SpeechRecognition

Lớp nhận dạng

Để giải mã lời nói thành văn bản, các nhóm vectơ được đối sánh với một hoặc nhiều âm vị —một đơn vị cơ bản của lời nói. Việc tính toán này đòi hỏi phải được đào tạo, vì âm thanh của một âm vị thay đổi từ người nói này sang người nói khác, và thậm chí thay đổi từ cách phát âm này sang cách phát âm khác của cùng một người nói. Một thuật toán đặc biệt sau đó được áp dụng để xác định từ (hoặc các từ) có nhiều khả năng nhất tạo ra chuỗi âm vị nhất định.

Người ta có thể tưởng tượng rằng toàn bộ quá trình này có thể tốn kém về mặt tính toán. Trong nhiều hệ thống nhận dạng giọng nói hiện đại, mạng nơ-ron được sử dụng để đơn giản hóa tín hiệu giọng nói bằng cách sử dụng các kỹ thuật chuyển đổi đặc trưng và giảm kích thước trước khi nhận dạng HMM. Bộ phát hiện hoạt động giọng nói (VAD) cũng được sử dụng để giảm tín hiệu âm thanh xuống chỉ những phần có khả năng chứa giọng nói. Điều này ngăn bộ nhận dạng mất thời gian phân tích các phần không cần thiết của tín hiệu.

May mắn thay, là một lập trình viên Python, bạn không phải lo lắng về bất kỳ điều gì trong số này. Một số dịch vụ nhận dạng giọng nói có sẵn để sử dụng trực tuyến thông qua API và nhiều dịch vụ trong số này cung cấp các SDK Python .

Chọn gói nhận dạng giọng nói Python

Có một số ít các gói để nhận dạng giọng nói trên PyPI. Một vài trong số chúng bao gồm:

apiai
assemblyai
google-cloud-speech
nhân sư bỏ túi
Nhận dạng giọng nói
watson-developer-cloud
mưu mẹo

Một số gói này — chẳng hạn như wit và apiai — cung cấp các tính năng tích hợp sẵn, như xử lý ngôn ngữ tự nhiên để xác định ý định của người nói, vượt ra ngoài nhận dạng giọng nói cơ bản. Những người khác, như google-cloud-speech, chỉ tập trung vào chuyển đổi giọng nói thành văn bản.

Có một gói nổi bật về tính dễ sử dụng: SpeechRecognition.

Nhận dạng giọng nói yêu cầu đầu vào âm thanh và SpeechRecognition giúp việc truy xuất đầu vào này thực sự dễ dàng. Thay vì phải xây dựng các tập lệnh để truy cập micrô và xử lý các tệp âm thanh từ đầu, SpeechRecognition sẽ giúp bạn thiết lập và chạy chỉ trong vài phút.

Thư viện SpeechRecognition hoạt động như một trình bao bọc cho một số API giọng nói phổ biến và do đó cực kỳ linh hoạt. Một trong số này — API Web Speech của Google — hỗ trợ khóa API mặc định được mã hóa cứng vào thư viện SpeechRecognition. Điều đó có nghĩa là bạn có thể xuống chân mà không cần phải đăng ký dịch vụ.

Tính linh hoạt và dễ sử dụng của gói SpeechRecognition khiến nó trở thành lựa chọn tuyệt vời cho bất kỳ dự án Python nào. Tuy nhiên, không đảm bảo hỗ trợ cho mọi tính năng của mỗi API mà nó kết thúc. Bạn sẽ cần dành một chút thời gian nghiên cứu các tùy chọn có sẵn để tìm hiểu xem liệu SpeechRecognition có hoạt động trong trường hợp cụ thể của bạn hay không.

Vì vậy, bây giờ bạn đã được thuyết phục rằng bạn nên thử SpeechRecognition, bước tiếp theo là cài đặt nó trong môi trường của bạn.

Cài đặt SpeechRecognition

SpeechRecognition tương thích với Python 2.6, 2.7 và 3.3+, nhưng yêu cầu một số bước cài đặt bổ sung cho Python 2 . Đối với hướng dẫn này, tôi sẽ giả sử bạn đang sử dụng Python 3.3+.

Bạn có thể cài đặt SpeechRecognition từ một thiết bị đầu cuối bằng pip:

$ pip install SpeechRecognition

Sau khi cài đặt, bạn nên xác minh cài đặt bằng cách mở phiên thông dịch và nhập:

>>>

>>> import speech_recognition as sr
>>> sr.__version__
'3.8.1'

Lưu ý: Số phiên bản bạn nhận được có thể khác nhau. Phiên bản 3.8.1 là phiên bản mới nhất tại thời điểm viết bài.

Hãy tiếp tục và giữ cho phiên này mở. Bạn sẽ bắt đầu làm việc với nó chỉ trong giây lát.

SpeechRecognition sẽ hoạt động hiệu quả nếu tất cả những gì bạn cần làm là hoạt động với các tệp âm thanh hiện có. Tuy nhiên, các trường hợp sử dụng cụ thể yêu cầu một số phụ thuộc. Đáng chú ý, gói PyAudio là cần thiết để thu đầu vào micrô.

Bạn sẽ thấy những phụ thuộc nào bạn cần khi đọc thêm. Bây giờ, hãy đi sâu vào và khám phá những điều cơ bản của gói.

các >>> r.recognize_google() 1Lớp

Tất cả điều kỳ diệu trong SpeechRecognition xảy ra với

>>> r.recognize_google()

1lớp học.

Tất nhiên, mục đích chính của một

>>> r.recognize_google()

1phiên bản là nhận dạng giọng nói. Mỗi phiên bản đi kèm với nhiều cài đặt và chức năng khác nhau để nhận dạng giọng nói từ nguồn âm thanh.

Tạo một

>>> r.recognize_google()

1phiên bản rất dễ dàng. Trong phiên thông dịch hiện tại của bạn, chỉ cần nhập:

>>>

>>> r = sr.Recognizer()

Lưu ý: Số phiên bản bạn nhận được có thể khác nhau. Phiên bản 3.8.1 là phiên bản mới nhất tại thời điểm viết bài.

Hãy tiếp tục và giữ cho phiên này mở. Bạn sẽ bắt đầu làm việc với nó chỉ trong giây lát.
```
>>> r.recognize_google()
```
7: API giọng nói trên web của Google
```
>>> r.recognize_google()
```
8: Google Cloud Speech - yêu cầu cài đặt gói google-cloud-speech
```
>>> r.recognize_google()
```
9: Houndify bởi SoundHound

Traceback (most recent call last):
  File "", line 1, in 
TypeError: recognize_google() missing 1 required positional argument: 'audio_data'

0: IBM Speech to Text

Traceback (most recent call last):
  File "", line 1, in 
TypeError: recognize_google() missing 1 required positional argument: 'audio_data'

1: CMU Sphinx - yêu cầu cài đặt PocketSphinx

Traceback (most recent call last):
  File "", line 1, in 
TypeError: recognize_google() missing 1 required positional argument: 'audio_data'

2: Wit.ai

Trong số bảy, chỉ

Traceback (most recent call last):
  File "", line 1, in 
TypeError: recognize_google() missing 1 required positional argument: 'audio_data'

1hoạt động ngoại tuyến với công cụ CMU Sphinx. Sáu cái còn lại đều yêu cầu kết nối internet.

Phần thảo luận đầy đủ về các tính năng và lợi ích của mỗi API nằm ngoài phạm vi của hướng dẫn này. Vì SpeechRecognition đi kèm với khóa API mặc định cho Google Web Speech API, bạn có thể bắt đầu với nó ngay lập tức. Vì lý do này, chúng tôi sẽ sử dụng API Web Speech trong hướng dẫn này. Sáu API khác đều yêu cầu xác thực bằng khóa API hoặc kết hợp tên người dùng / mật khẩu. Để biết thêm thông tin, hãy tham khảo tài liệu SpeechRecognition .

Thận trọng: Khóa mặc định do SpeechRecognition cung cấp chỉ dành cho mục đích thử nghiệm và Google có thể thu hồi khóa này bất kỳ lúc nào . Không phải là một ý kiến hay khi sử dụng Google Web Speech API trong quá trình sản xuất. Ngay cả với một khóa API hợp lệ, bạn sẽ chỉ bị giới hạn ở 50 yêu cầu mỗi ngày và không có cách nào để tăng hạn ngạch này . May mắn thay, giao diện của SpeechRecognition gần như giống hệt nhau cho mỗi API, vì vậy những gì bạn học hôm nay sẽ dễ dàng chuyển sang một dự án trong thế giới thực.

Mỗi

Traceback (most recent call last):
  File "", line 1, in 
TypeError: recognize_google() missing 1 required positional argument: 'audio_data'

4phương thức sẽ đưa ra một

Traceback (most recent call last):
  File "", line 1, in 
TypeError: recognize_google() missing 1 required positional argument: 'audio_data'

5ngoại lệ nếu không thể truy cập được API. Đối với

Traceback (most recent call last):
  File "", line 1, in 
TypeError: recognize_google() missing 1 required positional argument: 'audio_data'

1, điều này có thể xảy ra do cài đặt Sphinx bị thiếu, bị hỏng hoặc không tương thích. Đối với sáu phương pháp khác,

Traceback (most recent call last):
  File "", line 1, in 
TypeError: recognize_google() missing 1 required positional argument: 'audio_data'

7có thể bị ném nếu đáp ứng giới hạn hạn ngạch, máy chủ không khả dụng hoặc không có kết nối internet.

Ok, đủ trò chuyện. Hãy làm bẩn bàn tay của chúng ta. Hãy tiếp tục và cố gắng gọi

>>> r.recognize_google()

7trong phiên thông dịch viên của bạn.

>>>

>>> r.recognize_google()

Chuyện gì đã xảy ra?

Bạn có thể nhận được một cái gì đó giống như sau:

Traceback (most recent call last):
  File "", line 1, in 
TypeError: recognize_google() missing 1 required positional argument: 'audio_data'

Bạn có thể đoán điều này sẽ xảy ra. Làm thế nào có thể nhận ra thứ gì đó từ hư không

Tất cả bảy

Traceback (most recent call last):
  File "", line 1, in 
TypeError: recognize_google() missing 1 required positional argument: 'audio_data'

4phương thức của

>>> r.recognize_google()

1lớp đều yêu cầu một

>>> harvard = sr.AudioFile('harvard.wav')
>>> with harvard as source:
...    audio = r.record(source)
...

1đối số. Trong mỗi trường hợp,

>>> harvard = sr.AudioFile('harvard.wav')
>>> with harvard as source:
...    audio = r.record(source)
...

1phải là một phiên bản của

>>> harvard = sr.AudioFile('harvard.wav')
>>> with harvard as source:
...    audio = r.record(source)
...

3lớp SpeechRecognition .

Có hai cách để tạo

>>> harvard = sr.AudioFile('harvard.wav')
>>> with harvard as source:
...    audio = r.record(source)
...

3phiên bản: từ tệp âm thanh hoặc âm thanh được ghi bởi micrô. Các tệp âm thanh dễ bắt đầu hơn một chút, vì vậy trước tiên hãy xem xét nó.

Làm việc với tệp âm thanh

Trước khi tiếp tục, bạn cần tải xuống tệp âm thanh. Bạn có thể tìm thấy cái mà tôi đã sử dụng để bắt đầu, “harvard.wav” ở đây . Đảm bảo bạn lưu nó vào cùng một thư mục mà phiên thông dịch Python của bạn đang chạy.

SpeechRecognition giúp làm việc với các tệp âm thanh dễ dàng nhờ

>>> harvard = sr.AudioFile('harvard.wav')
>>> with harvard as source:
...    audio = r.record(source)
...

5lớp tiện dụng của nó . Lớp này có thể được khởi tạo bằng đường dẫn đến tệp âm thanh và cung cấp giao diện trình quản lý ngữ cảnh để đọc và làm việc với nội dung của tệp.

Các loại tệp được hỗ trợ

Hiện tại, SpeechRecognition hỗ trợ các định dạng tệp sau:

WAV: phải ở định dạng PCM / LPCM
AIFF
AIFF-C
FLAC: phải là định dạng FLAC gốc; OGG-FLAC không được hỗ trợ

Nếu bạn đang làm việc trên Linux, macOS hoặc Windows dựa trên x-86, bạn sẽ có thể làm việc với các tệp FLAC mà không gặp sự cố. Trên các nền tảng khác, bạn sẽ cần cài đặt bộ mã hóa FLAC và đảm bảo bạn có quyền truy cập vào

>>> harvard = sr.AudioFile('harvard.wav')
>>> with harvard as source:
...    audio = r.record(source)
...

6công cụ dòng lệnh. Bạn có thể tìm thêm thông tin ở đây nếu điều này áp dụng cho bạn.

Sử dụng >>> harvard = sr.AudioFile('harvard.wav') >>> with harvard as source: ... audio = r.record(source) ... 7để chụp dữ liệu từ tệp

Nhập thông tin sau vào phiên thông dịch của bạn để xử lý nội dung của tệp “harvard.wav”:

>>>

>>> harvard = sr.AudioFile('harvard.wav')
>>> with harvard as source:
...    audio = r.record(source)
...

Chuyện gì đã xảy ra?

>>>

>>> type(audio)

Chuyện gì đã xảy ra?

>>>

>>> r.recognize_google(audio)
'the stale smell of old beer lingers it takes heat
to bring out the odor a cold dip restores health and
zest a salt pickle taste fine with ham tacos al
Pastore are my favorite a zestful food is the hot
cross bun'

Chuyện gì đã xảy ra?

Bạn có thể nhận được một cái gì đó giống như sau:

Harvard Sentences bao gồm 72 danh sách mười cụm từ. Bạn có thể tìm thấy các bản ghi âm có sẵn miễn phí của những cụm từ này trên trang web của Open Speech Repository . Bản ghi âm có sẵn bằng tiếng Anh, tiếng Quan Thoại, tiếng Pháp và tiếng Hindi. Họ cung cấp một nguồn tài liệu miễn phí tuyệt vời để kiểm tra mã của bạn.

Chụp phân đoạn với >>> type(audio) 4và>>> type(audio) 5

Điều gì sẽ xảy ra nếu bạn chỉ muốn ghi lại một phần của bài phát biểu trong một tệp tin? Các

>>> harvard = sr.AudioFile('harvard.wav')
>>> with harvard as source:
...    audio = r.record(source)
...

7phương pháp chấp nhận một

>>> type(audio)

5lập luận từ khoá đó dừng ghi âm sau một số lần nhất định của giây.

Ví dụ: phần sau ghi lại bất kỳ bài phát biểu nào trong bốn giây đầu tiên của tệp:

>>>

>>> with harvard as source:
...     audio = r.record(source, duration=4)
...
>>> r.recognize_google(audio)
'the stale smell of old beer lingers'

Các

>>> harvard = sr.AudioFile('harvard.wav')
>>> with harvard as source:
...    audio = r.record(source)
...

7phương pháp, khi được sử dụng bên trong một

>>> type(audio)

9khối, luôn luôn di chuyển về phía trước trong dòng tập tin. Điều này có nghĩa là nếu bạn ghi một lần trong bốn giây và sau đó ghi lại trong bốn giây, thì lần thứ hai trả về bốn giây âm thanh sau bốn giây đầu tiên.

>>>

$ pip install SpeechRecognition

0

Các

>>> harvard = sr.AudioFile('harvard.wav')
>>> with harvard as source:
...    audio = r.record(source)
...

7phương pháp, khi được sử dụng bên trong một

>>> type(audio)

9khối, luôn luôn di chuyển về phía trước trong dòng tập tin. Điều này có nghĩa là nếu bạn ghi một lần trong bốn giây và sau đó ghi lại trong bốn giây, thì lần thứ hai trả về bốn giây âm thanh sau bốn giây đầu tiên.

Lưu ý rằng

>>> r.recognize_google(audio)
'the stale smell of old beer lingers it takes heat
to bring out the odor a cold dip restores health and
zest a salt pickle taste fine with ham tacos al
Pastore are my favorite a zestful food is the hot
cross bun'

0có chứa một phần của cụm từ thứ ba trong tệp. Khi chỉ định thời lượng, bản ghi có thể dừng ở giữa cụm từ - hoặc thậm chí giữa từ - điều này có thể ảnh hưởng đến độ chính xác của bản phiên âm. Nhiều hơn về điều này trong một chút.

Ngoài việc chỉ định thời lượng ghi,

>>> harvard = sr.AudioFile('harvard.wav')
>>> with harvard as source:
...    audio = r.record(source)
...

7phương thức có thể được cung cấp một điểm bắt đầu cụ thể bằng cách sử dụng

>>> type(audio)

4đối số từ khóa. Giá trị này đại diện cho số giây từ đầu tệp cần bỏ qua trước khi bắt đầu ghi.

>>>

$ pip install SpeechRecognition

1

Các

>>> harvard = sr.AudioFile('harvard.wav')
>>> with harvard as source:
...    audio = r.record(source)
...

7phương pháp, khi được sử dụng bên trong một

>>> type(audio)

9khối, luôn luôn di chuyển về phía trước trong dòng tập tin. Điều này có nghĩa là nếu bạn ghi một lần trong bốn giây và sau đó ghi lại trong bốn giây, thì lần thứ hai trả về bốn giây âm thanh sau bốn giây đầu tiên.

>>>

$ pip install SpeechRecognition

2

Các

>>> harvard = sr.AudioFile('harvard.wav')
>>> with harvard as source:
...    audio = r.record(source)
...

7phương pháp, khi được sử dụng bên trong một

>>> type(audio)

9khối, luôn luôn di chuyển về phía trước trong dòng tập tin. Điều này có nghĩa là nếu bạn ghi một lần trong bốn giây và sau đó ghi lại trong bốn giây, thì lần thứ hai trả về bốn giây âm thanh sau bốn giây đầu tiên.

Lưu ý rằng

>>> r.recognize_google(audio)
'the stale smell of old beer lingers it takes heat
to bring out the odor a cold dip restores health and
zest a salt pickle taste fine with ham tacos al
Pastore are my favorite a zestful food is the hot
cross bun'

0có chứa một phần của cụm từ thứ ba trong tệp. Khi chỉ định thời lượng, bản ghi có thể dừng ở giữa cụm từ - hoặc thậm chí giữa từ - điều này có thể ảnh hưởng đến độ chính xác của bản phiên âm. Nhiều hơn về điều này trong một chút.

Ngoài việc chỉ định thời lượng ghi,

>>> harvard = sr.AudioFile('harvard.wav')
>>> with harvard as source:
...    audio = r.record(source)
...

7phương thức có thể được cung cấp một điểm bắt đầu cụ thể bằng cách sử dụng

>>> type(audio)

4đối số từ khóa. Giá trị này đại diện cho số giây từ đầu tệp cần bỏ qua trước khi bắt đầu ghi.

Để chỉ ghi lại cụm từ thứ hai trong tệp, bạn có thể bắt đầu với khoảng chênh lệch là bốn giây và ghi lại, chẳng hạn, ba giây.

Các đối số

>>> type(audio)

4và

>>> type(audio)

5từ khóa hữu ích cho việc phân đoạn tệp âm thanh nếu bạn có kiến thức trước về cấu trúc của bài phát biểu trong tệp. Tuy nhiên, việc sử dụng chúng một cách vội vàng có thể dẫn đến việc phiên âm kém. Để xem hiệu ứng này, hãy thử các thao tác sau trong trình thông dịch của bạn:

Khi bắt đầu ghi ở 4,7 giây, bạn bỏ lỡ phần “it t” ở đầu cụm từ “cần nhiệt để tạo ra mùi”, vì vậy API chỉ nhận được “akes heat”, nó khớp với “Mesquite. ”

Tương tự, ở cuối đoạn ghi âm, bạn bắt được “a co”, là phần mở đầu của cụm từ thứ ba “ngâm mình trong nước lạnh phục hồi sức khỏe và niềm say mê”. Điều này được đối sánh với “Aiko” bởi API.

Có một lý do khác khiến bạn có thể nhận được phiên âm không chính xác. Tiếng ồn! Các ví dụ trên hoạt động tốt vì tệp âm thanh khá sạch. Trong thế giới thực, trừ khi bạn có cơ hội xử lý các tệp âm thanh trước đó, bạn không thể mong đợi âm thanh không bị nhiễu.

>>>

$ pip install SpeechRecognition

3

Các

>>> harvard = sr.AudioFile('harvard.wav')
>>> with harvard as source:
...    audio = r.record(source)
...

7phương pháp, khi được sử dụng bên trong một

>>> type(audio)

9khối, luôn luôn di chuyển về phía trước trong dòng tập tin. Điều này có nghĩa là nếu bạn ghi một lần trong bốn giây và sau đó ghi lại trong bốn giây, thì lần thứ hai trả về bốn giây âm thanh sau bốn giây đầu tiên.

Lưu ý rằng

>>> r.recognize_google(audio)
'the stale smell of old beer lingers it takes heat
to bring out the odor a cold dip restores health and
zest a salt pickle taste fine with ham tacos al
Pastore are my favorite a zestful food is the hot
cross bun'

0có chứa một phần của cụm từ thứ ba trong tệp. Khi chỉ định thời lượng, bản ghi có thể dừng ở giữa cụm từ - hoặc thậm chí giữa từ - điều này có thể ảnh hưởng đến độ chính xác của bản phiên âm. Nhiều hơn về điều này trong một chút.

>>>

$ pip install SpeechRecognition

4

Các

>>> harvard = sr.AudioFile('harvard.wav')
>>> with harvard as source:
...    audio = r.record(source)
...

7phương pháp, khi được sử dụng bên trong một

>>> type(audio)

9khối, luôn luôn di chuyển về phía trước trong dòng tập tin. Điều này có nghĩa là nếu bạn ghi một lần trong bốn giây và sau đó ghi lại trong bốn giây, thì lần thứ hai trả về bốn giây âm thanh sau bốn giây đầu tiên.

Lưu ý rằng

>>> r.recognize_google(audio)
'the stale smell of old beer lingers it takes heat
to bring out the odor a cold dip restores health and
zest a salt pickle taste fine with ham tacos al
Pastore are my favorite a zestful food is the hot
cross bun'

0có chứa một phần của cụm từ thứ ba trong tệp. Khi chỉ định thời lượng, bản ghi có thể dừng ở giữa cụm từ - hoặc thậm chí giữa từ - điều này có thể ảnh hưởng đến độ chính xác của bản phiên âm. Nhiều hơn về điều này trong một chút.

Ngoài việc chỉ định thời lượng ghi,

>>> harvard = sr.AudioFile('harvard.wav')
>>> with harvard as source:
...    audio = r.record(source)
...

7phương thức có thể được cung cấp một điểm bắt đầu cụ thể bằng cách sử dụng

>>> type(audio)

4đối số từ khóa. Giá trị này đại diện cho số giây từ đầu tệp cần bỏ qua trước khi bắt đầu ghi.

>>>

$ pip install SpeechRecognition

5

Các

>>> harvard = sr.AudioFile('harvard.wav')
>>> with harvard as source:
...    audio = r.record(source)
...

7phương pháp, khi được sử dụng bên trong một

>>> type(audio)

9khối, luôn luôn di chuyển về phía trước trong dòng tập tin. Điều này có nghĩa là nếu bạn ghi một lần trong bốn giây và sau đó ghi lại trong bốn giây, thì lần thứ hai trả về bốn giây âm thanh sau bốn giây đầu tiên.

Lưu ý rằng

>>> r.recognize_google(audio)
'the stale smell of old beer lingers it takes heat
to bring out the odor a cold dip restores health and
zest a salt pickle taste fine with ham tacos al
Pastore are my favorite a zestful food is the hot
cross bun'

0có chứa một phần của cụm từ thứ ba trong tệp. Khi chỉ định thời lượng, bản ghi có thể dừng ở giữa cụm từ - hoặc thậm chí giữa từ - điều này có thể ảnh hưởng đến độ chính xác của bản phiên âm. Nhiều hơn về điều này trong một chút.

Khi làm việc với các tệp ồn ào, có thể hữu ích khi xem phản hồi API thực tế. Hầu hết các API trả về một chuỗi JSON chứa nhiều phiên âm có thể có. Các

>>> r.recognize_google()

7phương pháp sẽ luôn trả lại rất có thể sao chép, trừ khi bạn buộc nó để cung cấp cho bạn những câu trả lời đầy đủ.

Bạn có thể làm điều này bằng cách đặt

>>> with harvard as source:
...     audio = r.record(source, duration=4)
...
>>> r.recognize_google(audio)
'the stale smell of old beer lingers'

2đối số từ khóa của

>>> r.recognize_google()

7phương pháp thành

>>> with harvard as source:
...     audio = r.record(source, duration=4)
...
>>> r.recognize_google(audio)
'the stale smell of old beer lingers'

4

>>>

$ pip install SpeechRecognition

6

Như bạn có thể thấy,

>>> r.recognize_google()

7trả về một từ điển với khóa

>>> with harvard as source:
...     audio = r.record(source, duration=4)
...
>>> r.recognize_google(audio)
'the stale smell of old beer lingers'

6trỏ đến danh sách các bảng điểm có thể có. Cấu trúc của phản hồi này có thể khác nhau giữa các API và chủ yếu hữu ích cho việc gỡ lỗi.

Bây giờ, bạn đã có một ý tưởng khá tốt về những điều cơ bản của gói SpeechRecognition. Bạn đã thấy cách tạo một

>>> harvard = sr.AudioFile('harvard.wav')
>>> with harvard as source:
...    audio = r.record(source)
...

5phiên bản từ tệp âm thanh và sử dụng

>>> harvard = sr.AudioFile('harvard.wav')
>>> with harvard as source:
...    audio = r.record(source)
...

7phương pháp này để thu thập dữ liệu từ tệp. Bạn đã học cách ghi lại các phân đoạn của tệp bằng cách sử dụng các đối số

>>> type(audio)

4và

>>> type(audio)

5từ khóa của

>>> harvard = sr.AudioFile('harvard.wav')
>>> with harvard as source:
...    audio = r.record(source)
...

7, và bạn đã gặp phải ảnh hưởng bất lợi về độ chính xác của bản sao.

Bây giờ cho phần thú vị. Hãy chuyển từ phiên âm các tệp âm thanh tĩnh sang làm cho dự án của bạn trở nên tương tác bằng cách chấp nhận đầu vào từ micrô.

Làm việc với micrô

Để truy cập micrô của bạn bằng SpeechRecognizer, bạn sẽ phải cài đặt gói PyAudio . Hãy tiếp tục và đóng phiên thông dịch hiện tại của bạn, và hãy làm điều đó.

Cài đặt PyAudio

Quá trình cài đặt PyAudio sẽ khác nhau tùy thuộc vào hệ điều hành của bạn.

Debian Linux

Nếu bạn đang sử dụng Linux dựa trên Debian (như Ubuntu), bạn có thể cài đặt PyAudio với

$ pip install SpeechRecognition

02:

$ pip install SpeechRecognition

7

Sau khi cài đặt, bạn vẫn có thể cần chạy

$ pip install SpeechRecognition

03, đặc biệt nếu bạn đang làm việc trong môi trường ảo.

hệ điều hành Mac

Đối với macOS, trước tiên bạn cần cài đặt PortAudio với Homebrew, sau đó cài đặt PyAudio với

$ pip install SpeechRecognition

04:

$ pip install SpeechRecognition

8

các cửa sổ

Trên Windows, bạn có thể cài đặt PyAudio với

$ pip install SpeechRecognition

04:

Kiểm tra cài đặt

Sau khi cài đặt xong PyAudio, bạn có thể kiểm tra cài đặt từ bảng điều khiển.

$ pip install SpeechRecognition

9

Đảm bảo rằng micrô mặc định của bạn được bật và tắt tiếng. Nếu quá trình cài đặt hoạt động, bạn sẽ thấy một cái gì đó như sau:

>>> import speech_recognition as sr
>>> sr.__version__
'3.8.1'

0

Hãy tiếp tục và thử nghiệm nó một chút bằng cách nói vào micrô của bạn và xem SpeechRecognition phiên âm bài phát biểu của bạn tốt như thế nào.

Lưu ý: Nếu bạn đang sử dụng Ubuntu và nhận được một số đầu ra thú vị như 'ALSA lib… PCM không xác định', hãy tham khảo trang này để biết các mẹo về cách chặn các thông báo này. Đầu ra này đến từ gói ALSA được cài đặt với Ubuntu — không phải SpeechRecognition hoặc PyAudio. Trên thực tế, những thông báo này có thể chỉ ra sự cố với cấu hình ALSA của bạn, nhưng theo kinh nghiệm của tôi, chúng không ảnh hưởng đến chức năng của mã của bạn. Chúng hầu hết là một mối phiền toái.

các $ pip install SpeechRecognition 06Lớp

Mở một phiên thông dịch khác và tạo một phiên bản của lớp trình nhận dạng.

>>>

>>> import speech_recognition as sr
>>> sr.__version__
'3.8.1'

1

Bây giờ, thay vì sử dụng tệp âm thanh làm nguồn, bạn sẽ sử dụng micrô hệ thống mặc định. Bạn có thể truy cập điều này bằng cách tạo một thể hiện của

$ pip install SpeechRecognition

06lớp.

>>>

>>> import speech_recognition as sr
>>> sr.__version__
'3.8.1'

2

Nếu hệ thống của bạn không có micrô mặc định (chẳng hạn như trên Raspberry Pi ) hoặc bạn muốn sử dụng micrô khác với micrô mặc định, bạn sẽ cần chỉ định micrô sẽ sử dụng bằng cách cung cấp chỉ mục thiết bị. Bạn có thể lấy danh sách tên micrô bằng cách gọi

$ pip install SpeechRecognition

08phương thức tĩnh của

$ pip install SpeechRecognition

06lớp.

>>>

>>> import speech_recognition as sr
>>> sr.__version__
'3.8.1'

3

Lưu ý rằng đầu ra của bạn có thể khác với ví dụ trên.

Chỉ mục thiết bị của micrô là chỉ mục tên của micrô trong danh sách được trả về

$ pip install SpeechRecognition

10Ví dụ: với đầu ra ở trên, nếu bạn muốn sử dụng micrô có tên “phía trước”, có chỉ số 3 trong danh sách, bạn sẽ tạo micrô ví dụ như thế này:

>>>

>>> import speech_recognition as sr
>>> sr.__version__
'3.8.1'

4

Tuy nhiên, đối với hầu hết các dự án, có thể bạn sẽ muốn sử dụng micrô hệ thống mặc định.

Sử dụng $ pip install SpeechRecognition 11để chụp đầu vào micrô

Bây giờ bạn đã có một

$ pip install SpeechRecognition

06phiên bản sẵn sàng để sử dụng, đã đến lúc nắm bắt một số thông tin đầu vào.

Cũng giống như

>>> harvard = sr.AudioFile('harvard.wav')
>>> with harvard as source:
...    audio = r.record(source)
...

5lớp học,

$ pip install SpeechRecognition

06là một trình quản lý ngữ cảnh. Bạn có thể nắm bắt đầu vào từ micrô bằng cách sử dụng

$ pip install SpeechRecognition

11phương thức của

>>> r.recognize_google()

1lớp bên trong

>>> type(audio)

9khối. Phương thức này lấy một nguồn âm thanh làm đối số đầu tiên của nó và ghi lại đầu vào từ nguồn cho đến khi phát hiện ra sự im lặng.

>>>

>>> import speech_recognition as sr
>>> sr.__version__
'3.8.1'

5

Sau khi bạn thực hiện

>>> type(audio)

9khối, hãy thử nói “xin chào” vào micrô của bạn. Chờ một chút để lời nhắc thông dịch viên hiển thị lại. Khi lời nhắc “>>>” trả về, bạn đã sẵn sàng nhận dạng bài phát biểu.

>>>

>>> import speech_recognition as sr
>>> sr.__version__
'3.8.1'

6

Nếu lời nhắc không bao giờ quay trở lại, rất có thể micrô của bạn đang nhận quá nhiều tiếng ồn xung quanh. Bạn có thể làm gián đoạn quá trình bằng + ctrl + c ++ để lấy lại lời nhắc.

Để xử lý tiếng ồn xung quanh, bạn sẽ cần sử dụng

>>> r.recognize_google(audio)
'the stale smell of old beer lingers it takes heat
to bring out the odor a cold dip restores health and
zest a salt pickle taste fine with ham tacos al
Pastore are my favorite a zestful food is the hot
cross bun'

5phương pháp của

>>> r.recognize_google()

1lớp, giống như bạn đã làm khi cố gắng tìm hiểu tệp âm thanh bị nhiễu. Vì đầu vào từ micrô khó dự đoán hơn nhiều so với đầu vào từ tệp âm thanh, nên thực hiện điều này bất cứ lúc nào bạn nghe đầu vào micrô.

>>>

>>> import speech_recognition as sr
>>> sr.__version__
'3.8.1'

7

Sau khi chạy mã trên, hãy đợi một giây

>>> r.recognize_google(audio)
'the stale smell of old beer lingers it takes heat
to bring out the odor a cold dip restores health and
zest a salt pickle taste fine with ham tacos al
Pastore are my favorite a zestful food is the hot
cross bun'

5để thực hiện công việc của nó, sau đó thử nói “xin chào” vào micrô. Một lần nữa, bạn sẽ phải đợi một lúc để lời nhắc của thông dịch viên quay lại trước khi cố gắng nhận dạng bài phát biểu.

Nhớ lại rằng

>>> r.recognize_google(audio)
'the stale smell of old beer lingers it takes heat
to bring out the odor a cold dip restores health and
zest a salt pickle taste fine with ham tacos al
Pastore are my favorite a zestful food is the hot
cross bun'

5phân tích nguồn âm thanh trong một giây. Nếu điều này có vẻ quá dài đối với bạn, vui lòng điều chỉnh điều này bằng

>>> type(audio)

5đối số từ khóa.

Tài liệu SpeechRecognition khuyến nghị sử dụng thời lượng không dưới 0,5 giây. Trong một số trường hợp, bạn có thể thấy rằng thời lượng dài hơn mặc định là một giây tạo ra kết quả tốt hơn. Giá trị tối thiểu bạn cần tùy thuộc vào môi trường xung quanh của micrô. Thật không may, thông tin này thường không được biết trong quá trình phát triển. Theo kinh nghiệm của tôi, thời lượng mặc định là một giây là đủ cho hầu hết các ứng dụng.

Xử lý giọng nói không thể nhận dạng

Hãy thử nhập ví dụ mã trước đó vào bộ ngắt âm thanh và tạo ra một số tiếng ồn khó hiểu vào micrô. Bạn sẽ nhận được một cái gì đó như thế này để phản hồi:

>>> import speech_recognition as sr
>>> sr.__version__
'3.8.1'

8

Âm thanh mà API không thể khớp với văn bản sẽ tạo ra một

$ pip install SpeechRecognition

24ngoại lệ. Bạn nên luôn gói các lệnh gọi tới API bằng

$ pip install SpeechRecognition

25và

$ pip install SpeechRecognition

26các khối để xử lý ngoại lệ này .

Lưu ý : Bạn có thể phải cố gắng nhiều hơn mong đợi để có được ngoại lệ. API hoạt động rất chăm chỉ để phiên âm bất kỳ âm thanh nào. Ngay cả những tiếng càu nhàu ngắn cũng được phiên âm thành những từ như "làm thế nào" đối với tôi. Ho, tiếng vỗ tay và tiếng tặc lưỡi sẽ liên tục làm tăng ngoại lệ.

Kết hợp tất cả lại với nhau: Trò chơi “Đoán từ”

Bây giờ bạn đã thấy những kiến thức cơ bản về nhận dạng giọng nói với gói SpeechRecognition, hãy sử dụng kiến thức mới học của bạn và viết một trò chơi nhỏ chọn một từ ngẫu nhiên từ danh sách và cho người dùng ba lần thử đoán từ đó.

Đây là toàn bộ kịch bản:

>>> import speech_recognition as sr
>>> sr.__version__
'3.8.1'

9

Hãy phá vỡ điều đó một chút.

Các

$ pip install SpeechRecognition

27chức năng phải mất một

>>> r.recognize_google()

1và

$ pip install SpeechRecognition

06ví dụ như các đối số và trả về một cuốn từ điển với ba phím. Khóa đầu tiên

$ pip install SpeechRecognition

30, là một boolean cho biết yêu cầu API có thành công hay không. Khóa thứ hai

$ pip install SpeechRecognition

31, là

$ pip install SpeechRecognition

32hoặc một thông báo lỗi cho biết rằng API không khả dụng hoặc giọng nói không thể hiểu được. Cuối cùng,

$ pip install SpeechRecognition

33phím chứa phần phiên âm của âm thanh được ghi bởi micrô.

Trước tiên, hàm sẽ kiểm tra xem các đối số

$ pip install SpeechRecognition

34và

$ pip install SpeechRecognition

35đối số có phải là loại chính xác hay không và tăng một

$ pip install SpeechRecognition

36nếu một trong hai không hợp lệ:

>>> r = sr.Recognizer()

0

Sau đó,

$ pip install SpeechRecognition

11phương pháp được sử dụng để ghi lại đầu vào micrô:

>>> r = sr.Recognizer()

1

Các

>>> r.recognize_google(audio)
'the stale smell of old beer lingers it takes heat
to bring out the odor a cold dip restores health and
zest a salt pickle taste fine with ham tacos al
Pastore are my favorite a zestful food is the hot
cross bun'

5phương pháp được sử dụng để hiệu chỉnh nhận dạng cho việc thay đổi điều kiện tiếng ồn mỗi khi

$ pip install SpeechRecognition

27hàm được gọi.

Tiếp theo,

>>> r.recognize_google()

7được gọi để phiên âm bất kỳ bài phát biểu nào trong bản ghi âm. Một

$ pip install SpeechRecognition

41khối được sử dụng để bắt

Traceback (most recent call last):
  File "", line 1, in 
TypeError: recognize_google() missing 1 required positional argument: 'audio_data'

7và

$ pip install SpeechRecognition

24ngoại lệ và xử lý cho phù hợp. Sự thành công của các yêu cầu API, bất kỳ thông báo lỗi, và bài phát biểu sao chép được lưu trữ trong

$ pip install SpeechRecognition

44,

$ pip install SpeechRecognition

45và

$ pip install SpeechRecognition

46phím của

$ pip install SpeechRecognition

47từ điển, mà sẽ được trả về bởi các

$ pip install SpeechRecognition

27chức năng.

>>> r = sr.Recognizer()

2

Bạn có thể kiểm tra

$ pip install SpeechRecognition

27chức năng bằng cách lưu tập lệnh ở trên vào một tệp có tên “đoáning_game.py” và chạy phần sau trong một phiên thông dịch:

>>>

>>> r = sr.Recognizer()

3

Bản thân trò chơi khá đơn giản. Đầu tiên, một danh sách các từ, số lượng đoán được phép tối đa và giới hạn nhanh chóng được khai báo:

>>> r = sr.Recognizer()

4

Tiếp theo, một

>>> r.recognize_google()

1và

$ pip install SpeechRecognition

06thể hiện được tạo và một từ ngẫu nhiên được chọn từ

$ pip install SpeechRecognition

52:

>>> r = sr.Recognizer()

5

Sau khi in một số hướng dẫn và đợi trong 3 ba giây, một

$ pip install SpeechRecognition

53vòng lặp được sử dụng để quản lý mỗi nỗ lực đoán từ đã chọn của người dùng. Điều đầu tiên bên trong

$ pip install SpeechRecognition

53vòng lặp là một

$ pip install SpeechRecognition

53vòng lặp khác nhắc người dùng

$ pip install SpeechRecognition

56đoán nhiều lần nhất , cố gắng nhận dạng đầu vào mỗi lần bằng

$ pip install SpeechRecognition

27hàm và lưu trữ từ điển trả về biến cục bộ

$ pip install SpeechRecognition

58.

Nếu

$ pip install SpeechRecognition

33khóa của

$ pip install SpeechRecognition

58không phải

$ pip install SpeechRecognition

32, thì bài phát biểu của người dùng đã được phiên âm và vòng lặp bên trong được kết thúc bằng

$ pip install SpeechRecognition

62. Nếu bài phát biểu không được phiên âm và

$ pip install SpeechRecognition

30khóa được đặt thành

$ pip install SpeechRecognition

64, thì lỗi API đã xảy ra và vòng lặp lại bị kết thúc với

$ pip install SpeechRecognition

62. Nếu không, yêu cầu API đã thành công nhưng không thể nhận dạng được giọng nói. Người dùng được cảnh báo và

$ pip install SpeechRecognition

53vòng lặp lặp lại, cho người dùng một cơ hội khác ở lần thử hiện tại.

>>> r = sr.Recognizer()

6

Khi

$ pip install SpeechRecognition

53vòng lặp bên trong kết thúc,

$ pip install SpeechRecognition

58từ điển sẽ được kiểm tra lỗi. Nếu có bất kỳ điều gì xảy ra, thông báo lỗi sẽ được hiển thị và

$ pip install SpeechRecognition

53vòng lặp bên ngoài được kết thúc

$ pip install SpeechRecognition

62, điều này sẽ kết thúc quá trình thực thi chương trình.

>>> r = sr.Recognizer()

7

Nếu không có bất kỳ lỗi nào, bản phiên âm sẽ được so sánh với từ được chọn ngẫu nhiên. Các

$ pip install SpeechRecognition

71phương pháp cho các đối tượng chuỗi được sử dụng để đảm bảo phù hợp hơn về đoán đến từ chọn. API có thể trả về lời nói khớp với từ “apple” là “Apple” hoặc “apple” và một trong hai câu trả lời sẽ được tính là một câu trả lời đúng.

Nếu đoán đúng, người dùng thắng và trò chơi kết thúc. Nếu người dùng không chính xác và vẫn còn bất kỳ lần thử nào,

$ pip install SpeechRecognition

53vòng lặp bên ngoài sẽ lặp lại và một dự đoán mới được truy xuất. Nếu không, người dùng sẽ mất trò chơi.

>>> r = sr.Recognizer()

8

Khi chạy, đầu ra sẽ giống như sau:

>>> r = sr.Recognizer()

9

Tóm tắt và bổ sung tài nguyên

Trong hướng dẫn này, bạn đã biết cách cài đặt gói SpeechRecognition và sử dụng

>>> r.recognize_google()

1lớp của nó để dễ dàng nhận dạng giọng nói từ cả tệp — bằng cách sử dụng

>>> harvard = sr.AudioFile('harvard.wav')
>>> with harvard as source:
...    audio = r.record(source)
...

7—và đầu vào micrô —

$ pip install SpeechRecognition

75bằng cách sử dụng các đối số từ khoá

>>> type(audio)

4và

>>> type(audio)

5của

>>> harvard = sr.AudioFile('harvard.wav')
>>> with harvard as source:
...    audio = r.record(source)
...

7phương pháp.

Bạn đã thấy ảnh hưởng của tiếng ồn có thể có đối với độ chính xác của các phiên âm và đã học cách điều chỉnh

>>> r.recognize_google()

1độ nhạy của một phiên bản đối với tiếng ồn xung quanh.

$ pip install SpeechRecognition

80Bạn cũng đã biết những ngoại lệ nào mà một

>>> r.recognize_google()

1phiên bản có thể gây ra—

Traceback (most recent call last):
  File "", line 1, in 
TypeError: recognize_google() missing 1 required positional argument: 'audio_data'

7đối với các yêu cầu API không hợp lệ và

$ pip install SpeechRecognition

83đối với giọng nói khó hiểu — và cách để xử lý những điều này với

$ pip install SpeechRecognition

41các khối.

Nhận dạng giọng nói là một chủ đề sâu sắc và những gì bạn đã học ở đây hầu như không làm nổi bề mặt. Nếu bạn muốn tìm hiểu thêm, đây là một số tài nguyên bổ sung.

Để biết thêm thông tin về gói SpeechRecognition:

Thư viện tham khảo
Các ví dụ
Trang khắc phục sự cố

Một số tài nguyên Internet thú vị:

Phía sau micrô: Khoa học nói chuyện với máy tính . Một đoạn phim ngắn về xử lý giọng nói của Google.
Quan điểm lịch sử về nhận dạng giọng nói của Huang, Baker và Reddy. Truyền thông của ACM (2014). Bài viết này cung cấp một cái nhìn sâu sắc và học thuật về sự phát triển của công nghệ nhận dạng giọng nói.
Quá khứ, hiện tại và tương lai của công nghệ nhận dạng giọng nói của Clark Boyd tại The Startup. Bài đăng trên blog này trình bày tổng quan về công nghệ nhận dạng giọng nói, với một số suy nghĩ về tương lai.

Một số sách hay về nhận dạng giọng nói:

Giọng nói trong máy: Xây dựng máy tính hiểu giọng nói , Pieraccini, MIT Press (2012). Một cuốn sách dành cho đối tượng phổ thông có thể truy cập được bao gồm lịch sử cũng như những tiến bộ hiện đại trong xử lý giọng nói.
Các nguyên tắc cơ bản về nhận dạng giọng nói , Rabiner và Juang, Prentice Hall (1993). Rabiner, một nhà nghiên cứu tại Bell Labs, là người có công trong việc thiết kế một số công cụ nhận dạng giọng nói khả thi về mặt thương mại đầu tiên. Cuốn sách này đã hơn 20 năm tuổi, nhưng rất nhiều nguyên tắc cơ bản vẫn được giữ nguyên.
Nhận dạng giọng nói tự động: Phương pháp tiếp cận học tập sâu , Yu và Deng, Springer (2014). Yu và Deng là những nhà nghiên cứu tại Microsoft và cả hai đều rất tích cực trong lĩnh vực xử lý giọng nói. Cuốn sách này bao gồm rất nhiều phương pháp tiếp cận hiện đại và nghiên cứu tiên tiến nhưng không dành cho những người yếu tim về toán học.

Phụ lục: Nhận dạng giọng nói bằng các ngôn ngữ khác ngoài tiếng Anh

Trong suốt hướng dẫn này, chúng tôi đã nhận dạng giọng nói bằng tiếng Anh, là ngôn ngữ mặc định cho mỗi

Traceback (most recent call last):
  File "", line 1, in 
TypeError: recognize_google() missing 1 required positional argument: 'audio_data'

4phương pháp của gói SpeechRecognition. Tuy nhiên, bạn hoàn toàn có thể nhận dạng giọng nói bằng các ngôn ngữ khác và khá đơn giản để thực hiện.

Để nhận dạng giọng nói bằng một ngôn ngữ khác, hãy đặt

$ pip install SpeechRecognition

86đối số từ khóa của

Traceback (most recent call last):
  File "", line 1, in 
TypeError: recognize_google() missing 1 required positional argument: 'audio_data'

4phương thức thành một chuỗi tương ứng với ngôn ngữ mong muốn. Hầu hết các phương pháp đều chấp nhận thẻ ngôn ngữ BCP-47, chẳng hạn như

$ pip install SpeechRecognition

88tiếng Anh Mỹ hoặc

$ pip install SpeechRecognition

89tiếng Pháp. Ví dụ: phần sau nhận dạng giọng nói tiếng Pháp trong tệp âm thanh:

>>> r.recognize_google()

0

Chỉ các phương thức sau chấp nhận

$ pip install SpeechRecognition

86đối số từ khóa:

```
>>> r.recognize_google()
```
6
```
>>> r.recognize_google()
```
7
```
>>> r.recognize_google()
```
8

Traceback (most recent call last):
  File "", line 1, in 
TypeError: recognize_google() missing 1 required positional argument: 'audio_data'

0

Traceback (most recent call last):
  File "", line 1, in 
TypeError: recognize_google() missing 1 required positional argument: 'audio_data'

1

Để biết những thẻ ngôn ngữ nào được API bạn đang sử dụng hỗ trợ, bạn sẽ phải tham khảo tài liệu tương ứng . Bạn

>>> r.recognize_google()

7có thể tìm thấy danh sách các thẻ được chấp nhận trong câu trả lời Stack Overflow này .

Hướng dẫn python save audio file - python lưu tập tin âm thanh

Các khóa học qua video:

Lập trình C Java C# SQL Server PHP HTML5-CSS3-JavaScript

« Prev: Python: Tôi có thể làm gì với Python? Prev: Python: Tôi có thể làm gì với Python?

» Next: Python: Cách in có định dạng trong Python với bài toán in các thừa số nguyên tố Next: Python: Cách in có định dạng trong Python với bài toán in các thừa số nguyên tố

programming python Python audio library Opencv audio capture

Hướng dẫn python save audio file - python lưu tập tin âm thanh

« Prev: Python: Tôi có thể làm gì với Python?

» Next: Python: Cách in có định dạng trong Python với bài toán in các thừa số nguyên tố

Chọn gói nhận dạng giọng nói Python

Cài đặt SpeechRecognition

các >>> r.recognize_google() 1Lớp

Làm việc với tệp âm thanh

Các loại tệp được hỗ trợ

Sử dụng >>> harvard = sr.AudioFile('harvard.wav') >>> with harvard as source: ... audio = r.record(source) ... 7để chụp dữ liệu từ tệp

Chụp phân đoạn với >>> type(audio) 4và>>> type(audio) 5

Để chỉ ghi lại cụm từ thứ hai trong tệp, bạn có thể bắt đầu với khoảng chênh lệch là bốn giây và ghi lại, chẳng hạn, ba giây.

Làm việc với micrô

Cài đặt PyAudio

Debian Linux

hệ điều hành Mac

các cửa sổ

Kiểm tra cài đặt

các $ pip install SpeechRecognition 06Lớp

Sử dụng $ pip install SpeechRecognition 11để chụp đầu vào micrô

Xử lý giọng nói không thể nhận dạng

Kết hợp tất cả lại với nhau: Trò chơi “Đoán từ”

Tóm tắt và bổ sung tài nguyên

Phụ lục: Nhận dạng giọng nói bằng các ngôn ngữ khác ngoài tiếng Anh

Bài Viết Liên Quan

Quảng Cáo

Có thể bạn quan tâm

Toplist được quan tâm

Quảng cáo

Xem Nhiều

Quảng cáo

Chúng tôi

Điều khoản

Trợ giúp

Mạng xã hội