Speech Services by Google là gì

Mặc định thì voice data [giọng eng] đã được cài sẵn, vì thế lựa chọn Install voice data chỉ hữu ích khi bạn muốn cài thêm giọng khác như Đức, Tây Ban Nha, Pháp hay Ý. Như đã nói ở trên, tất cả dữ liệu đều được Goolge xử lý trên server nên voice data của họ có dung lượng khá nhỏ, chỉ khoảng vài MB.

Có một điểm hơi khó chịu là giọng của Google Voice không thực sự tốt, nhiều khi khó nghe và nó có hơi hướm của máy nhiều quá. Thật tốt là Text-to-speech out có chấp nhận engine của hãng thứ 3, vì thế bạn có thể cài thêm các dữ liệu khác vào để sử dụng. Trên Android hiện tại có 2 hãng làm khá tốt đó là SVOX với Classic Text To Speech Engine và IVONA với IVONA Text-to-Speech HQ. Mình lựa chọn IVONA vì hiện tại phần mềm này đang miễn phí và chất lượng rất tốt, khả năng phát âm tự nhiên và dễ nghe.


  • Tải về SVOX Classic Text To Speech Engine
  • Tải về IVONA Text-to-Speech HQ

Sau khi đã cài đặt được bộ phát âm mới thì bạn có thể ứng dụng nó được rồi. Text To Speech Engine không phải là phần mềm cụ thể mà nó sẽ được các ứng dụng khác sử dụng lại, để phát âm mỗi khi cần thiết, như trong từ điển, mỗi khi cần phát âm 1 từ vựng thì phần mềm từ điển đó sẽ nhờ vào TTS. Sau khi cài đặt IVONA thì phần mềm này cũng có kèm theo 1 phần mềm nho nhỏ cho bạn test âm thanh và cũng có thể dùng ngay phần mềm đó để đánh vào từ khoá cần nghe.

  • Tham khảo: Một số phần mềm từ điển hay cho Android.

Dưới đây có 2 phần mềm khá hay giúp bạn có thể học tiếng anh đơn giản. Đầu tiên là phần mềm Say2Me được bạn thanhtaivtt giới thiệu trong topic Ứng dụng nhỏ giúp luyện nói tiếng Anh. Ứng dụng tập trung vào luyện nói cho người dùng bằng đưa ra đề bài, lắng nghe người dùng đọc và đưa ra kết quả người dùng đọc có chính xác hay chưa nhờ vào hệ thống nhận dạng giọng nói của Google – Android. Ứng dụng bao gồm hơn 1400 câu giao tiếp hằng ngày. Trong đó, có hơn 300 câu phát âm của người bản xứ, còn lại phát âm dựa vào hệ thông Text to Speech [TTS] của Android được chia thành nhiều cấp độ khác nhau từ dễ đến khó.


Ứng dụng thứ 2 mà mình muốn nói đến là Text to Speech[TTS] Controller [link tải về]. Một ứng dụng rất nhỏ, có tính năng phát âm từ được đánh vào, ngoài ra có thể save phần âm thanh đó thành file. Rất thích hợp để bạn lập bộ từ tiếng anh và nghe đi nghe lại hàng ngày.

Ứng dụng nhận diện hình ảnh, phần mềm nhận dạng giọng nói, công nghệ xe tự động,.. đã đánh những dấu mốc quan trọng về bước đột phá của trí tuệ nhân tạo [AI], Machine learning trong kỷ nguyên số. Trong số đó, phần mềm nhận dạng giọng nói được cho là ngày càng trở nên “quyền lực” khi nó có thể điều khiển được hầu hết mọi thiết bị di động hiện đại ngày nay.


Phần mềm nhận dạng giọng

Phần mềm nhận dạng giọng nói là gì?

Phần mềm nhận dạng giọng nói là một hệ thống có khả năng nhận và dịch [hoặc hiểu và thực hiện] các lệnh thu được từ giọng nói con người. Nhận dạng giọng nói gồm 2 thuật ngữ: Voice recognition và Speech recognition.

- Voice recognition liên quan đến việc xác định giọng nói chính xác của một cá nhân nào đó, tương tự một phương pháp nhận diện sinh trắc học.

- Speech recognition là việc xác định những từ ngữ trong câu nói rồi dịch chúng sang ngôn ngữ máy tính.

Ứng dụng của phần mềm nhận dạng giọng nói

Chuyển giọng nói thành văn bản được xem là ứng dụng phổ biến nhất của phần mềm nhận dạng giọng nói hiện nay. Chúng ta có thể dễ dàng nhìn thấy những phần mềm nhận dạng giọng nói ngay trên smartphone hàng ngày đang sử dụng. Bên cạnh đó, nó còn được sử dụng rất nhiều trong lĩnh vực trí tuệ nhân tạo [Artificial Intelligence], Google Assistant là một ví dụ điển hình.

Google Assistant là hệ thống trợ lý cá nhân ảo được phát triển bởi Google. Điểm nổi bật của Google Assistant là nó có thể tương tác, nói chuyện với người dùng.

Assistant lần đầu xuất hiện rộng rãi trong ứng dụng nhắn tin Allo, sau đó là hệ thống loa thông minh Google Home. Phần mềm nhận dạng giọng nói Google Assistant chính thức có mặt trên các thiết bị Android từ tháng 2/2017 bao gồm smartphone và đồng hồ Android Wear, 3 tháng sau thì xuất hiện trên iOS trong một ứng dụng độc lập.

Hiện nay, phần mềm nhận dạng giọng nói Google Assistant đã và đang được mở rộng để hỗ trợ thêm nhiều thiết bị thông minh khác như xe hơi và nhà thông minh. Với tính năng ưu việt,  Assistant cũng có thể mở rộng thông qua các ứng dụng từ bên thứ ba.

Ưu điểm và nhược điểm của phần mềm nhận dạng giọng nói hiện nay

Ưu điểm của phần mềm nhận dạng giọng nói

-    Khả năng truy cập: Đây là một thuận lợi đối với người khuyết tất khi họ không thể dùng chuột hay bàn phím, nhưng có thể dùng giọng nói để hệ thống chuyển thành văn bản, giúp nhập liệu hay điều khiển một cách dễ dàng.

-    Kiểm tra chính tả: Người dùng có thể truy cập vào các công cụ chỉnh sửa tương tự một giải pháp xử lý văn bản chuẩn. Đương nhiên mọi thứ sẽ không chính xác 100% nhưng phần mềm có thể nhận diện và xử lý phần lớn lỗi chính tả, ngữ pháp.

-    Tốc độ nhanh: Phần mềm nhận dạng giọng nói có thể nắm bắt giọng nói của người dùng với tốc độ nhanh hơn so với khi nhập liệu bằng bàn phím, vì vậy tốc độ khi nhập liệu bằng giọng nói sẽ cải thiện đáng kể.

Nhược điểm của phần mềm nhận dạng giọng nói

-    Thiết lập và "dạy": Mặc dù tất cả phần mềm nhận dạng giọng nói hiện nay đều hứa hẹn có thể hoạt động sau vài phút thiết lập, nhưng thực sự quá trình ghi nhận, làm quen với giọng nói, âm điệu và tốc độ nói của người dùng có đôi chút phức tạp và tốn thời gian. Một số phần mềm nhận dạng giọng nói còn bắt người dùng nói lại, thậm chí không thể nhận diện được bạn đang nói gì.

-    Chưa thực sự ổn định: Việc đang nói mà bị ngắt giữa chừng có thể khiến người dùng cảm thấy khó chịu. Đặc biệt, một số người không thích phần mềm nhận dạng giọng nói vì nó gây bối rối cho người dùng khi lên xuống giọng hay bỗng dưng nói nhỏ lại.

-    Kho từ vựng hạn chế: Người dùng phải sẵn sàng chấp nhận trường hợp phần mềm xử lý quá lâu vì những từ vừa nói không nằm trong từ điển có sẵn. Đó là điều các nhà nghiên cứu đang cố gắng cải tiến ở phần mềm nhận dạng giọng nói hiện nay.

>> Tìm hiểu thêm về: Phần mềm nhận dạng chữ viết tay

3 ứng dụng phần mềm nhận dạng giọng nói giúp chuyển giọng nói thành văn bản

-    Phần mềm nhận dạng giọng nói Gboard

Phần mềm nhận dạng giọng nói Gboard

Phần mềm nhận dạng giọng nói Gboard có tên gọi trước đây là Google Keyboard. Phần mềm này hỗ trợ trên 120 ngôn ngữ khác nhau và được tích hợp khá nhiều tính năng mạnh mẽ như nhập liệu bằng giọng nói, biểu tượng cảm xúc, tìm kiếm ảnh động [GIF], tra cứu thông tin, dịch thuật nội dung tin nhắn ngay trên bàn phím… 

Nếu đang sử dụng các thiết bị iOS, sau khi cài đặt xong, bàn phím xuất hiện người dùng chỉ cần nhấn giữ lên biểu tượng dấu phẩy và chạm vào hình Trái đất. Cuối cùng, nhấn vào biểu tượng micro trên bàn phím và bắt đầu nói để nhập liệu.

Người dùng laptop hoặc PC cũng có thể thực hiện sử dụng tính năng nhập liệu văn bản bằng giọng nói thông qua Google Docs. Nếu muốn gõ dấu chấm, phẩy, xuống dòng… người dùng cần phải nói chậm rãi và ngắt quãng. Theo thử nghiệm, khả năng nhận diện giọng nói [tiếng Việt] của Gboard khá tốt, nội dung thể hiện rõ ràng và ít bị sai chính tả.

-    Phần mềm nhận dạng giọng nói ListNote Speech-to-Text Notes 

Phần mềm nhận dạng giọng nói ListNote Speech-to-Text Notes 

Với phần mềm nhận dạng giọng nói ListNote Speech-to-Text Notes, người dùng có thể tạo nhanh các ghi chú bằng giọng nói. So với các ứng dụng khác, ListNote Speech-to-Text Notes tương đối dễ sử dụng, mọi dữ liệu [ghi chú] đều được lập chỉ mục nên việc tìm kiếm diễn ra khá nhanh… Người dùng còn có thể đặt mật khẩu hoặc mã hóa nội dung theo tiêu chuẩn AES nếu muốn bảo vệ tập tin khỏi con mắt tò mò của người khác 

-    Phần mềm nhận dạng giọng nói Voice Text 

Phần mềm nhận dạng giọng nói Voice Text

Voice Text là một phần mềm nhận dạng giọng nói cho phép người dùng có thể gửi/nhận tin nhắn bằng giọng nói, nhập văn bản mà không cần chạm vào điện thoại, dự đoán nội dung, thực hiện cuộc gọi bằng giọng nói…

Video liên quan

Chủ Đề