Các cách xử lý âm thanh
Cũng giống như các bài toán Deep Learning khác, việc đầu tiên chúng ta cần làm là xử lý dữ liệu. Vậy với dữ liệu audio, các bước tiền xử lý sẽ như thế nào? Trong bài viết này, mình sẽ trình bày chi tiết về vấn đề này. Show Sử dụng các thư viện âm thanh trong python để lấy đặc trưngThư viện python hỗ trợ xử lý âm thanhMột số thư viện python hỗ trợ xử lý âm thanh như librosa, scipy, torchaudio. Tất cả đều cho phép bạn đọc các tệp âm thanh ở các định dạng khác nhau. Dữ liệu tín hiệu âm thanh (Audio Signal Data)Khi âm thanh được lưu trong một tệp, nó sẽ ở định dạng nén. Khi tệp được tải, nó sẽ được giải nén và chuyển đổi thành một mảng Numpy.
Biến đổi FourierTheo wikipedia, tính chất của biến đổi Fourier:
Tạo Spectrogram
Mel SpectrogramMel Scale
Decibel Scale
Ngoài Mel Spectrogram, thì đặc trưng MFCC cũng thường được sử dụng để trích xuất đặc trưng âm thanh. Các bạn có thể tìm hiểu kĩ hơn ở đây. Kết luậnỞ bài này, mình đã trình bày về một số đặc trưng âm thanh thường được sử dụng trong bài toán Speech To Text. Bài tiếp theo mình sẽ trình bày về cách tiếp cận các mô hình trong bài toán này. Cảm ơn các bạn đã đón đọc và xem tiếp bài của mình nhé. 👋👋👋 Tài liệu tham khảohttps://towardsdatascience.com/learning-from-audio-the-mel-scale-mel-spectrograms-and-mel-frequency-cepstral-coefficients-f5752b6324a8 |