Tôi đang tìm cách ghi nhật ký sự kiện tương ứng với âm thanh cụ thể, chẳng hạn như cửa xe cào, hoặc có thể là bánh mì nướng.Nhận dạng thời gian thực của âm thanh không lời nói, âm nhạc từ luồng micrô liên tục
Hệ thống cần phải phức tạp hơn một "máy dò tiếng ồn lớn"; nó cần để có thể phân biệt âm thanh cụ thể đó với những tiếng động lớn khác.
Yêu cầu nhận dạng không phải là độ trễ bằng 0, nhưng bộ xử lý cần theo kịp luồng dữ liệu đến liên tục từ micrô luôn bật.
- Tác vụ này có khác biệt đáng kể so với nhận dạng giọng nói hay tôi có thể sử dụng thư viện nhận dạng giọng nói/bộ công cụ để xác định những âm thanh không lời nói này?
- Với yêu cầu rằng tôi chỉ cần khớp một âm thanh (trái ngược với kết hợp giữa một thư viện âm thanh), có bất kỳ tối ưu hóa đặc biệt nào mà tôi có thể làm không?
This answer chỉ ra rằng một khớp với bộ lọc sẽ là thích hợp, nhưng tôi mơ hồ về các chi tiết. Tôi không tin một tương quan chéo đơn giản về dữ liệu dạng sóng âm thanh giữa một mẫu âm thanh mục tiêu và luồng micrô sẽ có hiệu quả, do các biến thể trong âm thanh mục tiêu.
Câu hỏi của tôi cũng tương tự như this, không nhận được nhiều sự chú ý.
Bạn có thể có may mắn hơn so với trên http://dsp.stackexchange.com. – mtrw