8

Tôi đang tìm cách ghi nhật ký sự kiện tương ứng với âm thanh cụ thể, chẳng hạn như cửa xe cào, hoặc có thể là bánh mì nướng.Nhận dạng thời gian thực của âm thanh không lời nói, âm nhạc từ luồng micrô liên tục

Hệ thống cần phải phức tạp hơn một "máy dò tiếng ồn lớn"; nó cần để có thể phân biệt âm thanh cụ thể đó với những tiếng động lớn khác.

Yêu cầu nhận dạng không phải là độ trễ bằng 0, nhưng bộ xử lý cần theo kịp luồng dữ liệu đến liên tục từ micrô luôn bật.

  • Tác vụ này có khác biệt đáng kể so với nhận dạng giọng nói hay tôi có thể sử dụng thư viện nhận dạng giọng nói/bộ công cụ để xác định những âm thanh không lời nói này?
  • Với yêu cầu rằng tôi chỉ cần khớp một âm thanh (trái ngược với kết hợp giữa một thư viện âm thanh), có bất kỳ tối ưu hóa đặc biệt nào mà tôi có thể làm không?

This answer chỉ ra rằng một khớp với bộ lọc sẽ là thích hợp, nhưng tôi mơ hồ về các chi tiết. Tôi không tin một tương quan chéo đơn giản về dữ liệu dạng sóng âm thanh giữa một mẫu âm thanh mục tiêu và luồng micrô sẽ có hiệu quả, do các biến thể trong âm thanh mục tiêu.

Câu hỏi của tôi cũng tương tự như this, không nhận được nhiều sự chú ý.

+0

Bạn có thể có may mắn hơn so với trên http://dsp.stackexchange.com. – mtrw

Trả lời

3

Luận án tiến sĩ này, Non-Speech Environmental Sound Classification System for Autonomous Surveillance, bởi Cowling (2004), có kết quả thử nghiệm về các kỹ thuật khác nhau để trích xuất tính năng âm thanh, cũng như phân loại. Ông sử dụng những âm thanh môi trường như các khóa đang réo inh ỏi và tiếng bước chân, và đã có thể đạt được độ chính xác 70%:

Kỹ thuật tốt nhất được tìm thấy là một trong hai Wavelet liên tục chuyển đổi khai thác tính năng với Dynamic Time Warping hoặc Mel-Frequency Cepstral Hệ số với Warping thời gian động. Cả hai kỹ thuật này đạt được tỷ lệ nhận dạng 70%.

Nếu bạn giới hạn mình thành một âm thanh, có lẽ bạn có thể đạt được tỷ lệ nhận dạng cao hơn?

Tác giả cũng đề cập đến các kỹ thuật hoạt động khá tốt với nhận dạng giọng nói (học lượng tử vector và mạng thần kinh) không hoạt động tốt với âm thanh môi trường.

Tôi cũng đã tìm thấy một bài viết gần đây hơn tại đây: Detecting Audio Events for Semantic Video Search, bởi Bugalho et al. (2009), nơi họ phát hiện các sự kiện âm thanh trong phim (như bắn súng, nổ, vv).

Tôi không có kinh nghiệm trong lĩnh vực này. Tôi chỉ đơn thuần vấp phải tài liệu này là kết quả của câu hỏi của bạn, khơi gợi sự quan tâm của tôi. Tôi đang đăng những phát hiện của tôi ở đây với hy vọng rằng nó sẽ giúp với nghiên cứu của bạn.

+0

Liên kết bị hỏng. – AJMansfield

+0

@AJMansfield Tìm thấy các liên kết thay thế cho các bài viết. –

3

Tôi tìm thấy một giấy thú vị về chủ đề

Nó cũng sẽ hoạt động cho ứng dụng của bạn, nếu không tốt hơn cho âm thanh của xe.

Khi phân tích dữ liệu huấn luyện, nó ...

  1. Đưa mẫu 200ms
  2. Có một Fourier Transform (FFT) trên mỗi mẫu
  3. Liệu một Principal Component Analysis trên vectơ tần

    • Tính giá trị trung bình của tất cả các mẫu của lớp này
    • Subtrac ts giá trị trung bình từ các mẫu
    • Tính vectơ riêng của ma trận hiệp phương sai trung bình (trung bình của các sản phẩm bên ngoài của mỗi vectơ với chính nó)
    • Lưu trữ vectơ trung bình và quan trọng nhất.

Sau đó, để phân loại một âm thanh, nó ...

  1. Đưa mẫu 200ms (S).
  2. Biến đổi Fourier trên mỗi mẫu.
  3. Trừ trung bình của lớp (C) khỏi vectơ tần số (F).
  4. Nhân vectơ tần số với mỗi vectơ riêng của C, cho một số từ mỗi số.
  5. Trích xuất sản phẩm của từng số và vectơ-vector riêng tương ứng từ F.
  6. Đo chiều dài của véc-tơ kết quả.
  7. Nếu giá trị này là dưới đây một số không đổi, S được công nhận là thuộc lớp C.