8

Theo Wikipedia (mà là một nguồn xấu, tôi biết) Một mạng lưới thần kinh bao gồmAi đó có thể giải thích mạng nơron nhân tạo?

  • Một lớp đầu vào của A tế bào thần kinh

  • Nhiều (B) lớp Hidden mỗi bao gồm các tế bào thần kinh C .

  • Lớp đầu ra của các tế bào thần kinh "D".

Tôi hiểu ý nghĩa của lớp đầu vào và đầu ra.

Câu hỏi của tôi là cách xác định số lượng lớp tối ưu và lớp nơ-ron tối ưu?

  • Lợi thế/bất lợi của việc tăng "B" là gì?
  • Lợi thế/bất lợi của việc tăng "C" là gì?
  • Sự khác biệt giữa tăng "B" so với "C" là gì?

Chỉ số lượng thời gian (giới hạn của sức mạnh xử lý) hoặc làm cho mạng giới hạn chất lượng kết quả hơn và tôi nên tập trung hơn vào chiều sâu (nhiều lớp hơn) hoặc trên bề rộng (nhiều nơ ron hơn mỗi lớp)?

+0

Có thể trùng lặp của điều này? http://stackoverflow.com/questions/9436209/how-to-choose-number-of-hidden-layers-and-nodes-in-neural-network – Tim

+1

@Tim Nó không nói về "chiều rộng" của lớp và các ưu điểm/nhược điểm của chiều sâu/chiều rộng. –

+1

Trên thực tế, câu trả lời được chấp nhận bao gồm số lượng lớp ẩn (chiều sâu) và số lượng đơn vị ẩn (chiều rộng) – Tim

Trả lời

8

Trả lời 1. Một lớp sẽ mô hình hầu hết các vấn đề hoặc ở tối đa hai lớp có thể được sử dụng.

Trả lời 2. Nếu không sử dụng số nơron không đầy đủ, mạng sẽ không thể lập mô hình dữ liệu phức tạp và kết quả phù hợp sẽ kém. Nếu quá nhiều tế bào thần kinh được sử dụng, thời gian đào tạo có thể trở nên quá dài, và, tệ hơn, mạng có thể phù hợp hơn với dữ liệu. Khi ghi đè $ xảy ra, mạng sẽ bắt đầu tạo ra nhiễu ngẫu nhiên trong dữ liệu. Kết quả là mô hình phù hợp với dữ liệu đào tạo rất tốt, nhưng nó tổng quát kém với dữ liệu mới, không nhìn thấy được. Xác thực phải được sử dụng để kiểm tra điều này.

$ Ghi đè là gì?

Trong thống kê, quá mức xảy ra khi mô hình thống kê mô tả sai số hoặc tiếng ồn ngẫu nhiên thay vì mối quan hệ cơ bản. Tổng quát xảy ra khi một mô hình quá phức tạp, chẳng hạn như có quá nhiều tham số liên quan đến số lượng quan sát. Một mô hình đã được overfit nói chung sẽ có hiệu suất dự đoán kém, vì nó có thể phóng đại dao động nhỏ trong dữ liệu. Khái niệm về overfitting là rất quan trọng trong học máy. Thông thường, một thuật toán học tập được đào tạo bằng cách sử dụng một số ví dụ về đào tạo, ví dụ: các tình huống mẫu mực mà đầu ra mong muốn được biết. Người học được giả định đạt đến một trạng thái mà nó cũng sẽ có thể dự đoán đầu ra chính xác cho các ví dụ khác, do đó khái quát hóa các tình huống không được trình bày trong quá trình đào tạo (dựa trên sự thiên vị quy nạp của nó). Tuy nhiên, đặc biệt là trong trường hợp việc học được thực hiện quá lâu hoặc ví dụ đào tạo hiếm, người học có thể điều chỉnh các tính năng ngẫu nhiên rất cụ thể của dữ liệu đào tạo, không có mối quan hệ nhân quả với chức năng đích. Trong quá trình overfitting này, hiệu suất trên các ví dụ đào tạo vẫn tăng lên trong khi hiệu suất trên dữ liệu vô hình trở nên tồi tệ hơn.

trả lời 3. đọc trả lời 1 & 2.

bài viết Học giám sát trên wikipedia (http://en.wikipedia.org/wiki/Supervised_learning) sẽ cung cấp cho bạn cái nhìn sâu sắc hơn vào các yếu tố là gì mà rất quan trọng đối với bất kỳ hệ thống học tập được giám sát nào bao gồm Netowrks thần kinh. Bài viết nói về Kích thước của không gian đầu vào, số lượng dữ liệu đào tạo, tiếng ồn, vv ..

+0

Đây là giải thích tốt nhất về việc ghi đè tôi từng đọc và tôi đã đọc nhiều. Cảm ơn bạn. –

3

Số lượng lớp/nút phụ thuộc vào nhiệm vụ phân loại và những gì bạn mong đợi của NN. Về mặt lý thuyết, nếu bạn có một hàm/quyết định tuyến tính tách biệt (ví dụ hàm boolean AND), 1 lớp (tức là lớp đầu vào không có lớp ẩn) sẽ có thể tạo thành một siêu phẳng và sẽ là đủ. Nếu hàm của bạn không thể tách rời tuyến tính (ví dụ: XOR boolean), thì bạn cần các lớp ẩn.

Với 1 lớp ẩn, bạn có thể tạo thành bất kỳ khu vực lồi nào có thể không bị ràng buộc. Bất kỳ hàm liên tục bị giới hạn nào với một ánh xạ hữu hạn đều có thể được biểu diễn. Thông tin thêm về điều đó here.

2 lớp ẩn, mặt khác, có khả năng biểu diễn các ranh giới quyết định phức tạp tùy ý. Giới hạn duy nhất là số lượng nút. Trong một mạng lớp 2 ẩn điển hình, lớp đầu tiên tính toán các vùng và lớp thứ hai tính toán một phép toán AND (một cho mỗi hypercube). Cuối cùng, lớp đầu ra tính toán một phép toán OR.

Theo Kolmogorov's Theorem, tất cả các chức năng có thể được học bằng mạng lớp 2 ẩn và bạn không bao giờ cần nhiều hơn 2 lớp ẩn. Tuy nhiên, trên thực tế, lớp 1 lớp ẩn hầu như luôn hoạt động.

Tóm lại, sửa B = 0 cho các hàm có thể phân tách tuyến tính và B = 1 cho mọi thứ khác.

Đối với C và mối quan hệ của B và C, hãy xem The Number of Hidden Layers. Nó cung cấp thông tin chung và đề cập đến underfitting, overfitting.

Tác giả đề nghị một trong những cách sau như một quy luật của:

  • kích thước của lớp đầu vào < C < kích thước của lớp đầu ra.
  • C = 2/3 kích thước của lớp đầu vào, cộng với kích thước của lớp đầu ra.
  • C < hai lần kích thước của lớp đầu vào.