[ad_1]
Trước khi có CNN, cách chuẩn để đào tạo mạng nơ-ron phân loại hình ảnh là làm phẳng nó thành một danh sách các điểm ảnh và truyền qua mạng nơ-ron truyền thẳng để đưa ra lớp của hình ảnh. Vấn đề với việc làm phẳng hình ảnh là thông tin không gian cần thiết trong hình ảnh bị loại bỏ.
Năm 1989, Yann LeCun và nhóm đã giới thiệu Mạng thần kinh chuyển đổi – xương sống của nghiên cứu Thị giác máy tính trong 15 năm qua! Không giống như các mạng chuyển tiếp, CNN bảo toàn tính chất 2D của hình ảnh và có khả năng xử lý thông tin theo không gian!
Trong bài viết này, chúng ta sẽ điểm qua lịch sử của CNN dành riêng cho các nhiệm vụ Phân loại hình ảnh – bắt đầu từ những năm nghiên cứu đầu tiên vào những năm 90 cho đến kỷ nguyên vàng vào giữa những năm 2010 khi nhiều kiến trúc Deep Studying thiên tài nhất từng được hình thành , và cuối cùng thảo luận về các xu hướng mới nhất trong nghiên cứu của CNN hiện nay khi chúng cạnh tranh với những người thay đổi sự chú ý và tầm nhìn.
Kiểm tra video YouTube giải thích tất cả các khái niệm trong bài viết này một cách trực quan bằng hình ảnh động. Trừ khi có quy định khác, tất cả hình ảnh và minh họa được sử dụng trong bài viết này đều do tôi tạo ra trong quá trình tạo phiên bản video.
Trọng tâm của CNN là phép toán tích chập. Chúng tôi quét bộ lọc trên hình ảnh và tính tích số chấm của bộ lọc với hình ảnh tại mỗi vị trí chồng chéo. Kết quả đầu ra này được gọi là bản đồ đặc trưng và nó ghi lại mức độ cũng như vị trí của mẫu bộ lọc trong hình ảnh.
Trong lớp tích chập, chúng tôi huấn luyện nhiều bộ lọc trích xuất các bản đồ đặc trưng khác nhau từ hình ảnh đầu vào. Khi chúng ta xếp chồng nhiều lớp tích chập theo trình tự với một số tính chất phi tuyến tính, chúng ta sẽ có được một mạng nơ ron tích chập (CNN).
Vì vậy, mỗi lớp tích chập đồng thời thực hiện 2 việc –
1. lọc không gian với hoạt động tích chập giữa hình ảnh và hạt nhân, và
2. kết hợp nhiều kênh đầu vào và xuất ra một tập hợp các kênh mới.
90% nghiên cứu của CNN là nhằm sửa đổi hoặc cải thiện hai điều này.
Bài báo năm 1989
Bài báo năm 1989 này dạy chúng ta cách huấn luyện CNN phi tuyến tính từ đầu bằng cách sử dụng backpropagation. Họ nhập hình ảnh thang độ xám 16×16 của các chữ số viết tay và chuyển qua hai lớp tích chập với 12 bộ lọc có kích thước 5×5. Các bộ lọc cũng di chuyển với bước nhảy là 2 trong quá trình quét. Tích chập bước nhảy hữu ích để hạ mẫu hình ảnh đầu vào. Sau các lớp tích chập, các bản đồ đầu ra được làm phẳng và chuyển qua hai mạng được kết nối hoàn toàn để đưa ra xác suất cho 10 chữ số. Sử dụng mất mát entropy chéo softmax, mạng được tối ưu hóa để dự đoán các nhãn chính xác cho các chữ số viết tay. Sau mỗi lớp, phi tuyến tính tanh cũng được sử dụng — cho phép các bản đồ đặc trưng đã học trở nên phức tạp và biểu cảm hơn. Với chỉ 9760 tham số, đây là một mạng rất nhỏ so với các mạng hiện nay chứa hàng trăm triệu tham số.
Độ lệch cảm ứng
Lệch cảm ứng là một khái niệm trong Học máy, trong đó chúng ta cố tình đưa các quy tắc và hạn chế cụ thể vào quá trình học để đưa mô hình của mình ra khỏi phạm vi khái quát và hướng tới các giải pháp phù hợp hơn với sự hiểu biết của con người.
Khi con người phân loại hình ảnh, chúng ta cũng thực hiện lọc không gian tìm kiếm các mẫu chung để hình thành nhiều biểu diễn và sau đó kết hợp chúng lại với nhau để tạo thành dự đoán của chúng tôi. Kiến trúc CNN được thiết kế để tái tạo điều đó. Trong các mạng chuyển tiếp, mỗi pixel được xử lý giống như tính năng biệt lập của riêng nó vì mỗi nơ-ron trong các lớp kết nối với tất cả các pixel – trong CNN có nhiều chia sẻ tham số hơn vì cùng một bộ lọc quét toàn bộ hình ảnh. Các thành kiến quy nạp cũng làm cho CNN ít ngốn dữ liệu hơn vì chúng nhận được nhận dạng mẫu cục bộ miễn phí do thiết kế mạng nhưng các mạng chuyển tiếp cần phải dành chu kỳ đào tạo của mình để tìm hiểu về nó từ đầu.
[ad_2]
Source link