شبکه های عصبی کانولوشنال (CNN) نوعی شبکه عصبی هستند که برای پردازش داده های شبکه مانند تصاویر یا صدا طراحی شده اند. آنها به ویژه برای کارهای طبقه بندی تصویر مفید هستند، جایی که داده های ورودی یک آرایه دو بعدی از پیکسل ها هستند و هدف شناسایی اشیا یا ویژگی های موجود در تصویر است.
CNN ها از ساختار قشر بینایی در مغز انسان الهام گرفته شده اند که دارای سلول های تخصصی است که به ویژگی های خاص مانند لبه ها و بافت ها در ورودی بصری پاسخ می دهند. در CNN، هر لایه از مجموعهای از فیلترها یا هستهها تشکیل میشود که ماتریسهای کوچکی هستند که برای شناسایی ویژگیهای خاص روی دادههای ورودی میچرخند. فیلترها در طول آموزش یاد میگیرند و شبکه بهطور خودکار کشف میکند که کدام ویژگیها برای کار مورد نظر مرتبط هستند.

CNN ها همچنین از لایه های ادغام استفاده می کنند که با خلاصه کردن اطلاعات در محله های محلی، ابعاد خروجی لایه قبلی را کاهش می دهد. متداول ترین نوع ادغام حداکثر ادغام است که حداکثر مقدار در هر محله به عنوان خروجی در نظر گرفته می شود.
CNN ها معمولاً از چندین لایه کانولوشن تشکیل شده اند و به دنبال آن یک یا چند لایه کاملاً متصل هستند که خروجی لایه های کانولوشن را پردازش کرده و پیش بینی می کنند. کل شبکه از انتها به انتها با استفاده از پس انتشار آموزش داده می شود، که در آن وزن ها در فیلترها و لایه های کاملا متصل تنظیم می شوند تا خطا بین خروجی پیش بینی شده و خروجی واقعی به حداقل برسد.
CNN ها در بسیاری از کاربردها مانند طبقه بندی تصویر، تشخیص اشیا و تشخیص چهره استفاده شده اند. آنها در بسیاری از مجموعه داده های معیار به عملکرد پیشرفته ای دست یافته اند و ابزار قدرتمندی برای حل مشکلات پیچیده بینایی کامپیوتری هستند.