अगर आपने कभी अपने चेहरे से अपना फ़ोन अनलॉक किया है, रसीद स्कैन की है, या सेल्फ-चेकआउट मशीन के कैमरे को घूरते हुए सोचा है कि क्या वह आपके एवोकाडो को देखकर उसका मूल्यांकन कर रहा है, तो आप कंप्यूटर विज़न से थोड़ा बहुत परिचित हो चुके हैं। सरल शब्दों में कहें तो, कृत्रिम बुद्धिमत्ता में कंप्यूटर विज़न वह प्रक्रिया है जिसके द्वारा मशीनें देखकर और समझकर निर्णय लेना सीखती हैं। उपयोगी? बिल्कुल। कभी-कभी आश्चर्यजनक? हाँ, बिल्कुल। और ईमानदारी से कहें तो कभी-कभी थोड़ा डरावना भी। अपने सर्वोत्तम रूप में, यह अव्यवस्थित पिक्सेल को व्यावहारिक कार्यों में बदल देता है। अपने सबसे बुरे रूप में, यह अनुमान लगाता है और लड़खड़ाता है। आइए इसे विस्तार से समझते हैं।
इस लेख के बाद आप ये लेख भी पढ़ सकते हैं:
🔗 एआई पूर्वाग्रह क्या है?
एआई सिस्टम में पूर्वाग्रह कैसे बनता है और इसे पहचानने और कम करने के तरीके।
🔗 प्रेडिक्टिव एआई क्या है?
प्रेडिक्टिव एआई रुझानों और परिणामों का अनुमान लगाने के लिए डेटा का उपयोग कैसे करता है?
🔗 एआई ट्रेनर क्या होता है?
एआई को प्रशिक्षित करने वाले पेशेवरों की जिम्मेदारियां, कौशल और उपयोग किए जाने वाले उपकरण।
🔗 गूगल वर्टेक्स एआई क्या है? यह
मॉडल बनाने और तैनात करने के लिए गूगल के एकीकृत एआई प्लेटफॉर्म का अवलोकन है।
कृत्रिम बुद्धिमत्ता में कंप्यूटर विज़न वास्तव में क्या है? 📸
कृत्रिम बुद्धिमत्ता में कंप्यूटर विज़न कृत्रिम बुद्धिमत्ता की वह शाखा है जो कंप्यूटरों को दृश्य डेटा की व्याख्या और तर्क करना सिखाती है। यह कच्चे पिक्सेल से संरचित अर्थ तक की प्रक्रिया है: "यह एक स्टॉप साइन है," "ये पैदल यात्री हैं," "वेल्ड दोषपूर्ण है," "चालान का कुल योग यहाँ है।" इसमें वर्गीकरण, पहचान, विभाजन, ट्रैकिंग, गहराई अनुमान, ओसीआर और अन्य कार्य शामिल हैं - जिन्हें पैटर्न-लर्निंग मॉडल द्वारा एक साथ जोड़ा जाता है। औपचारिक क्षेत्र क्लासिक ज्यामिति से लेकर आधुनिक डीप लर्निंग तक फैला हुआ है, जिसमें व्यावहारिक प्लेबुक हैं जिन्हें आप कॉपी और संशोधित कर सकते हैं। [1]
एक छोटा सा उदाहरण: कल्पना कीजिए कि एक पैकेजिंग लाइन में एक साधारण 720p कैमरा लगा है। एक हल्का डिटेक्टर ढक्कनों को पहचानता है, और एक साधारण ट्रैकर बोतल को हरी झंडी देने से पहले लगातार पांच फ्रेम तक उनकी सही स्थिति की पुष्टि करता है। यह कोई आधुनिक तकनीक नहीं है, लेकिन सस्ता, तेज़ है और इससे काम में दोहराव कम होता है।
कृत्रिम बुद्धिमत्ता में कंप्यूटर विज़न को उपयोगी क्या बनाता है? ✅
-
संकेत से कार्रवाई तक का प्रवाह : दृश्य इनपुट एक कार्रवाई योग्य आउटपुट में बदल जाता है। डैशबोर्ड पर कम, निर्णय पर अधिक ध्यान।
-
सामान्यीकरण : सही डेटा के साथ, एक मॉडल कई प्रकार की छवियों को संभाल सकता है। पूरी तरह से नहीं, लेकिन कभी-कभी आश्चर्यजनक रूप से अच्छा प्रदर्शन करता है।
-
डेटा का लाभ उठाना : कैमरे सस्ते हैं और हर जगह उपलब्ध हैं। दृष्टि पिक्सेल के उस विशाल सागर को अंतर्दृष्टि में बदल देती है।
-
गति : मॉडल सामान्य हार्डवेयर पर वास्तविक समय में या कार्य और रिज़ॉल्यूशन के आधार पर लगभग वास्तविक समय में फ्रेम को संसाधित कर सकते हैं।
-
संयोजनशीलता : सरल चरणों को विश्वसनीय प्रणालियों में संयोजित करना: पहचान → ट्रैकिंग → गुणवत्ता नियंत्रण।
-
पारिस्थितिकी तंत्र : उपकरण, पूर्व-प्रशिक्षित मॉडल, बेंचमार्क और सामुदायिक समर्थन - कोड का एक विशाल बाज़ार।
सच कहें तो, सफलता का रहस्य कोई रहस्य नहीं है: अच्छा डेटा, अनुशासित मूल्यांकन, सावधानीपूर्वक कार्यान्वयन। बाकी सब अभ्यास की बात है... और शायद कॉफी की भी। ☕
कृत्रिम बुद्धिमत्ता में कंप्यूटर विज़न कैसे काम करता है, एक सुव्यवस्थित प्रक्रिया के माध्यम से 🧪
-
इमेज कैप्चर करने के लिए
कैमरे, स्कैनर, ड्रोन, फोन का इस्तेमाल करें। सेंसर का प्रकार, एक्सपोज़र, लेंस और फ्रेम रेट का चुनाव सावधानी से करें। गलत इनपुट से नुकसान हो सकता है। -
प्रीप्रोसेसिंग:
आवश्यकतानुसार आकार बदलें, क्रॉप करें, सामान्य करें, धुंधलापन दूर करें या शोर हटाएँ। कभी-कभी थोड़ा सा कंट्रास्ट एडजस्टमेंट भी बहुत बड़ा बदलाव ला सकता है। [4] -
लेबल और डेटासेट:
बाउंडिंग बॉक्स, पॉलीगॉन, कीपॉइंट, टेक्स्ट स्पैन। संतुलित और प्रतिनिधि लेबल—अन्यथा आपका मॉडल असंतुलित आदतें सीख लेगा। -
मोडलिंग
-
वर्गीकरण : "कौन सी श्रेणी?"
-
पहचान : "वस्तुएँ कहाँ हैं?"
-
विभाजन : "कौन से पिक्सेल किस चीज़ से संबंधित हैं?"
-
मुख्य बिंदु एवं प्रश्न : "जोड़ या महत्वपूर्ण बिंदु कहाँ हैं?"
-
ओसीआर : "छवि में कौन सा पाठ है?"
-
गहराई और 3डी : "सब कुछ कितनी दूर है?"
आर्किटेक्चर अलग-अलग होते हैं, लेकिन कनवोल्यूशनल नेट और ट्रांसफॉर्मर-शैली मॉडल हावी हैं। [1]
-
-
प्रशिक्षण के लिए
डेटा को विभाजित करें, हाइपरपैरामीटर को ट्यून करें, नियमित करें, संवर्द्धन करें। वॉलपेपर को याद करने से पहले ही प्रारंभिक रोकथाम करें। -
मूल्यांकन
कार्य-उपयुक्त मेट्रिक्स जैसे mAP, IoU, F1, CER/WER का उपयोग OCR के लिए करें। चुन-चुनकर उपयोग न करें। निष्पक्ष तुलना करें। [3] -
परिनियोजन
को अनुकूलित करें: क्लाउड बैच जॉब, ऑन-डिवाइस इन्फ़रेंस, एज सर्वर। विचलन की निगरानी करें। जब परिस्थितियाँ बदलें तो पुनः प्रशिक्षित करें।
बड़े डेटासेट और कंप्यूटिंग क्षमता के महत्वपूर्ण स्तर पर पहुँचने के बाद डीप नेट ने गुणात्मक छलांग को उत्प्रेरित किया। इमेजनेट चुनौती जैसे बेंचमार्क ने उस प्रगति को दृश्यमान और निरंतर बना दिया। [2]
वे मुख्य कार्य जिनका आप वास्तव में उपयोग करेंगे (और कब) 🧩
-
छवि वर्गीकरण : प्रति छवि एक लेबल। त्वरित फ़िल्टर, छँटाई या गुणवत्ता नियंत्रण के लिए उपयोग करें।
-
वस्तु पहचान : वस्तुओं के चारों ओर बॉक्स बनाना। खुदरा बिक्री में होने वाले नुकसान की रोकथाम, वाहनों की पहचान, वन्यजीवों की गिनती।
-
उदाहरण विभाजन : प्रत्येक वस्तु के लिए पिक्सेल-सटीक आकृतियाँ। विनिर्माण दोष, शल्य चिकित्सा उपकरण, कृषि तकनीक।
-
सिमेंटिक सेगमेंटेशन : इंस्टेंसेस को अलग किए बिना प्रति पिक्सेल क्लास। शहरी सड़क दृश्य, भूमि आवरण।
-
प्रमुख बिंदुओं का पता लगाना और मुद्रा : जोड़, महत्वपूर्ण स्थलचिह्न, चेहरे की विशेषताएं। खेल विश्लेषण, एर्गोनॉमिक्स, आर्टिफिशियल इंटेलिजेंस।
-
ट्रैकिंग : समय के साथ वस्तुओं का अनुसरण करना। रसद, यातायात, सुरक्षा।
-
OCR और दस्तावेज़ AI : पाठ निष्कर्षण और लेआउट विश्लेषण। चालान, रसीदें, प्रपत्र।
-
डेप्थ और 3डी : कई दृश्यों या एक-नेत्रीय संकेतों से पुनर्निर्माण। रोबोटिक्स, एआर, मैपिंग।
-
दृश्य कैप्शनिंग : दृश्यों का सरल भाषा में सारांश प्रस्तुत करें। सुलभता, खोज।
-
विज़न-लैंग्वेज मॉडल : मल्टीमॉडल रीजनिंग, रिट्रीवल-ऑगमेंटेड विज़न, ग्राउंडेड क्यूए।
छोटे से काम का माहौल: दुकानों में, एक डिटेक्टर शेल्फ पर रखे सामान के गायब होने का संकेत देता है; एक ट्रैकर कर्मचारियों द्वारा सामान भरते समय दोहरी गिनती को रोकता है; एक सरल नियम कम भरोसेमंद फ्रेम को मानवीय समीक्षा के लिए भेजता है। यह एक छोटा सा ऑर्केस्ट्रा है जो ज्यादातर समय सही ताल में रहता है।
तुलना तालिका: तेजी से शिपिंग करने के उपकरण 🧰
जानबूझकर थोड़ा अटपटा बनाया है। हाँ, स्पेसिंग थोड़ी अजीब है - मुझे पता है।.
| उपकरण / ढांचा | के लिए सर्वश्रेष्ठ | लाइसेंस/कीमत | व्यवहार में यह कैसे काम करता है? |
|---|---|---|---|
| ओपनसीवी | प्रीप्रोसेसिंग, क्लासिक सीवी, त्वरित पीओसी | मुफ़्त - ओपन सोर्स | विशाल टूलबॉक्स, स्थिर एपीआई, युद्ध-परीक्षित; कभी-कभी आपको बस यही चाहिए होता है। [4] |
| पायटॉर्च | अनुसंधान-अनुकूल प्रशिक्षण | मुक्त | गतिशील ग्राफ, विशाल पारिस्थितिकी तंत्र, कई ट्यूटोरियल।. |
| टेन्सरफ्लो/केरस | बड़े पैमाने पर उत्पादन | मुक्त | परोसने के लिए उपयुक्त, मोबाइल और फ्रिज में रखने के लिए भी बढ़िया।. |
| अल्ट्रालाइटिक्स योलो | तेज़ वस्तु पहचान | मुफ़्त + सशुल्क ऐड-ऑन | आसान प्रशिक्षण लूप, प्रतिस्पर्धी गति-सटीकता, राय रखने वाला लेकिन आरामदायक।. |
| डिटेक्ट्रॉन2 / एमएमडिटेक्शन | मजबूत आधार रेखाएं, विभाजन | मुक्त | पुनरुत्पादनीय परिणामों वाले संदर्भ-स्तरीय मॉडल।. |
| ओपनवीएनओ / ओएनएनएक्स रनटाइम | अनुमान अनुकूलन | मुक्त | लेटेंसी को कम करें, बिना कोड को दोबारा लिखे व्यापक रूप से तैनात करें।. |
| टेसेरैक्ट | कम बजट में OCR | मुक्त | अगर आप इमेज को साफ कर लें तो यह ठीक-ठाक काम करता है... कभी-कभी तो वाकई ऐसा करना जरूरी होता है।. |
एआई में कंप्यूटर विज़न की गुणवत्ता को कौन सी चीज़ें प्रभावित करती हैं ? 🔧
-
डेटा कवरेज : प्रकाश में परिवर्तन, कोण, पृष्ठभूमि, विषम परिस्थितियाँ। यदि संभव हो, तो इसे शामिल करें।
-
लेबल की गुणवत्ता : अनियमित बॉक्स या अव्यवस्थित बहुभुज मैप को खराब कर देते हैं। थोड़ी सी गुणवत्ता नियंत्रण से बहुत फायदा होता है।
-
स्मार्ट संवर्द्धन : क्रॉप करें, घुमाएँ, चमक में उतार-चढ़ाव लाएँ, कृत्रिम शोर जोड़ें। यथार्थवादी बनें, अव्यवस्थित नहीं।
-
मॉडल-चयन उपयुक्तता : जहां पहचान की आवश्यकता हो, वहां पहचान का उपयोग करें - किसी क्लासिफायर को स्थानों का अनुमान लगाने के लिए बाध्य न करें।
-
प्रभाव के अनुरूप मापदंड : यदि गलत नकारात्मक परिणाम अधिक हानिकारक हैं, तो रिकॉल को अनुकूलित करें। यदि गलत सकारात्मक परिणाम अधिक हानिकारक हैं, तो पहले परिशुद्धता पर ध्यान दें।
-
मजबूत फीडबैक लूप : विफलताओं को लॉग करें, पुनः लेबल करें, पुनः प्रशिक्षित करें। यही प्रक्रिया बार-बार दोहराएं। थोड़ा उबाऊ, लेकिन बेहद प्रभावी।
पहचान/विभाजन के लिए, सामुदायिक मानक IoU थ्रेशोल्ड में औसत परिशुद्धता COCO-शैली mAP जाता है। यह जानना कि IoU और AP@{0.5:0.95} की गणना कैसे की जाती है, लीडरबोर्ड के दावों को दशमलव से चकाचौंध करने से रोकता है। [3]
वास्तविक दुनिया के उपयोग के उदाहरण जो काल्पनिक नहीं हैं 🌍
-
खुदरा बिक्री : शेल्फ विश्लेषण, नुकसान की रोकथाम, कतार की निगरानी, प्लानोग्राम अनुपालन।
-
विनिर्माण : सतह दोष का पता लगाना, असेंबली सत्यापन, रोबोट मार्गदर्शन।
-
स्वास्थ्य सेवा : रेडियोलॉजी ट्राइएज, उपकरण पहचान, कोशिका विभाजन।
-
गतिशीलता : एडीएएस, ट्रैफिक कैमरे, पार्किंग में वाहनों की उपलब्धता, माइक्रोमोबिलिटी ट्रैकिंग।
-
कृषि : फसलों की गिनती, रोगों की पहचान, कटाई की तैयारी।
-
बीमा और वित्त : क्षति मूल्यांकन, केवाईसी जांच, धोखाधड़ी की पहचान।
-
निर्माण और ऊर्जा : सुरक्षा अनुपालन, रिसाव का पता लगाना, जंग की निगरानी।
-
विषयवस्तु एवं अभिगम्यता : स्वचालित कैप्शन, मॉडरेशन, दृश्य खोज।
आपको एक पैटर्न नज़र आएगा: मैन्युअल स्कैनिंग को स्वचालित ट्राइएज से बदलें, और जब भरोसा कम हो जाए तो मामले को मानव नियंत्रण में ले लें। यह देखने में आकर्षक नहीं है, लेकिन यह कारगर है।.
डेटा, लेबल और महत्वपूर्ण मापदंड 📊
-
वर्गीकरण : सटीकता, असंतुलन के लिए F1।
-
पहचान : IoU थ्रेशोल्ड के पार mAP; प्रति-वर्ग AP और आकार बकेट का निरीक्षण करें। [3]
-
विभाजन : एमआईओयू, डाइस; इंस्टेंस-स्तर की त्रुटियों की भी जांच करें।
-
ट्रैकिंग : MOTA, IDF1; पुनः पहचान की गुणवत्ता ही असली हीरो है।
-
ओसीआर : वर्ण त्रुटि दर (सीईआर) और शब्द त्रुटि दर (डब्ल्यूईआर); लेआउट संबंधी त्रुटियां अक्सर हावी रहती हैं।
-
रिग्रेशन कार्य : गहराई या पोज़ में निरपेक्ष/सापेक्ष त्रुटियों का उपयोग किया जाता है (अक्सर लॉग स्केल पर)।
अपनी मूल्यांकन प्रक्रिया को दस्तावेज़ में दर्ज करें ताकि दूसरे लोग इसे दोहरा सकें। यह देखने में आकर्षक नहीं लगता, लेकिन इससे आप ईमानदार बने रहते हैं।.
निर्माण बनाम खरीद - और इसे कहाँ संचालित किया जाए 🏗️
-
क्लाउड : शुरुआत करने में सबसे आसान, बैच वर्कलोड के लिए बेहतरीन। निकास लागतों पर ध्यान दें।
-
एज डिवाइस : कम लेटेंसी और बेहतर गोपनीयता। आपको क्वांटाइजेशन, प्रूनिंग और एक्सेलेरेटर की आवश्यकता होगी।
-
डिवाइस पर मोबाइल : सही फिट होने पर शानदार। मॉडल को ऑप्टिमाइज़ करें और बैटरी पर नज़र रखें।
-
हाइब्रिड : किनारे पर प्री-फ़िल्टर, क्लाउड में भारी काम। एक अच्छा समझौता।
एक उबाऊ रूप से विश्वसनीय स्टैक: PyTorch के साथ प्रोटोटाइप करें, एक मानक डिटेक्टर को प्रशिक्षित करें, ONNX में निर्यात करें, OpenVINO/ONNX रनटाइम के साथ गति बढ़ाएं, और प्रीप्रोसेसिंग और ज्यामिति (कैलिब्रेशन, होमोग्राफी, मॉर्फोलॉजी) के लिए OpenCV का उपयोग करें। [4]
जोखिम, नैतिकता और उन मुश्किल पहलुओं के बारे में बात करना ⚖️
विज़न सिस्टम डेटासेट पूर्वाग्रहों या परिचालन संबंधी कमियों को विरासत में प्राप्त कर सकते हैं। स्वतंत्र मूल्यांकन (जैसे, NIST FRVT) ने एल्गोरिदम और स्थितियों के आधार पर चेहरे की पहचान त्रुटि दरों में जनसांख्यिकीय अंतर को मापा है। यह घबराने का कारण नहीं है, लेकिन है । यदि आप पहचान या सुरक्षा से संबंधित उपयोग के मामलों को लागू करते हैं, तो मानवीय समीक्षा और अपील तंत्र शामिल करें। गोपनीयता, सहमति और पारदर्शिता वैकल्पिक अतिरिक्त सुविधाएं नहीं हैं। [5]
एक त्वरित शुरुआत का रोडमैप जिसे आप वास्तव में फॉलो कर सकते हैं 🗺️
-
निर्णय को परिभाषित करें:
छवि देखने के बाद सिस्टम को क्या कार्रवाई करनी चाहिए? इससे आप दिखावटी मेट्रिक्स को ऑप्टिमाइज़ करने से बचेंगे। -
कुछ चुनिंदा तस्वीरों का एक छोटा सा डेटासेट इकट्ठा करें।
अपने वास्तविक परिवेश को दर्शाने वाली कुछ सौ तस्वीरों से शुरुआत करें। उन्हें ध्यान से लेबल करें—भले ही उनमें आप और तीन स्टिकी नोट्स ही क्यों न हों। -
एक आधारभूत मॉडल चुनें।
पूर्वप्रशिक्षित भारों के साथ एक सरल आधार चुनें। अभी जटिल आर्किटेक्चरों के पीछे न भागें। [1] -
प्रशिक्षण दें, रिकॉर्ड करें और मूल्यांकन करें।
ट्रैक मेट्रिक्स, भ्रम के बिंदु और विफलता के तरीके नोट करें। बर्फ, चकाचौंध, प्रतिबिंब, अजीब फ़ॉन्ट जैसी असामान्य स्थितियों के लिए एक नोटबुक रखें। -
लूप को कसें।
कठोर नकारात्मक जोड़ें, लेबल विचलन को ठीक करें, संवर्द्धन को समायोजित करें और थ्रेशोल्ड को पुनः ट्यून करें। छोटे-छोटे बदलाव मिलकर बड़ा प्रभाव डालते हैं। [3] -
एक सरल संस्करण तैनात करें
और निर्यात करें। वास्तविक वातावरण में लेटेंसी/थ्रूपुट को मापें, न कि किसी दिखावटी बेंचमार्क में। -
निगरानी करें और सुधार करें।
त्रुटियों को इकट्ठा करें, पुनः लेबल करें और पुनः प्रशिक्षित करें। समय-समय पर मूल्यांकन निर्धारित करें ताकि आपका मॉडल निष्क्रिय न हो जाए।
एक ज़रूरी सलाह: अपने सबसे शंकालु साथी द्वारा बनाए गए एक छोटे से अड़चन भरे सेट पर टिप्पणी लिख लें। अगर वे उसमें कोई खामी नहीं निकाल पाते, तो शायद आप तैयार हैं।
कुछ आम गलतियाँ जिनसे आपको बचना चाहिए 🧨
-
साफ-सुथरी स्टूडियो तस्वीरों पर प्रशिक्षण, फिर लेंस पर बारिश की बूंदों के साथ वास्तविक दुनिया में इसका उपयोग करना।.
-
जब आप वास्तव में किसी एक महत्वपूर्ण वर्ग की परवाह करते हैं तो समग्र mAP के लिए अनुकूलन करना। [3]
-
वर्ग असंतुलन को नजरअंदाज करना और फिर यह आश्चर्य करना कि दुर्लभ घटनाएं क्यों गायब हो जाती हैं।.
-
मॉडल द्वारा कृत्रिम कलाकृतियों को सीखने तक अत्यधिक संवर्धन करना।.
-
कैमरा कैलिब्रेशन को छोड़ देना और फिर परिप्रेक्ष्य त्रुटियों से हमेशा के लिए जूझना। [4]
-
सटीक मूल्यांकन सेटअप को दोहराए बिना लीडरबोर्ड संख्याओं पर विश्वास करना। [2][3]
बुकमार्क करने लायक स्रोत 🔗
यदि आपको प्राथमिक सामग्री और पाठ्यक्रम नोट्स पसंद हैं, तो ये मूलभूत सिद्धांतों, अभ्यास और बेंचमार्क के लिए बहुत उपयोगी हैं। संदर्भ अनुभाग में दिए गए लिंक देखें: CS231n नोट्स, ImageNet चैलेंज पेपर, COCO डेटासेट/मूल्यांकन दस्तावेज़, OpenCV दस्तावेज़ और NIST FRVT रिपोर्ट। [1][2][3][4][5]
अंतिम टिप्पणी - या यूं कहें कि बहुत लंबा था, इसलिए पढ़ नहीं पाया 🍃
कृत्रिम बुद्धिमत्ता में कंप्यूटर विज़न पिक्सेल को निर्णयों में बदल देता है। यह तब बेहतरीन परिणाम देता है जब आप सही कार्य को सही डेटा के साथ जोड़ते हैं, सही चीजों को मापते हैं और असाधारण अनुशासन के साथ बार-बार प्रयास करते हैं। इसमें भरपूर उपकरण उपलब्ध हैं, बेंचमार्क सार्वजनिक हैं, और यदि आप अंतिम निर्णय पर ध्यान केंद्रित करते हैं तो प्रोटोटाइप से उत्पादन तक का रास्ता आश्चर्यजनक रूप से छोटा है। अपने लक्ष्य स्पष्ट रखें, प्रभाव से मेल खाने वाले मेट्रिक्स चुनें, और बाकी काम मॉडल पर छोड़ दें। और अगर एक उदाहरण मददगार हो तो इसे ऐसे समझें जैसे किसी बहुत तेज़ लेकिन सीधे-सादे प्रशिक्षु को महत्वपूर्ण चीजों को पहचानना सिखाना। आप उदाहरण दिखाते हैं, गलतियाँ सुधारते हैं, और धीरे-धीरे उसे वास्तविक काम सौंपते हैं। यह एकदम सही तो नहीं है, लेकिन इतना करीब है कि परिवर्तनकारी साबित हो सकता है। 🌟
संदर्भ
-
CS231n: कंप्यूटर विज़न के लिए डीप लर्निंग (पाठ्यक्रम नोट्स) - स्टैनफोर्ड विश्वविद्यालय।
और पढ़ें -
ImageNet Large Scale Visual Recognition Challenge (शोध पत्र) - Russakovsky et al.
अधिक पढ़ें -
COCO डेटासेट और मूल्यांकन - आधिकारिक वेबसाइट (कार्य परिभाषाएँ और mAP/IoU नियम)।
अधिक पढ़ें -
OpenCV प्रलेखन (v4.x) - प्रीप्रोसेसिंग, कैलिब्रेशन, मॉर्फोलॉजी आदि के लिए मॉड्यूल
। अधिक पढ़ें -
NIST FRVT भाग 3: जनसांख्यिकीय प्रभाव (NISTIR 8280) - विभिन्न जनसांख्यिकीय समूहों में चेहरे की पहचान की सटीकता का स्वतंत्र मूल्यांकन।
और पढ़ें