न्यूरल नेटवर्क शुरू में रहस्यमय लगते हैं, लेकिन जब ऐसा होता है तो ये स्पष्ट हो जाते हैं। अगर आपने कभी सोचा है कि कृत्रिम बुद्धिमत्ता में न्यूरल नेटवर्क क्या है? और क्या यह सिर्फ गणित का एक जटिल रूप है? तो आप सही जगह पर हैं। हम इसे व्यावहारिक रखेंगे, बीच-बीच में कुछ रोचक बातें भी शामिल करेंगे, और हां - कुछ इमोजी का भी इस्तेमाल करेंगे। आप यह जानकर जाएंगे कि ये सिस्टम क्या हैं, ये कैसे काम करते हैं, इनमें क्या कमियां हैं, और इनके बारे में सरल भाषा में कैसे बात करें।
इस लेख के बाद आप ये लेख भी पढ़ सकते हैं:
🔗 एआई पूर्वाग्रह क्या है?
एआई सिस्टम में मौजूद पूर्वाग्रह को समझना और निष्पक्षता सुनिश्चित करने की रणनीतियाँ।.
🔗 प्रेडिक्टिव एआई क्या है?
भविष्यसूचक एआई किस प्रकार पैटर्न का उपयोग करके भविष्य के परिणामों का पूर्वानुमान लगाता है।.
🔗 एआई ट्रेनर क्या है?
एआई को प्रशिक्षित करने वाले पेशेवरों की भूमिका और जिम्मेदारियों का अन्वेषण करना।.
🔗 कृत्रिम बुद्धिमत्ता में कंप्यूटर विज़न क्या है?
कंप्यूटर विज़न के माध्यम से एआई किस प्रकार दृश्य डेटा की व्याख्या और विश्लेषण करता है।.
कृत्रिम बुद्धिमत्ता में न्यूरल नेटवर्क क्या है? इसका 10 सेकंड का संक्षिप्त उत्तर ⏱️
न्यूरल नेटवर्क न्यूरॉन्स नामक सरल गणना इकाइयों का एक समूह होता है जो संख्याओं को आगे बढ़ाते हैं, प्रशिक्षण के दौरान अपने कनेक्शन की मजबूती को समायोजित करते हैं और धीरे-धीरे डेटा में पैटर्न सीखते हैं। जब आप डीप लर्निंग , तो इसका आमतौर पर मतलब कई परतों वाले न्यूरल नेटवर्क से होता है, जो आपके द्वारा मैन्युअल रूप से कोड करने के बजाय स्वचालित रूप से विशेषताओं को सीखता है। दूसरे शब्दों में: बहुत सारे छोटे गणितीय घटक, चतुराई से व्यवस्थित, डेटा पर तब तक प्रशिक्षित किए जाते हैं जब तक वे उपयोगी न हो जाएं [1]।
न्यूरल नेटवर्क को उपयोगी क्या बनाता है? ✅
-
प्रतिनिधित्व शक्ति : सही वास्तुकला और आकार के साथ, नेटवर्क बेहद जटिल कार्यों का अनुमान लगा सकते हैं (सार्वभौमिक सन्निकटन प्रमेय देखें) [4]।
-
एंड-टू-एंड लर्निंग : सुविधाओं को मैन्युअल रूप से तैयार करने के बजाय, मॉडल उन्हें खोजता है [1]।
-
सामान्यीकरण : एक अच्छी तरह से नियमित नेटवर्क केवल याद नहीं करता है - यह नए, अनदेखे डेटा पर प्रदर्शन करता है [1]।
-
स्केलेबिलिटी : बड़े डेटासेट और बड़े मॉडल अक्सर परिणामों में सुधार करते रहते हैं... व्यावहारिक सीमाओं तक जैसे कि कंप्यूट और डेटा गुणवत्ता [1]।
-
स्थानांतरणीयता : एक कार्य में सीखी गई विशेषताएं दूसरे में मदद कर सकती हैं (स्थानांतरण सीखना और फाइन-ट्यूनिंग) [1]।
संक्षिप्त फील्ड नोट (उदाहरण परिदृश्य): एक छोटी उत्पाद-वर्गीकरण टीम हाथ से निर्मित विशेषताओं को एक कॉम्पैक्ट सीएनएन से बदल देती है, सरल संवर्द्धन (फ्लिप/क्रॉप) जोड़ती है, और सत्यापन त्रुटि में कमी देखती है - इसलिए नहीं कि नेटवर्क "जादुई" है, बल्कि इसलिए कि इसने सीधे पिक्सेल से अधिक उपयोगी विशेषताएं सीख ली हैं।
सरल शब्दों में कहें तो, एक अटपटी उपमा के साथ, "एआई में न्यूरल नेटवर्क क्या है?" 🍞
एक बेकरी लाइन की कल्पना कीजिए। सामग्री डाली जाती है, कर्मचारी रेसिपी में बदलाव करते हैं, स्वाद परीक्षक शिकायत करते हैं, और टीम रेसिपी को फिर से अपडेट करती है। एक नेटवर्क में, इनपुट परतों के माध्यम से प्रवाहित होते हैं, हानि फ़ंक्शन आउटपुट को ग्रेड करता है, और ग्रेडिएंट अगली बार बेहतर प्रदर्शन करने के लिए भार को प्रेरित करते हैं। रूपक के रूप में यह एकदम सही नहीं है - ब्रेड का अवकलन नहीं किया जा सकता - लेकिन यह समझ में आता है [1]।.
तंत्रिका नेटवर्क की संरचना 🧩
-
न्यूरॉन्स : भारित योग और सक्रियण फ़ंक्शन को लागू करने वाले छोटे कैलकुलेटर।
-
भार और पूर्वाग्रह : समायोज्य नॉब जो यह परिभाषित करते हैं कि सिग्नल कैसे संयोजित होते हैं।
-
परतें : इनपुट परत डेटा प्राप्त करती है, छिपी हुई परतें इसे रूपांतरित करती हैं, आउटपुट परत भविष्यवाणी करती है।
-
सक्रियण फ़ंक्शन : ReLU, सिग्मॉइड, टैन्ह और सॉफ्टमैक्स जैसे गैर-रेखीय ट्विस्ट सीखने को लचीला बनाते हैं।
-
हानि फलन : भविष्यवाणी कितनी गलत है, इसका एक स्कोर (वर्गीकरण के लिए क्रॉस-एंट्रोपी, प्रतिगमन के लिए एमएसई)।
-
ऑप्टिमाइज़र : एसजीडी या एडम जैसे एल्गोरिदम वज़न को अपडेट करने के लिए ग्रेडिएंट का उपयोग करते हैं।
-
रेगुलराइजेशन : मॉडल को ओवरफिटिंग से बचाने के लिए ड्रॉपआउट या वेट डीके जैसी तकनीकें।
यदि आप औपचारिक उपचार चाहते हैं (लेकिन फिर भी पठनीय), तो ओपन टेक्स्टबुक डीप लर्निंग पूरे स्टैक को कवर करती है: गणितीय नींव, अनुकूलन और सामान्यीकरण [1]।
सक्रियण क्रियाएँ, संक्षेप में लेकिन उपयोगी रूप से ⚡
-
ReLU : ऋणात्मक मानों के लिए शून्य, धनात्मक मानों के लिए रैखिक। सरल, तेज़, प्रभावी।
-
सिग्मॉइड : 0 और 1 के बीच के मानों को संकुचित करता है - उपयोगी है लेकिन संतृप्त हो सकता है।
-
Tanh : सिग्मॉइड की तरह, लेकिन शून्य के चारों ओर सममित।
-
सॉफ्टमैक्स : यह कच्चे स्कोर को विभिन्न वर्गों में संभावनाओं में परिवर्तित करता है।
आपको हर वक्र आकृति को याद करने की आवश्यकता नहीं है - बस ट्रेड-ऑफ और सामान्य डिफ़ॉल्ट को जानें [1, 2]।.
सीखने की प्रक्रिया वास्तव में कैसे होती है: बैकप्रॉप, लेकिन डरावना नहीं 🔁
-
फॉरवर्ड पास : भविष्यवाणी उत्पन्न करने के लिए डेटा परत दर परत प्रवाहित होता है।
-
हानि की गणना करें : पूर्वानुमान की तुलना सत्य से करें।
-
बैकप्रोपैगेशन : चेन रूल का उपयोग करके प्रत्येक भार के सापेक्ष हानि के ग्रेडिएंट की गणना करें।
-
अपडेट : ऑप्टिमाइज़र ने वज़न में थोड़ा बदलाव किया है।
-
दोहराव : कई युगों तक। मॉडल धीरे-धीरे सीखता है।
दृश्य और कोड से सटे स्पष्टीकरण के साथ व्यावहारिक अंतर्दृष्टि के लिए, बैकप्रॉप और अनुकूलन पर क्लासिक CS231n नोट्स देखें [2]।.
न्यूरल नेटवर्क के प्रमुख परिवारों का संक्षिप्त परिचय 🏡
-
फीडफॉरवर्ड नेटवर्क (एमएलपी) : सबसे सरल प्रकार। डेटा केवल आगे की ओर बढ़ता है।
-
कन्वोल्यूशनल न्यूरल नेटवर्क (सीएनएन) : स्थानिक फ़िल्टर के कारण छवियों के लिए बहुत अच्छा है जो किनारों, बनावट, आकृतियों का पता लगाता है [2]।
-
रिकरेंट न्यूरल नेटवर्क (RNNs) और वेरिएंट : क्रम की भावना को बनाए रखते हुए टेक्स्ट या टाइम सीरीज़ जैसे अनुक्रमों के लिए बनाया गया [1]।
-
ट्रांसफॉर्मर : एक ही समय में अनुक्रम में स्थितियों के पार संबंधों को मॉडल करने के लिए ध्यान का उपयोग करें; भाषा और उससे परे प्रमुख [3]।
-
ग्राफ न्यूरल नेटवर्क (जीएनएन) : ग्राफ के नोड्स और किनारों पर काम करते हैं - अणुओं, सामाजिक नेटवर्क, अनुशंसा के लिए उपयोगी [1]।
-
ऑटोएनकोडर और वीएई : संपीड़ित प्रतिनिधित्व सीखें और विविधताएं उत्पन्न करें [1]।
-
जनरेटिव मॉडल : जीएएन से लेकर डिफ्यूजन मॉडल तक, छवियों, ऑडियो, यहां तक कि कोड के लिए उपयोग किया जाता है [1]।
CS231n नोट्स विशेष रूप से CNN के लिए अनुकूल हैं, जबकि ट्रांसफ़ॉर्मर पेपर ध्यान-आधारित मॉडल के लिए प्राथमिक स्रोत है [2, 3]।.
तुलनात्मक तालिका: सामान्य न्यूरल नेटवर्क के प्रकार, वे किसके लिए हैं, लागत का अनुमान और वे कैसे काम करते हैं 📊
| उपकरण / प्रकार | श्रोता | कीमत के हिसाब से ठीक-ठाक | यह कैसे काम करता है |
|---|---|---|---|
| फीडफॉरवर्ड (एमएलपी) | शुरुआती, विश्लेषक | न्यून मध्यम | सरल, लचीली, उचित आधारभूत रेखाएँ |
| सीएनएन | विजन टीमें | मध्यम | स्थानीय पैटर्न + पैरामीटर साझाकरण |
| आरएनएन / एलएसटीएम / जीआरयू | क्रम के लोग | मध्यम | अस्थायी स्मृति जैसी... व्यवस्था को पकड़ती है |
| ट्रांसफार्मर | एनएलपी, मल्टीमॉडल | मध्यम ऊँचाई | ध्यान प्रासंगिक संबंधों पर केंद्रित है। |
| जीएनएन | वैज्ञानिक, रिकसिस | मध्यम | ग्राफ़ पर संदेश संप्रेषण संरचना को प्रकट करता है |
| ऑटोएनकोडर / वीएई | शोधकर्ताओं | न्यून मध्यम | संपीड़ित निरूपणों को सीखता है |
| जीएएन / प्रसार | क्रिएटिव लैब्स | मध्यम ऊँचाई | विरोधी या पुनरावृत्ति डीनोइज़िंग जादू |
नोट: कीमत कंप्यूटिंग और समय पर आधारित है; परिणाम भिन्न हो सकते हैं। एक-दो सेल जानबूझकर अधिक डेटा संचारित करते हैं।.
“एआई में न्यूरल नेटवर्क क्या है?” बनाम पारंपरिक एमएल एल्गोरिदम ⚖️
-
फ़ीचर इंजीनियरिंग : क्लासिक एमएल अक्सर मैन्युअल फ़ीचर पर निर्भर करता है। न्यूरल नेट फ़ीचर को स्वचालित रूप से सीखते हैं - जटिल डेटा के लिए एक बड़ी जीत [1]।
-
डेटा की भूख : नेटवर्क अक्सर अधिक डेटा के साथ चमकते हैं; छोटा डेटा सरल मॉडल को पसंद कर सकता है [1]।
-
गणना : नेटवर्क जीपीयू जैसे एक्सेलेरेटर को पसंद करते हैं [1]।
-
प्रदर्शन सीमा : असंरचित डेटा (छवियां, ऑडियो, टेक्स्ट) के लिए, डीप नेट हावी होते हैं [1, 2]।
प्रशिक्षण की वह कार्यप्रणाली जो वास्तव में व्यवहार में कारगर साबित होती है 🛠️
-
उद्देश्य को परिभाषित करें : वर्गीकरण, प्रतिगमन, रैंकिंग, उत्पादन - एक ऐसा हानि मान चुनें जो मेल खाता हो।
-
डेटा प्रोसेसिंग : डेटा को ट्रेन/वैलिडेशन/टेस्ट भागों में विभाजित करें। फ़ीचर्स को नॉर्मलाइज़ करें। क्लासेस को संतुलित करें। छवियों के लिए, फ़्लिप, क्रॉप और मामूली नॉइज़ जैसे ऑग्मेंटेशन पर विचार करें।
-
आर्किटेक्चर संबंधी विकल्प : सरल शुरुआत करें। क्षमता तभी बढ़ाएं जब आवश्यकता हो।
-
प्रशिक्षण लूप : डेटा को बैच में संसाधित करें। फॉरवर्ड पास करें। हानि की गणना करें। बैकप्रॉप करें। अपडेट करें। मेट्रिक्स लॉग करें।
-
नियमितीकरण : ड्रॉपआउट, वजन में गिरावट, जल्दी खेल छोड़ना।
-
मूल्यांकन : हाइपरपैरामीटर के लिए सत्यापन सेट का उपयोग करें। अंतिम जांच के लिए एक परीक्षण सेट अलग रखें।
-
शिपिंग सावधानीपूर्वक करें : बहाव पर नज़र रखें, पूर्वाग्रह की जाँच करें, रोलबैक की योजना बनाएं।
ठोस सिद्धांत के साथ एंड-टू-एंड, कोड-उन्मुख ट्यूटोरियल के लिए, ओपन टेक्स्टबुक और CS231n नोट्स विश्वसनीय एंकर हैं [1, 2]।.
अति-फिटिंग, सामान्यीकरण और अन्य समस्याएं 👀
-
ओवरफिटिंग : मॉडल प्रशिक्षण की कुछ खास खामियों को याद कर लेता है। इसे अधिक डेटा, बेहतर रेगुलराइजेशन या सरल आर्किटेक्चर के साथ ठीक किया जा सकता है।
-
अंडरफिटिंग : मॉडल बहुत सरल है या प्रशिक्षण बहुत धीमा है। क्षमता बढ़ाएँ या अधिक समय तक प्रशिक्षण दें।
-
डेटा लीकेज : टेस्ट सेट से जानकारी ट्रेनिंग में आ जाती है। अपने विभाजन की तीन बार जांच करें।
-
खराब कैलिब्रेशन : एक ऐसा मॉडल जो आत्मविश्वास से भरा हो लेकिन गलत हो, खतरनाक होता है। कैलिब्रेशन या अलग तरह के लॉस वेटिंग पर विचार करें।
-
वितरण में बदलाव : वास्तविक दुनिया के डेटा में बदलाव हो रहा है। निगरानी करें और आवश्यकतानुसार अनुकूलन करें।
सामान्यीकरण और नियमितीकरण के पीछे के सिद्धांत के लिए, मानक संदर्भों [1, 2] पर भरोसा करें।.
सुरक्षा, सुगमता और ज़िम्मेदार तैनाती 🧭
न्यूरल नेटवर्क महत्वपूर्ण निर्णय ले सकते हैं। केवल लीडरबोर्ड पर अच्छा प्रदर्शन करना ही पर्याप्त नहीं है। आपको जीवनचक्र के दौरान शासन, माप और शमन चरणों की आवश्यकता है। एनआईएसटी एआई जोखिम प्रबंधन ढांचा व्यावहारिक कार्यों - शासन, मानचित्रण, मापन, प्रबंधन - की रूपरेखा तैयार करता है ताकि टीमों को जोखिम प्रबंधन को डिजाइन और परिनियोजन में एकीकृत करने में मदद मिल सके [5]।
कुछ त्वरित संकेत:
-
पक्षपात की जाँच : जहाँ उचित और कानूनी हो, जनसांख्यिकीय समूहों में मूल्यांकन करें।
-
व्याख्यात्मकता : प्रमुखता या विशेषता निर्धारण जैसी तकनीकों का उपयोग करें। ये अपूर्ण हैं, फिर भी उपयोगी हैं।
-
निगरानी : मेट्रिक में अचानक गिरावट या डेटा में बदलाव होने पर अलर्ट सेट करें।
-
मानवीय निगरानी : महत्वपूर्ण निर्णयों में मानवीय भागीदारी सुनिश्चित करें। कोई वीरतापूर्ण कार्य नहीं, बस उचित प्रक्रिया।
आपके मन में अक्सर उठने वाले सवाल 🙋
क्या न्यूरल नेटवर्क मूल रूप से एक मस्तिष्क है?
मस्तिष्क से प्रेरित, हाँ - लेकिन सरलीकृत। नेटवर्क में न्यूरॉन्स गणितीय फ़ंक्शन हैं; जैविक न्यूरॉन्स जटिल गतिशीलता वाली जीवित कोशिकाएँ हैं। समान वाइब्स, बहुत अलग भौतिकी [1]।.
मुझे कितनी परतों की आवश्यकता है?
छोटे से शुरू करें। यदि आप अंडरफिटिंग कर रहे हैं, तो चौड़ाई या गहराई बढ़ाएँ। यदि आप ओवरफिटिंग कर रहे हैं, तो नियमित करें या क्षमता कम करें। कोई जादुई संख्या नहीं है; बस सत्यापन वक्र और धैर्य है [1]।.
क्या मुझे हमेशा जीपीयू की आवश्यकता होती है?
हमेशा नहीं। मामूली डेटा पर छोटे मॉडल सीपीयू पर प्रशिक्षित हो सकते हैं, लेकिन छवियों, बड़े टेक्स्ट मॉडल या बड़े डेटासेट के लिए, एक्सेलेरेटर बहुत समय बचाते हैं [1]।.
लोग ऐसा क्यों कहते हैं कि ध्यान आकर्षित करना शक्तिशाली होता है?
क्योंकि ध्यान मॉडल को सख्ती से क्रम में आगे बढ़े बिना इनपुट के सबसे प्रासंगिक भागों पर ध्यान केंद्रित करने देता है। यह वैश्विक संबंधों को पकड़ता है, जो भाषा और मल्टीमॉडल कार्यों के लिए एक बड़ी बात है [3]।.
क्या “एआई में न्यूरल नेटवर्क क्या है?” और “डीप लर्निंग क्या है?” में कोई अंतर है?
डीप लर्निंग एक व्यापक दृष्टिकोण है जो डीप न्यूरल नेटवर्क का उपयोग करता है। इसलिए यह पूछना कि एआई में न्यूरल नेटवर्क क्या है? मुख्य किरदार के बारे में पूछने जैसा है; डीप लर्निंग पूरी फिल्म है [1]।
व्यावहारिक, थोड़े से व्यक्तिगत विचार वाले सुझाव 💡
-
सरल आधार रेखाओं को प्राथमिकता दें । एक छोटा मल्टीलेयर परसेप्ट्रॉन भी आपको बता सकता है कि डेटा सीखने योग्य है या नहीं।
-
अपने डेटा पाइपलाइन को पुनरुत्पादनीय । यदि आप इसे दोबारा नहीं चला सकते, तो आप इस पर भरोसा नहीं कर सकते।
-
सीखने की गति आपकी सोच से कहीं अधिक मायने रखती है। एक समय सारिणी बनाकर देखें। वार्मअप भी मददगार हो सकता है।
-
बैच के आकार को लेकर कुछ समझौते मौजूद हैं। बड़े बैच प्रवणता को स्थिर करते हैं लेकिन उनका सामान्यीकरण अलग तरह से हो सकता है।
-
जब आप असमंजस में हों, तो हानि वक्र और भार मानदंड का । आपको यह देखकर आश्चर्य होगा कि अक्सर उत्तर ग्राफ में ही छिपा होता है।
-
धारणाओं को दस्तावेज़ करें। भविष्य में आप चीज़ें जल्दी भूल जाते हैं [1, 2]।.
गहन विश्लेषण: डेटा की भूमिका, या यूं कहें कि गलत इनपुट का मतलब गलत आउटपुट ही होता है 🗑️➡️✨
न्यूरल नेटवर्क दोषपूर्ण डेटा को जादुई रूप से ठीक नहीं करते। तिरछे लेबल, एनोटेशन की गलतियाँ, या संकीर्ण सैंपलिंग, ये सभी मॉडल में दिखाई देंगे। डेटा को व्यवस्थित करें, ऑडिट करें और बढ़ाएँ। और अगर आपको यकीन नहीं है कि आपको अधिक डेटा चाहिए या बेहतर मॉडल, तो जवाब अक्सर बेहद सरल होता है: दोनों - लेकिन डेटा की गुणवत्ता से शुरुआत करें [1]।.
“एआई में न्यूरल नेटवर्क क्या है?” - संक्षिप्त परिभाषाएँ जिनका आप पुनः उपयोग कर सकते हैं 🧾
-
एक न्यूरल नेटवर्क एक स्तरित फ़ंक्शन सन्निकटन है जो ग्रेडिएंट संकेतों का उपयोग करके भार को समायोजित करके जटिल पैटर्न सीखता है [1, 2]।.
-
यह एक ऐसी प्रणाली है जो क्रमिक गैर-रेखीय चरणों के माध्यम से इनपुट को आउटपुट में बदल देती है, जिसे नुकसान को कम करने के लिए प्रशिक्षित किया जाता है [1]।.
-
यह एक लचीला, डेटा-भूखा मॉडलिंग दृष्टिकोण है जो छवियों, पाठ और ऑडियो जैसे असंरचित इनपुट पर पनपता है [1, 2, 3]।.
बहुत लंबा, पढ़ा नहीं और अंतिम टिप्पणी 🎯
अगर कोई आपसे पूछे कि कृत्रिम बुद्धिमत्ता में न्यूरल नेटवर्क क्या है? तो संक्षेप में कहें तो: न्यूरल नेटवर्क सरल इकाइयों का एक समूह है जो डेटा को चरण दर चरण रूपांतरित करता है, हानि को कम करते हुए और प्रवणता का अनुसरण करते हुए रूपांतरण को सीखता है। ये शक्तिशाली होते हैं क्योंकि ये स्केलेबल होते हैं, स्वचालित रूप से विशेषताएँ सीखते हैं, और बहुत जटिल कार्यों का प्रतिनिधित्व कर सकते हैं [1, 4]। डेटा की गुणवत्ता, प्रबंधन या निगरानी की अनदेखी करने पर ये जोखिम भरे हो सकते हैं [5]। और ये कोई जादू नहीं हैं। बस गणित, कंप्यूटिंग और अच्छी इंजीनियरिंग - थोड़ी सी कुशलता के साथ।
आगे पढ़ने के लिए, सावधानीपूर्वक चयनित सामग्री (बिना संदर्भ वाली अतिरिक्त सामग्री)
-
स्टैनफोर्ड CS231n के नोट्स - समझने में आसान और व्यावहारिक: https://cs231n.github.io/
-
DeepLearningBook.org - प्रामाणिक संदर्भ: https://www.deeplearningbook.org/
-
NIST AI जोखिम प्रबंधन ढांचा - जिम्मेदार AI संबंधी दिशानिर्देश: https://www.nist.gov/itl/ai-risk-management-framework
-
“ध्यान ही सब कुछ है” - ट्रांसफॉर्मर पेपर: https://arxiv.org/abs/1706.03762
संदर्भ
[1] गुडफेलो, आई., बेंगियो, वाई., और कौरविले, ए. डीप लर्निंग । एमआईटी प्रेस। निःशुल्क ऑनलाइन संस्करण: और पढ़ें
[2] स्टैनफोर्ड CS231n. दृश्य पहचान के लिए कनवोल्यूशनल न्यूरल नेटवर्क (पाठ्यक्रम नोट्स): और पढ़ें
[3] वासवानी, ए., शाज़ीर, एन., परमार, एन., एट अल. (2017). ध्यान ही सब कुछ है । न्यूरिप्स। arXiv: और पढ़ें
[4] साइबेन्को, जी. (1989). सिग्मॉइडल फ़ंक्शन के सुपरपोज़िशन द्वारा सन्निकटन । नियंत्रण, संकेत और प्रणालियों का गणित , 2, 303–314. स्प्रिंगर: और पढ़ें
[5] एनआईएसटी. एआई जोखिम प्रबंधन ढांचा (एआई आरएमएफ) : और पढ़ें