अगर आपने कभी कोई ऐसा मॉडल बनाया है जो नोटबुक में तो कमाल का था, लेकिन प्रोडक्शन में लड़खड़ा गया, तो आपको इसका राज़ पता ही होगा: AI के प्रदर्शन को कैसे मापा जाए, यह कोई जादुई पैमाना नहीं है। यह वास्तविक दुनिया के लक्ष्यों से जुड़ी जाँचों की एक प्रणाली है। सटीकता अच्छी होती है। विश्वसनीयता, सुरक्षा और व्यावसायिक प्रभाव बेहतर होते हैं।
इसके बाद आप जो लेख पढ़ना चाहेंगे वे इस प्रकार हैं:
🔗 AI से कैसे बात करें
लगातार बेहतर परिणामों के लिए एआई के साथ प्रभावी ढंग से संवाद करने के लिए मार्गदर्शिका।
🔗 AI प्रॉम्प्टिंग क्या है?
यह बताता है कि कैसे संकेत AI प्रतिक्रियाओं और आउटपुट गुणवत्ता को आकार देते हैं।
🔗 एआई डेटा लेबलिंग क्या है?
प्रशिक्षण मॉडलों के लिए डेटा को सटीक लेबल निर्दिष्ट करने का अवलोकन।
🔗 एआई नैतिकता क्या है?
जिम्मेदार एआई विकास और तैनाती का मार्गदर्शन करने वाले नैतिक सिद्धांतों का परिचय।
अच्छा AI प्रदर्शन क्या बनाता है?
संक्षिप्त रूप: अच्छे AI प्रदर्शन का मतलब है कि आपका सिस्टम उपयोगी, भरोसेमंद और अव्यवस्थित, बदलती परिस्थितियों में भी दोहराने योग्य है। ठोस रूप से:
-
कार्य की गुणवत्ता - इससे सही कारणों से सही उत्तर प्राप्त होते हैं।
-
अंशांकन - आत्मविश्वास स्कोर वास्तविकता के अनुरूप होता है, ताकि आप स्मार्ट कार्रवाई कर सकें।
-
मजबूती - यह बहाव, किनारे के मामलों और प्रतिकूल परिस्थितियों में भी टिकी रहती है।
-
सुरक्षा एवं निष्पक्षता - यह हानिकारक, पक्षपातपूर्ण या गैर-अनुपालन व्यवहार से बचाती है।
-
दक्षता - यह पर्याप्त तेज़, पर्याप्त सस्ता और बड़े पैमाने पर चलाने के लिए पर्याप्त स्थिर है।
-
व्यावसायिक प्रभाव - यह वास्तव में उस KPI को आगे बढ़ाता है जिसकी आपको परवाह है।
यदि आप मेट्रिक्स और जोखिमों को संरेखित करने के लिए एक औपचारिक संदर्भ बिंदु चाहते हैं, तो एनआईएसटी एआई जोखिम प्रबंधन ढांचा भरोसेमंद सिस्टम मूल्यांकन के लिए एक ठोस उत्तर सितारा है। [1]

AI प्रदर्शन को मापने का उच्च-स्तरीय नुस्खा 🍳
तीन स्तरों पर सोचें :
-
कार्य मेट्रिक्स - कार्य प्रकार के लिए शुद्धता: वर्गीकरण, प्रतिगमन, रैंकिंग, पीढ़ी, नियंत्रण, आदि।
-
सिस्टम मेट्रिक्स - विलंबता, थ्रूपुट, प्रति कॉल लागत, विफलता दर, बहाव अलार्म, अपटाइम एसएलए।
-
परिणाम मीट्रिक्स - व्यवसाय और उपयोगकर्ता परिणाम जो आप वास्तव में चाहते हैं: रूपांतरण, प्रतिधारण, सुरक्षा घटनाएं, मैनुअल-समीक्षा लोड, टिकट मात्रा।
एक बेहतरीन मापन योजना जानबूझकर इन तीनों को मिला देती है। वरना आपको एक ऐसा रॉकेट मिलेगा जो लॉन्चपैड से कभी बाहर ही नहीं निकलेगा।
समस्या के प्रकार के अनुसार मुख्य मेट्रिक्स - और कब किसका उपयोग करना है 🎯
1) वर्गीकरण
-
परिशुद्धता, स्मरण, F1 - पहले दिन की तिकड़ी। F1 परिशुद्धता और स्मरण का हार्मोनिक माध्य है; यह तब उपयोगी होता है जब वर्ग असंतुलित हों या लागतें असममित हों। [2]
-
आरओसी-एयूसी - क्लासिफायर की थ्रेशोल्ड-अज्ञेय रैंकिंग; जब सकारात्मक दुर्लभ हों, तो पीआर-एयूसी का । [2]
-
संतुलित सटीकता - कक्षाओं में स्मरण का औसत; विषम लेबल के लिए उपयोगी। [2]
नुकसान की चेतावनी: अगर असंतुलन हो, तो सिर्फ़ सटीकता ही बेहद भ्रामक हो सकती है। अगर 99% उपयोगकर्ता वैध हैं, तो एक बेवकूफ़, हमेशा वैध मॉडल 99% अंक प्राप्त कर लेता है और दोपहर के भोजन से पहले ही आपकी धोखाधड़ी टीम को विफल कर देता है।
2) प्रतिगमन
-
MAE का उपयोग मानव-पठनीय त्रुटि के लिए करें; RMSE का उपयोग बड़ी चूकों को दंडित करने के लिए करें; R² का उपयोग विचरण की व्याख्या के लिए करें। फिर वितरण और अवशिष्ट आरेखों की तार्किक जाँच करें। [2]
(डोमेन-अनुकूल इकाइयों का उपयोग करें ताकि हितधारक वास्तव में त्रुटि को महसूस कर सकें।)
3) रैंकिंग, पुनर्प्राप्ति, सिफारिशें
-
nDCG - स्थिति और श्रेणीबद्ध प्रासंगिकता का ध्यान रखता है; खोज गुणवत्ता के लिए मानक।
-
एमआरआर - इस बात पर ध्यान केंद्रित करता है कि पहला प्रासंगिक आइटम कितनी जल्दी दिखाई देता है ('एक अच्छा उत्तर ढूँढ़ें' कार्यों के लिए बढ़िया)।
(कार्यान्वयन संदर्भ और कार्यान्वित उदाहरण मुख्यधारा मीट्रिक लाइब्रेरी में उपलब्ध हैं।) [2]
4) पाठ निर्माण और सारांशीकरण
-
BLEU और ROUGE - क्लासिक ओवरलैप मेट्रिक्स; बेसलाइन के रूप में उपयोगी।
-
एम्बेडिंग-आधारित मेट्रिक्स (जैसे, BERTScore ) अक्सर मानवीय निर्णय के साथ बेहतर सहसंबंध रखते हैं; हमेशा शैली, विश्वसनीयता और सुरक्षा के लिए मानव रेटिंग के साथ जोड़ी बनाते हैं। [4]
5) प्रश्न उत्तर
-
सटीक मिलान और टोकन-स्तर F1 निष्कर्षात्मक QA के लिए सामान्य हैं; यदि उत्तरों में स्रोतों का हवाला देना आवश्यक है, तो ग्राउंडिंग (उत्तर-समर्थन जांच) को भी मापें।
अंशांकन, आत्मविश्वास और ब्रियर लेंस 🎚️
विश्वास स्कोर वह जगह है जहाँ बहुत सारी प्रणालियाँ चुपचाप स्थित होती हैं। आप ऐसी संभावनाएँ चाहते हैं जो वास्तविकता को प्रतिबिंबित करें ताकि ऑपरेशन थ्रेसहोल्ड, मानव मार्ग, या मूल्य जोखिम निर्धारित कर सकें।
-
अंशांकन वक्र - अनुमानित संभाव्यता बनाम अनुभवजन्य आवृत्ति को दृश्यमान करें।
-
ब्रियर स्कोर - संभाव्यता सटीकता के लिए एक उचित स्कोरिंग नियम; जितना कम होगा उतना बेहतर होगा। यह विशेष रूप से तब उपयोगी होता है जब आप केवल रैंकिंग की नहीं, बल्कि संभाव्यता की गुणवत्ता
फील्ड नोट: थोड़ा "खराब" एफ1 लेकिन बहुत बेहतर अंशांकन बड़े पैमाने पर ट्राइएज में सुधार कर सकता है - क्योंकि लोग अंततः स्कोर पर भरोसा कर सकते हैं।
सुरक्षा, पूर्वाग्रह और निष्पक्षता - जो मायने रखता है उसे मापें 🛡️⚖️
एक प्रणाली समग्र रूप से सटीक होने के बावजूद भी विशिष्ट समूहों को नुकसान पहुँचा सकती है। समूहीकृत मीट्रिक और निष्पक्षता मानदंडों पर नज़र रखें:
-
जनसांख्यिकीय समानता - समूहों में समान सकारात्मक दरें।
-
समान ऑड्स / समान अवसर - समूहों में समान त्रुटि दर या सच्ची-सकारात्मक दर; इनका उपयोग ट्रेड-ऑफ़ का पता लगाने और प्रबंधित करने के लिए करें, न कि एक-शॉट पास-फेल स्टैम्प के रूप में। [5]
व्यावहारिक सुझाव: ऐसे डैशबोर्ड से शुरुआत करें जो मुख्य विशेषताओं के आधार पर मुख्य मीट्रिक्स को विभाजित करते हैं, फिर अपनी नीतियों के अनुसार विशिष्ट निष्पक्षता मीट्रिक्स जोड़ें। यह थोड़ा पेचीदा लग सकता है, लेकिन यह किसी दुर्घटना से सस्ता है।
एलएलएम और आरएजी - एक माप पुस्तिका जो वास्तव में काम करती है 📚🔍
जनरेटिव सिस्टम को मापना... टेढ़ा-मेढ़ा है। ऐसा करें:
-
परिणामों को परिभाषित करें : शुद्धता, सहायकता, हानिरहितता, शैली अनुपालन, ब्रांड टोन, उद्धरण आधार, अस्वीकृति गुणवत्ता।
-
बेसलाइन मूल्यांकन को स्वचालित करें और उन्हें अपने डेटासेट के साथ संस्करणबद्ध रखें।
-
समझदारी के लिए सिमेंटिक मेट्रिक्स (एम्बेडिंग-आधारित) और ओवरलैप मेट्रिक्स (BLEU/ROUGE) जोड़ें
-
उपकरण ग्राउंडिंग : पुनर्प्राप्ति हिट दर, संदर्भ परिशुद्धता/स्मरण, उत्तर-समर्थन ओवरलैप।
-
सहमति के साथ मानवीय समीक्षा - रेटर की संगति को मापें (उदाहरण के लिए, कोहेन का κ या फ्लेइस का κ) ताकि आपके लेबल वाइब्स न हों।
बोनस: विलंबता प्रतिशतक और टोकन लॉग करें या प्रति कार्य लागत की गणना करें। अगले मंगलवार को आने वाला काव्यात्मक उत्तर किसी को पसंद नहीं आता।
तुलना तालिका - उपकरण जो आपको AI प्रदर्शन मापने में मदद करते हैं 🛠️📊
(हां, यह जानबूझकर थोड़ा गड़बड़ है - असली नोट्स गड़बड़ होते हैं।)
| औजार | सर्वश्रेष्ठ दर्शक | कीमत | यह क्यों काम करता है - एक त्वरित जानकारी |
|---|---|---|---|
| स्किकिट-लर्न मेट्रिक्स | एमएल प्रैक्टिशनर्स | मुक्त | वर्गीकरण, प्रतिगमन, रैंकिंग के लिए कैनोनिकल कार्यान्वयन; परीक्षणों में शामिल करना आसान। [2] |
| MLflow मूल्यांकन / GenAI | डेटा वैज्ञानिक, एमएलओपीएस | मुफ़्त + सशुल्क | केंद्रीकृत रन, स्वचालित मेट्रिक्स, एलएलएम जज, कस्टम स्कोरर; कलाकृतियों को साफ-सुथरा लॉग करता है। |
| ज़रूर | टीमें तेजी से डैशबोर्ड चाहती हैं | ओएसएस + क्लाउड | 100+ मेट्रिक्स, बहाव और गुणवत्ता रिपोर्ट, मॉनिटरिंग हुक्स - एक चुटकी में अच्छे दृश्य। |
| भार और पूर्वाग्रह | प्रयोग-प्रधान संगठन | निःशुल्क स्तर | साथ-साथ तुलना, मूल्यांकन डेटासेट, जज; तालिकाएं और ट्रेस सुव्यवस्थित हैं। |
| लैंगस्मिथ | एलएलएम ऐप बिल्डर्स | चुकाया गया | प्रत्येक चरण का अनुरेखण करें, मानव समीक्षा को नियम या एलएलएम मूल्यांकनकर्ताओं के साथ मिलाएं; आरएजी के लिए बहुत अच्छा है। |
| ट्रूलेंस | ओपन-सोर्स एलएलएम मूल्यांकन प्रेमियों | ओएसएस | फीडबैक विषाक्तता, आधारभूतता, प्रासंगिकता को स्कोर करने के लिए कार्य करता है; कहीं भी एकीकृत करें। |
| बड़ी उम्मीदें | डेटा गुणवत्ता-प्रथम संगठन | ओएसएस | डेटा पर अपेक्षाओं को औपचारिक बनाएं - क्योंकि खराब डेटा वैसे भी हर मीट्रिक को बर्बाद कर देता है। |
| डीपचेक्स | एमएल के लिए परीक्षण और सीआई/सीडी | ओएसएस + क्लाउड | बैटरियां - इसमें डेटा विचलन, मॉडल संबंधी मुद्दों और निगरानी के लिए परीक्षण शामिल है; अच्छी सुरक्षा व्यवस्था। |
कीमतें बदलती रहती हैं - दस्तावेज़ देखें। और हाँ, आप इन्हें बिना किसी टूल पुलिस के दिखाए भी मिला सकते हैं।
सीमाएँ, लागतें और निर्णय वक्र - गुप्त सूत्र 🧪
एक अजीब लेकिन सत्य बात: समान ROC-AUC वाले दो मॉडलों का व्यवसाय मूल्य आपकी सीमा और लागत अनुपात ।
त्वरित शीट बनाने के लिए:
-
झूठे सकारात्मक बनाम झूठे नकारात्मक की लागत को धन या समय में निर्धारित करें।
-
स्वीप थ्रेसहोल्ड और प्रति 1k निर्णय की अपेक्षित लागत की गणना करें।
-
न्यूनतम अपेक्षित लागत चुनें , फिर उसे मॉनिटरिंग के साथ लॉक करें।
जब सकारात्मकता दुर्लभ हो तो पीआर वक्र का उपयोग करें, सामान्य आकार के लिए आरओसी वक्र और जब निर्णय संभावनाओं पर निर्भर हों तो अंशांकन वक्र का उपयोग करें। [2][3]
मिनी-केस: एक सपोर्ट-टिकट ट्राइएज मॉडल जिसमें मामूली एफ1 है लेकिन उत्कृष्ट कैलिब्रेशन ने मैनुअल री-रूट को काट दिया, जब ऑपरेशन एक हार्ड थ्रेशोल्ड से टियर्ड रूटिंग (जैसे, "ऑटो-रिज़ॉल्व," "ह्यूमन-रिव्यू," "एस्केलेट") पर स्विच हो गया, जो कैलिब्रेटेड स्कोर बैंड से जुड़ा था।
ऑनलाइन निगरानी, बहाव और चेतावनी 🚨
ऑफ़लाइन मूल्यांकन शुरुआत है, अंत नहीं। उत्पादन में:
-
सेगमेंट द्वारा इनपुट बहाव , आउटपुट बहाव और प्रदर्शन क्षय को ट्रैक करें
-
रेलिंग जांच निर्धारित करें - अधिकतम मतिभ्रम दर, विषाक्तता सीमा, निष्पक्षता डेल्टा।
-
p95 विलंबता, टाइमआउट और प्रति अनुरोध लागत के लिए कैनरी डैशबोर्ड जोड़ें
-
इसे गति देने के लिए उद्देश्य-निर्मित लाइब्रेरीज़ का उपयोग करें; वे बहाव, गुणवत्ता और निगरानी संबंधी प्राथमिक सुविधाएं प्रदान करते हैं।
छोटा सा त्रुटिपूर्ण रूपक: अपने मॉडल को एक खमीरी रोटी बनाने वाले की तरह समझें - आप सिर्फ एक बार पकाकर चले नहीं जाते; आप खिलाते हैं, देखते हैं, सूंघते हैं, और कभी-कभी पुनः शुरू करते हैं।
मानवीय मूल्यांकन जो टूटता नहीं 🍪
जब लोग आउटपुट को ग्रेड देते हैं, तो प्रक्रिया आपके विचार से कहीं अधिक मायने रखती है।
-
पास बनाम सीमा रेखा बनाम फेल के उदाहरणों के साथ कड़े रूब्रिक्स लिखें
-
जब भी संभव हो, नमूनों को यादृच्छिक एवं अंध-चयनित करें।
-
अंतर-रेटिंगकर्ता सहमति को मापें (उदाहरण के लिए, दो रेटिंगकर्ताओं के लिए कोहेन का κ, अनेक के लिए फ्लेइस का κ) और यदि सहमति में कमी हो तो रूब्रिक्स को पुनः अपडेट करें।
इससे आपके मानवीय लेबल मूड या कॉफी की आपूर्ति के साथ बहने से बच जाते हैं।
गहन विश्लेषण: RAG में LLM के लिए AI प्रदर्शन को कैसे मापें
-
पुनर्प्राप्ति गुणवत्ता - रिकॉल@के, प्रिसिज़न@के, एनडीसीजी; सोने के तथ्यों का कवरेज। [2]
-
उत्तर की विश्वसनीयता - उद्धरण-और-सत्यापन जांच, आधारभूतता स्कोर, प्रतिकूल जांच।
-
उपयोगकर्ता संतुष्टि - अंगूठे, कार्य पूर्णता, सुझाए गए ड्राफ्ट से संपादन दूरी।
-
सुरक्षा - विषाक्तता, पीआईआई रिसाव, नीति अनुपालन।
-
लागत एवं विलंबता - टोकन, कैश हिट, p95 और p99 विलंबता।
इन्हें व्यावसायिक कार्यों से जोड़ें: यदि ग्राउंडेडनेस एक रेखा से नीचे गिर जाए, तो सख्त मोड या मानवीय समीक्षा के लिए स्वचालित मार्ग अपनाएं।
आज ही शुरुआत करने के लिए एक सरल प्लेबुक 🪄
-
कार्य को परिभाषित करें - एक वाक्य लिखें: AI को क्या करना चाहिए और किसके लिए।
-
2-3 कार्य मेट्रिक्स चुनें - साथ ही कैलिब्रेशन और कम से कम एक निष्पक्षता स्लाइस। [2][3][5]
-
लागत का उपयोग करके सीमा तय करें - अनुमान न लगाएं।
-
एक छोटा मूल्यांकन सेट बनाएं - 100-500 लेबल वाले उदाहरण जो उत्पादन मिश्रण को दर्शाते हों।
-
अपने मूल्यांकन को स्वचालित करें - मूल्यांकन/निगरानी को CI में जोड़ें ताकि प्रत्येक परिवर्तन पर समान जांच हो।
-
उत्पाद में मॉनिटर - बहाव, विलंबता, लागत, घटना झंडे।
-
मासिक आधार पर समीक्षा करें - उन मेट्रिक्स को हटा दें जिनका कोई उपयोग नहीं करता; उन मेट्रिक्स को जोड़ें जो वास्तविक प्रश्नों का उत्तर देते हैं।
-
निर्णयों का दस्तावेजीकरण करें - एक जीवंत स्कोरकार्ड जिसे आपकी टीम वास्तव में पढ़ती है।
हाँ, सचमुच यही है। और यह काम करता है।
आम ग़लतियाँ और उनसे कैसे बचें 🕳️🐇
-
एकल मीट्रिक पर ओवरफिटिंग - निर्णय संदर्भ से मेल खाने वाली मीट्रिक बास्केट का
-
अंशांकन की अनदेखी करना - अंशांकन के बिना आत्मविश्वास सिर्फ अहंकार है। [3]
-
कोई विभाजन नहीं - हमेशा उपयोगकर्ता समूहों, भूगोल, डिवाइस, भाषा के आधार पर विभाजित करें। [5]
-
अनिर्धारित लागतें - यदि आप मूल्य त्रुटियाँ नहीं करते हैं, तो आप गलत सीमा चुन लेंगे।
-
मानव मूल्यांकन बहाव - सहमति को मापना, रूब्रिक्स को ताज़ा करना, समीक्षकों को पुनः प्रशिक्षित करना।
-
कोई सुरक्षा उपकरण नहीं - निष्पक्षता, विषाक्तता और नीति जाँच अभी जोड़ें, बाद में नहीं। [1][5]
आप जिस वाक्यांश के लिए आए थे: AI प्रदर्शन को कैसे मापें - बहुत लंबा, मैंने इसे नहीं पढ़ा 🧾
-
स्पष्ट परिणामों से शुरू करें , फिर कार्य , सिस्टम और व्यावसायिक मेट्रिक्स को स्टैक करें। [1]
-
नौकरी के लिए सही मेट्रिक्स का उपयोग करें - वर्गीकरण के लिए F1 और ROC-AUC; रैंकिंग के लिए nDCG/MRR; पीढ़ी के लिए ओवरलैप + सिमेंटिक मेट्रिक्स (मानव के साथ युग्मित)। [2][4]
-
जांचे और अपनी त्रुटियों का मूल्यांकन करें । [2][3]
-
समूह स्लाइस के साथ निष्पक्षता जोड़ें
-
मूल्यांकन और निगरानी को स्वचालित करें ताकि आप बिना किसी डर के पुनरावृत्ति कर सकें।
आप जानते हैं कि यह कैसा है - जो महत्वपूर्ण है उसे मापें, अन्यथा आप जो महत्वपूर्ण नहीं है उसे सुधारेंगे।
संदर्भ
[1] एनआईएसटी. एआई जोखिम प्रबंधन ढाँचा (एआई आरएमएफ)। और पढ़ें
[2] स्किकिट-लर्न। मॉडल मूल्यांकन: पूर्वानुमानों की गुणवत्ता का परिमाणीकरण (उपयोगकर्ता मार्गदर्शिका)। और पढ़ें
[3] स्किकिट-लर्न। संभाव्यता अंशांकन (अंशांकन वक्र, ब्रियर स्कोर)। और पढ़ें
[4] पापिनेनी एट अल. (2002)। BLEU: मशीन अनुवाद के स्वचालित मूल्यांकन की एक विधि। ACL। और पढ़ें
[5] हार्ड्ट, प्राइस, स्रेब्रो (2016)। पर्यवेक्षित शिक्षण में अवसर की समानता। न्यूरआईपीएस। और पढ़ें