AI प्रदर्शन को कैसे मापें

एआई प्रदर्शन को कैसे मापें?

अगर आपने कभी कोई ऐसा मॉडल बनाया है जो नोटबुक में तो कमाल का था, लेकिन प्रोडक्शन में लड़खड़ा गया, तो आपको इसका राज़ पता ही होगा: AI के प्रदर्शन को कैसे मापा जाए, यह कोई जादुई पैमाना नहीं है। यह वास्तविक दुनिया के लक्ष्यों से जुड़ी जाँचों की एक प्रणाली है। सटीकता अच्छी होती है। विश्वसनीयता, सुरक्षा और व्यावसायिक प्रभाव बेहतर होते हैं।

इसके बाद आप जो लेख पढ़ना चाहेंगे वे इस प्रकार हैं:

🔗 AI से कैसे बात करें
लगातार बेहतर परिणामों के लिए एआई के साथ प्रभावी ढंग से संवाद करने के लिए मार्गदर्शिका।

🔗 AI प्रॉम्प्टिंग क्या है?
यह बताता है कि कैसे संकेत AI प्रतिक्रियाओं और आउटपुट गुणवत्ता को आकार देते हैं।

🔗 एआई डेटा लेबलिंग क्या है?
प्रशिक्षण मॉडलों के लिए डेटा को सटीक लेबल निर्दिष्ट करने का अवलोकन।

🔗 एआई नैतिकता क्या है?
जिम्मेदार एआई विकास और तैनाती का मार्गदर्शन करने वाले नैतिक सिद्धांतों का परिचय।


अच्छा AI प्रदर्शन क्या बनाता है?

संक्षिप्त रूप: अच्छे AI प्रदर्शन का मतलब है कि आपका सिस्टम उपयोगी, भरोसेमंद और अव्यवस्थित, बदलती परिस्थितियों में भी दोहराने योग्य है। ठोस रूप से:

  • कार्य की गुणवत्ता - इससे सही कारणों से सही उत्तर प्राप्त होते हैं।

  • अंशांकन - आत्मविश्वास स्कोर वास्तविकता के अनुरूप होता है, ताकि आप स्मार्ट कार्रवाई कर सकें।

  • मजबूती - यह बहाव, किनारे के मामलों और प्रतिकूल परिस्थितियों में भी टिकी रहती है।

  • सुरक्षा एवं निष्पक्षता - यह हानिकारक, पक्षपातपूर्ण या गैर-अनुपालन व्यवहार से बचाती है।

  • दक्षता - यह पर्याप्त तेज़, पर्याप्त सस्ता और बड़े पैमाने पर चलाने के लिए पर्याप्त स्थिर है।

  • व्यावसायिक प्रभाव - यह वास्तव में उस KPI को आगे बढ़ाता है जिसकी आपको परवाह है।

यदि आप मेट्रिक्स और जोखिमों को संरेखित करने के लिए एक औपचारिक संदर्भ बिंदु चाहते हैं, तो एनआईएसटी एआई जोखिम प्रबंधन ढांचा भरोसेमंद सिस्टम मूल्यांकन के लिए एक ठोस उत्तर सितारा है। [1]

 

एआई प्रदर्शन का मापन

AI प्रदर्शन को मापने का उच्च-स्तरीय नुस्खा 🍳

तीन स्तरों पर सोचें :

  1. कार्य मेट्रिक्स - कार्य प्रकार के लिए शुद्धता: वर्गीकरण, प्रतिगमन, रैंकिंग, पीढ़ी, नियंत्रण, आदि।

  2. सिस्टम मेट्रिक्स - विलंबता, थ्रूपुट, प्रति कॉल लागत, विफलता दर, बहाव अलार्म, अपटाइम एसएलए।

  3. परिणाम मीट्रिक्स - व्यवसाय और उपयोगकर्ता परिणाम जो आप वास्तव में चाहते हैं: रूपांतरण, प्रतिधारण, सुरक्षा घटनाएं, मैनुअल-समीक्षा लोड, टिकट मात्रा।

एक बेहतरीन मापन योजना जानबूझकर इन तीनों को मिला देती है। वरना आपको एक ऐसा रॉकेट मिलेगा जो लॉन्चपैड से कभी बाहर ही नहीं निकलेगा।


समस्या के प्रकार के अनुसार मुख्य मेट्रिक्स - और कब किसका उपयोग करना है 🎯

1) वर्गीकरण

  • परिशुद्धता, स्मरण, F1 - पहले दिन की तिकड़ी। F1 परिशुद्धता और स्मरण का हार्मोनिक माध्य है; यह तब उपयोगी होता है जब वर्ग असंतुलित हों या लागतें असममित हों। [2]

  • आरओसी-एयूसी - क्लासिफायर की थ्रेशोल्ड-अज्ञेय रैंकिंग; जब सकारात्मक दुर्लभ हों, तो पीआर-एयूसी का । [2]

  • संतुलित सटीकता - कक्षाओं में स्मरण का औसत; विषम लेबल के लिए उपयोगी। [2]

नुकसान की चेतावनी: अगर असंतुलन हो, तो सिर्फ़ सटीकता ही बेहद भ्रामक हो सकती है। अगर 99% उपयोगकर्ता वैध हैं, तो एक बेवकूफ़, हमेशा वैध मॉडल 99% अंक प्राप्त कर लेता है और दोपहर के भोजन से पहले ही आपकी धोखाधड़ी टीम को विफल कर देता है।

2) प्रतिगमन

  • MAE का उपयोग मानव-पठनीय त्रुटि के लिए करें; RMSE का उपयोग बड़ी चूकों को दंडित करने के लिए करें; का उपयोग विचरण की व्याख्या के लिए करें। फिर वितरण और अवशिष्ट आरेखों की तार्किक जाँच करें। [2]
    (डोमेन-अनुकूल इकाइयों का उपयोग करें ताकि हितधारक वास्तव में त्रुटि को महसूस कर सकें।)

3) रैंकिंग, पुनर्प्राप्ति, सिफारिशें

  • nDCG - स्थिति और श्रेणीबद्ध प्रासंगिकता का ध्यान रखता है; खोज गुणवत्ता के लिए मानक।

  • एमआरआर - इस बात पर ध्यान केंद्रित करता है कि पहला प्रासंगिक आइटम कितनी जल्दी दिखाई देता है ('एक अच्छा उत्तर ढूँढ़ें' कार्यों के लिए बढ़िया)।
    (कार्यान्वयन संदर्भ और कार्यान्वित उदाहरण मुख्यधारा मीट्रिक लाइब्रेरी में उपलब्ध हैं।) [2]

4) पाठ निर्माण और सारांशीकरण

  • BLEU और ROUGE - क्लासिक ओवरलैप मेट्रिक्स; बेसलाइन के रूप में उपयोगी।

  • एम्बेडिंग-आधारित मेट्रिक्स (जैसे, BERTScore ) अक्सर मानवीय निर्णय के साथ बेहतर सहसंबंध रखते हैं; हमेशा शैली, विश्वसनीयता और सुरक्षा के लिए मानव रेटिंग के साथ जोड़ी बनाते हैं। [4]

5) प्रश्न उत्तर

  • सटीक मिलान और टोकन-स्तर F1 निष्कर्षात्मक QA के लिए सामान्य हैं; यदि उत्तरों में स्रोतों का हवाला देना आवश्यक है, तो ग्राउंडिंग (उत्तर-समर्थन जांच) को भी मापें।


अंशांकन, आत्मविश्वास और ब्रियर लेंस 🎚️

विश्वास स्कोर वह जगह है जहाँ बहुत सारी प्रणालियाँ चुपचाप स्थित होती हैं। आप ऐसी संभावनाएँ चाहते हैं जो वास्तविकता को प्रतिबिंबित करें ताकि ऑपरेशन थ्रेसहोल्ड, मानव मार्ग, या मूल्य जोखिम निर्धारित कर सकें।

  • अंशांकन वक्र - अनुमानित संभाव्यता बनाम अनुभवजन्य आवृत्ति को दृश्यमान करें।

  • ब्रियर स्कोर - संभाव्यता सटीकता के लिए एक उचित स्कोरिंग नियम; जितना कम होगा उतना बेहतर होगा। यह विशेष रूप से तब उपयोगी होता है जब आप केवल रैंकिंग की नहीं, बल्कि संभाव्यता की गुणवत्ता

फील्ड नोट: थोड़ा "खराब" एफ1 लेकिन बहुत बेहतर अंशांकन बड़े पैमाने पर ट्राइएज में सुधार कर सकता है - क्योंकि लोग अंततः स्कोर पर भरोसा कर सकते हैं।


सुरक्षा, पूर्वाग्रह और निष्पक्षता - जो मायने रखता है उसे मापें 🛡️⚖️

एक प्रणाली समग्र रूप से सटीक होने के बावजूद भी विशिष्ट समूहों को नुकसान पहुँचा सकती है। समूहीकृत मीट्रिक और निष्पक्षता मानदंडों पर नज़र रखें:

  • जनसांख्यिकीय समानता - समूहों में समान सकारात्मक दरें।

  • समान ऑड्स / समान अवसर - समूहों में समान त्रुटि दर या सच्ची-सकारात्मक दर; इनका उपयोग ट्रेड-ऑफ़ का पता लगाने और प्रबंधित करने के लिए करें, न कि एक-शॉट पास-फेल स्टैम्प के रूप में। [5]

व्यावहारिक सुझाव: ऐसे डैशबोर्ड से शुरुआत करें जो मुख्य विशेषताओं के आधार पर मुख्य मीट्रिक्स को विभाजित करते हैं, फिर अपनी नीतियों के अनुसार विशिष्ट निष्पक्षता मीट्रिक्स जोड़ें। यह थोड़ा पेचीदा लग सकता है, लेकिन यह किसी दुर्घटना से सस्ता है।


एलएलएम और आरएजी - एक माप पुस्तिका जो वास्तव में काम करती है 📚🔍

जनरेटिव सिस्टम को मापना... टेढ़ा-मेढ़ा है। ऐसा करें:

  1. परिणामों को परिभाषित करें : शुद्धता, सहायकता, हानिरहितता, शैली अनुपालन, ब्रांड टोन, उद्धरण आधार, अस्वीकृति गुणवत्ता।

  2. बेसलाइन मूल्यांकन को स्वचालित करें और उन्हें अपने डेटासेट के साथ संस्करणबद्ध रखें।

  3. समझदारी के लिए सिमेंटिक मेट्रिक्स (एम्बेडिंग-आधारित) और ओवरलैप मेट्रिक्स (BLEU/ROUGE) जोड़ें

  4. उपकरण ग्राउंडिंग : पुनर्प्राप्ति हिट दर, संदर्भ परिशुद्धता/स्मरण, उत्तर-समर्थन ओवरलैप।

  5. सहमति के साथ मानवीय समीक्षा - रेटर की संगति को मापें (उदाहरण के लिए, कोहेन का κ या फ्लेइस का κ) ताकि आपके लेबल वाइब्स न हों।

बोनस: विलंबता प्रतिशतक और टोकन लॉग करें या प्रति कार्य लागत की गणना करें। अगले मंगलवार को आने वाला काव्यात्मक उत्तर किसी को पसंद नहीं आता।


तुलना तालिका - उपकरण जो आपको AI प्रदर्शन मापने में मदद करते हैं 🛠️📊

(हां, यह जानबूझकर थोड़ा गड़बड़ है - असली नोट्स गड़बड़ होते हैं।)

औजार सर्वश्रेष्ठ दर्शक कीमत यह क्यों काम करता है - एक त्वरित जानकारी
स्किकिट-लर्न मेट्रिक्स एमएल प्रैक्टिशनर्स मुक्त वर्गीकरण, प्रतिगमन, रैंकिंग के लिए कैनोनिकल कार्यान्वयन; परीक्षणों में शामिल करना आसान। [2]
MLflow मूल्यांकन / GenAI डेटा वैज्ञानिक, एमएलओपीएस मुफ़्त + सशुल्क केंद्रीकृत रन, स्वचालित मेट्रिक्स, एलएलएम जज, कस्टम स्कोरर; कलाकृतियों को साफ-सुथरा लॉग करता है।
ज़रूर टीमें तेजी से डैशबोर्ड चाहती हैं ओएसएस + क्लाउड 100+ मेट्रिक्स, बहाव और गुणवत्ता रिपोर्ट, मॉनिटरिंग हुक्स - एक चुटकी में अच्छे दृश्य।
भार और पूर्वाग्रह प्रयोग-प्रधान संगठन निःशुल्क स्तर साथ-साथ तुलना, मूल्यांकन डेटासेट, जज; तालिकाएं और ट्रेस सुव्यवस्थित हैं।
लैंगस्मिथ एलएलएम ऐप बिल्डर्स चुकाया गया प्रत्येक चरण का अनुरेखण करें, मानव समीक्षा को नियम या एलएलएम मूल्यांकनकर्ताओं के साथ मिलाएं; आरएजी के लिए बहुत अच्छा है।
ट्रूलेंस ओपन-सोर्स एलएलएम मूल्यांकन प्रेमियों ओएसएस फीडबैक विषाक्तता, आधारभूतता, प्रासंगिकता को स्कोर करने के लिए कार्य करता है; कहीं भी एकीकृत करें।
बड़ी उम्मीदें डेटा गुणवत्ता-प्रथम संगठन ओएसएस डेटा पर अपेक्षाओं को औपचारिक बनाएं - क्योंकि खराब डेटा वैसे भी हर मीट्रिक को बर्बाद कर देता है।
डीपचेक्स एमएल के लिए परीक्षण और सीआई/सीडी ओएसएस + क्लाउड बैटरियां - इसमें डेटा विचलन, मॉडल संबंधी मुद्दों और निगरानी के लिए परीक्षण शामिल है; अच्छी सुरक्षा व्यवस्था।

कीमतें बदलती रहती हैं - दस्तावेज़ देखें। और हाँ, आप इन्हें बिना किसी टूल पुलिस के दिखाए भी मिला सकते हैं।


सीमाएँ, लागतें और निर्णय वक्र - गुप्त सूत्र 🧪

एक अजीब लेकिन सत्य बात: समान ROC-AUC वाले दो मॉडलों का व्यवसाय मूल्य आपकी सीमा और लागत अनुपात

त्वरित शीट बनाने के लिए:

  • झूठे सकारात्मक बनाम झूठे नकारात्मक की लागत को धन या समय में निर्धारित करें।

  • स्वीप थ्रेसहोल्ड और प्रति 1k निर्णय की अपेक्षित लागत की गणना करें।

  • न्यूनतम अपेक्षित लागत चुनें , फिर उसे मॉनिटरिंग के साथ लॉक करें।

जब सकारात्मकता दुर्लभ हो तो पीआर वक्र का उपयोग करें, सामान्य आकार के लिए आरओसी वक्र और जब निर्णय संभावनाओं पर निर्भर हों तो अंशांकन वक्र का उपयोग करें। [2][3]

मिनी-केस: एक सपोर्ट-टिकट ट्राइएज मॉडल जिसमें मामूली एफ1 है लेकिन उत्कृष्ट कैलिब्रेशन ने मैनुअल री-रूट को काट दिया, जब ऑपरेशन एक हार्ड थ्रेशोल्ड से टियर्ड रूटिंग (जैसे, "ऑटो-रिज़ॉल्व," "ह्यूमन-रिव्यू," "एस्केलेट") पर स्विच हो गया, जो कैलिब्रेटेड स्कोर बैंड से जुड़ा था।


ऑनलाइन निगरानी, ​​बहाव और चेतावनी 🚨

ऑफ़लाइन मूल्यांकन शुरुआत है, अंत नहीं। उत्पादन में:

  • सेगमेंट द्वारा इनपुट बहाव , आउटपुट बहाव और प्रदर्शन क्षय को ट्रैक करें

  • रेलिंग जांच निर्धारित करें - अधिकतम मतिभ्रम दर, विषाक्तता सीमा, निष्पक्षता डेल्टा।

  • p95 विलंबता, टाइमआउट और प्रति अनुरोध लागत के लिए कैनरी डैशबोर्ड जोड़ें

  • इसे गति देने के लिए उद्देश्य-निर्मित लाइब्रेरीज़ का उपयोग करें; वे बहाव, गुणवत्ता और निगरानी संबंधी प्राथमिक सुविधाएं प्रदान करते हैं।

छोटा सा त्रुटिपूर्ण रूपक: अपने मॉडल को एक खमीरी रोटी बनाने वाले की तरह समझें - आप सिर्फ एक बार पकाकर चले नहीं जाते; आप खिलाते हैं, देखते हैं, सूंघते हैं, और कभी-कभी पुनः शुरू करते हैं।


मानवीय मूल्यांकन जो टूटता नहीं 🍪

जब लोग आउटपुट को ग्रेड देते हैं, तो प्रक्रिया आपके विचार से कहीं अधिक मायने रखती है।

  • पास बनाम सीमा रेखा बनाम फेल के उदाहरणों के साथ कड़े रूब्रिक्स लिखें

  • जब भी संभव हो, नमूनों को यादृच्छिक एवं अंध-चयनित करें।

  • अंतर-रेटिंगकर्ता सहमति को मापें (उदाहरण के लिए, दो रेटिंगकर्ताओं के लिए कोहेन का κ, अनेक के लिए फ्लेइस का κ) और यदि सहमति में कमी हो तो रूब्रिक्स को पुनः अपडेट करें।

इससे आपके मानवीय लेबल मूड या कॉफी की आपूर्ति के साथ बहने से बच जाते हैं।


गहन विश्लेषण: RAG में LLM के लिए AI प्रदर्शन को कैसे मापें

  • पुनर्प्राप्ति गुणवत्ता - रिकॉल@के, प्रिसिज़न@के, एनडीसीजी; सोने के तथ्यों का कवरेज। [2]

  • उत्तर की विश्वसनीयता - उद्धरण-और-सत्यापन जांच, आधारभूतता स्कोर, प्रतिकूल जांच।

  • उपयोगकर्ता संतुष्टि - अंगूठे, कार्य पूर्णता, सुझाए गए ड्राफ्ट से संपादन दूरी।

  • सुरक्षा - विषाक्तता, पीआईआई रिसाव, नीति अनुपालन।

  • लागत एवं विलंबता - टोकन, कैश हिट, p95 और p99 विलंबता।

इन्हें व्यावसायिक कार्यों से जोड़ें: यदि ग्राउंडेडनेस एक रेखा से नीचे गिर जाए, तो सख्त मोड या मानवीय समीक्षा के लिए स्वचालित मार्ग अपनाएं।


आज ही शुरुआत करने के लिए एक सरल प्लेबुक 🪄

  1. कार्य को परिभाषित करें - एक वाक्य लिखें: AI को क्या करना चाहिए और किसके लिए।

  2. 2-3 कार्य मेट्रिक्स चुनें - साथ ही कैलिब्रेशन और कम से कम एक निष्पक्षता स्लाइस। [2][3][5]

  3. लागत का उपयोग करके सीमा तय करें - अनुमान न लगाएं।

  4. एक छोटा मूल्यांकन सेट बनाएं - 100-500 लेबल वाले उदाहरण जो उत्पादन मिश्रण को दर्शाते हों।

  5. अपने मूल्यांकन को स्वचालित करें - मूल्यांकन/निगरानी को CI में जोड़ें ताकि प्रत्येक परिवर्तन पर समान जांच हो।

  6. उत्पाद में मॉनिटर - बहाव, विलंबता, लागत, घटना झंडे।

  7. मासिक आधार पर समीक्षा करें - उन मेट्रिक्स को हटा दें जिनका कोई उपयोग नहीं करता; उन मेट्रिक्स को जोड़ें जो वास्तविक प्रश्नों का उत्तर देते हैं।

  8. निर्णयों का दस्तावेजीकरण करें - एक जीवंत स्कोरकार्ड जिसे आपकी टीम वास्तव में पढ़ती है।

हाँ, सचमुच यही है। और यह काम करता है।


आम ग़लतियाँ और उनसे कैसे बचें 🕳️🐇

  • एकल मीट्रिक पर ओवरफिटिंग - निर्णय संदर्भ से मेल खाने वाली मीट्रिक बास्केट का

  • अंशांकन की अनदेखी करना - अंशांकन के बिना आत्मविश्वास सिर्फ अहंकार है। [3]

  • कोई विभाजन नहीं - हमेशा उपयोगकर्ता समूहों, भूगोल, डिवाइस, भाषा के आधार पर विभाजित करें। [5]

  • अनिर्धारित लागतें - यदि आप मूल्य त्रुटियाँ नहीं करते हैं, तो आप गलत सीमा चुन लेंगे।

  • मानव मूल्यांकन बहाव - सहमति को मापना, रूब्रिक्स को ताज़ा करना, समीक्षकों को पुनः प्रशिक्षित करना।

  • कोई सुरक्षा उपकरण नहीं - निष्पक्षता, विषाक्तता और नीति जाँच अभी जोड़ें, बाद में नहीं। [1][5]


आप जिस वाक्यांश के लिए आए थे: AI प्रदर्शन को कैसे मापें - बहुत लंबा, मैंने इसे नहीं पढ़ा 🧾

  • स्पष्ट परिणामों से शुरू करें , फिर कार्य , सिस्टम और व्यावसायिक मेट्रिक्स को स्टैक करें। [1]

  • नौकरी के लिए सही मेट्रिक्स का उपयोग करें - वर्गीकरण के लिए F1 और ROC-AUC; रैंकिंग के लिए nDCG/MRR; पीढ़ी के लिए ओवरलैप + सिमेंटिक मेट्रिक्स (मानव के साथ युग्मित)। [2][4]

  • जांचे और अपनी त्रुटियों का मूल्यांकन करें । [2][3]

  • समूह स्लाइस के साथ निष्पक्षता जोड़ें

  • मूल्यांकन और निगरानी को स्वचालित करें ताकि आप बिना किसी डर के पुनरावृत्ति कर सकें।

आप जानते हैं कि यह कैसा है - जो महत्वपूर्ण है उसे मापें, अन्यथा आप जो महत्वपूर्ण नहीं है उसे सुधारेंगे।


संदर्भ

[1] एनआईएसटी. एआई जोखिम प्रबंधन ढाँचा (एआई आरएमएफ)। और पढ़ें
[2] स्किकिट-लर्न। मॉडल मूल्यांकन: पूर्वानुमानों की गुणवत्ता का परिमाणीकरण (उपयोगकर्ता मार्गदर्शिका)। और पढ़ें
[3] स्किकिट-लर्न। संभाव्यता अंशांकन (अंशांकन वक्र, ब्रियर स्कोर)। और पढ़ें
[4] पापिनेनी एट अल. (2002)। BLEU: मशीन अनुवाद के स्वचालित मूल्यांकन की एक विधि। ACL। और पढ़ें
[5] हार्ड्ट, प्राइस, स्रेब्रो (2016)। पर्यवेक्षित शिक्षण में अवसर की समानता। न्यूरआईपीएस। और पढ़ें

आधिकारिक AI सहायक स्टोर पर नवीनतम AI खोजें

हमारे बारे में

ब्लॉग पर वापस जाएँ