एआई मॉडल का मूल्यांकन कैसे करें

एआई मॉडल का मूल्यांकन कैसे करें

संक्षिप्त उत्तर: अपने उपयोग के लिए "अच्छा" क्या है, इसे परिभाषित करें, फिर प्रतिनिधि, वर्ज़न्ड प्रॉम्प्ट और एज केस के साथ परीक्षण करें। स्वचालित मेट्रिक्स को मानवीय मूल्यांकन के साथ-साथ एडवर्सरियल सेफ्टी और प्रॉम्प्ट-इंजेक्शन जांच के साथ मिलाएं। यदि लागत या विलंबता संबंधी बाधाएं बाध्यकारी हो जाती हैं, तो प्रति पाउंड खर्च पर कार्य सफलता और p95/p99 प्रतिक्रिया समय के आधार पर मॉडलों की तुलना करें।

चाबी छीनना:

जवाबदेही : स्पष्ट रूप से जिम्मेदार व्यक्तियों को नियुक्त करें, संस्करण लॉग रखें और किसी भी संकेत या मॉडल परिवर्तन के बाद मूल्यांकन को पुनः चलाएं।

पारदर्शिता : स्कोर एकत्र करना शुरू करने से पहले सफलता के मानदंड, बाधाएं और विफलता की लागत लिख लें।

ऑडिट करने की क्षमता : दोहराए जाने योग्य परीक्षण सूट, लेबल किए गए डेटासेट और ट्रैक किए गए p95/p99 विलंबता मेट्रिक्स को बनाए रखें।

विवादयोग्यता : विवादित परिणामों के लिए मानवीय समीक्षा मानदंडों और एक परिभाषित अपील प्रक्रिया का उपयोग करें।

दुरुपयोग प्रतिरोध : रेड-टीम द्वारा त्वरित हस्तक्षेप, संवेदनशील विषय और उपयोगकर्ताओं की सुरक्षा के प्रति अत्यधिक इनकार।

अगर आप किसी उत्पाद, शोध परियोजना या आंतरिक उपकरण के लिए कोई मॉडल चुन रहे हैं, तो आप सिर्फ यह कहकर उसे लॉन्च नहीं कर सकते कि "यह स्मार्ट लगता है" ( ओपनएआई मूल्यांकन गाइड और एनआईएसटी एआई आरएमएफ 1.0 )। ऐसा करने से आप एक ऐसे चैटबॉट के साथ खत्म हो जाते हैं जो आत्मविश्वास से बताता है कि कांटे को माइक्रोवेव में कैसे गर्म किया जाता है। 😬

एआई मॉडल का मूल्यांकन कैसे करें - इन्फोग्राफिक

इस लेख के बाद आप ये लेख भी पढ़ सकते हैं:

🔗 कृत्रिम बुद्धिमत्ता का भविष्य: अगले दशक को आकार देने वाले रुझान।
प्रमुख नवाचार, नौकरियों पर प्रभाव और आगे देखने योग्य नैतिकता।

🔗 जनरेटिव एआई में मूलभूत मॉडल शुरुआती लोगों के लिए समझाए गए हैं।
जानें कि वे क्या हैं, उन्हें कैसे प्रशिक्षित किया जाता है और वे क्यों महत्वपूर्ण हैं।

🔗 एआई पर्यावरण और ऊर्जा उपयोग को कैसे प्रभावित करता है?
उत्सर्जन, बिजली की मांग और कार्बन फुटप्रिंट को कम करने के तरीकों का पता लगाएं।

🔗 आज बेहतर छवियों के लिए एआई अपस्केलिंग कैसे काम करता है,
देखें कि मॉडल कैसे विवरण जोड़ते हैं, शोर हटाते हैं और स्पष्ट रूप से बड़ा करते हैं।


1) "अच्छा" की परिभाषा (यह परिस्थितियों पर निर्भर करता है, और यह ठीक है) 🎯

किसी भी मूल्यांकन को शुरू करने से पहले, तय कर लें कि सफलता का मतलब क्या है। वरना आप हर चीज़ को नापते रहेंगे और कुछ नहीं सीखेंगे। यह ठीक वैसा ही है जैसे केक प्रतियोगिता में नापने के लिए टेप लेकर जाना। बेशक, आपको संख्याएँ तो मिल जाएँगी, लेकिन उनसे आपको ज़्यादा कुछ पता नहीं चलेगा 😅

स्पष्ट करना:

  • उपयोगकर्ता का लक्ष्य : सारांश, खोज, लेखन, तर्क, तथ्य निष्कर्षण

  • विफलता की लागत : गलत फिल्म की सिफारिश हास्यास्पद होती है; गलत चिकित्सा निर्देश... हास्यास्पद नहीं होता (जोखिम निर्धारण: एनआईएसटी एआई आरएमएफ 1.0 )।

  • रनटाइम वातावरण : डिवाइस पर, क्लाउड में, फ़ायरवॉल के पीछे, एक विनियमित वातावरण में

  • मुख्य बाधाएँ : विलंबता, प्रति अनुरोध लागत, गोपनीयता, व्याख्यात्मकता, बहुभाषी समर्थन, स्वर नियंत्रण

एक मॉडल जो एक काम में "सर्वश्रेष्ठ" हो, वही दूसरे काम में पूरी तरह विफल हो सकता है। यह कोई विरोधाभास नहीं, बल्कि वास्तविकता है। 🙂


2) एक मजबूत एआई मॉडल मूल्यांकन ढांचा कैसा दिखता है 🧰

जी हां, यही वो हिस्सा है जिसे लोग अक्सर छोड़ देते हैं। वे एक बेंचमार्क लेते हैं, उसे एक बार चलाते हैं और काम खत्म कर देते हैं। एक मजबूत मूल्यांकन ढांचे में कुछ सुसंगत विशेषताएं होती हैं (व्यावहारिक टूलिंग उदाहरण: OpenAI Evals / OpenAI evals गाइड ):

  • दोहराने योग्य - आप इसे अगले सप्ताह फिर से चला सकते हैं और तुलनाओं पर भरोसा कर सकते हैं।

  • प्रतिनिधि - यह आपके वास्तविक उपयोगकर्ताओं और कार्यों को दर्शाता है (केवल सामान्य जानकारी को नहीं)।

  • बहुस्तरीय - स्वचालित मेट्रिक्स + मानवीय समीक्षा + प्रतिपक्षी परीक्षणों का संयोजन

  • कार्रवाई योग्य - परिणाम आपको बताते हैं कि क्या सुधारना है, न कि केवल "स्कोर कम हो गया"।

  • छेड़छाड़-रोधी - परीक्षण के लिए निर्देश देने या आकस्मिक रिसाव से बचाता है।

  • लागत के प्रति जागरूक रहें - मूल्यांकन स्वयं आपको दिवालिया नहीं कर देना चाहिए (जब तक कि आपको दर्द पसंद न हो)।

यदि आपका मूल्यांकन किसी संशयवादी सहकर्मी के यह कहने पर खरा नहीं उतरता कि "ठीक है, लेकिन इसे प्रोडक्शन में मैप करें," तो इसका मतलब है कि यह अभी पूरा नहीं हुआ है। यही असलियत का आकलन है।.


3) उपयोग-मामले के उदाहरणों से शुरुआत करके एआई मॉडल का मूल्यांकन कैसे करें 🍰

यहां एक ऐसी तरकीब है जिससे बहुत समय बचता है: उपयोग के मामले को छोटे-छोटे हिस्सों में बांट दें

“मॉडल का मूल्यांकन करें” के बजाय, यह करें:

  • उद्देश्य को समझना (क्या यह उपयोगकर्ता की इच्छा को पूरा करता है)

  • जानकारी प्राप्त करना या संदर्भ का उपयोग करना (क्या यह दी गई जानकारी का सही ढंग से उपयोग करता है)

  • तर्क क्षमता / बहु-चरणीय कार्य (क्या यह सभी चरणों में सुसंगत रहता है)

  • स्वरूपण और संरचना (क्या यह निर्देशों का पालन करता है?)

  • सुरक्षा और नीतिगत संरेखण (क्या यह असुरक्षित सामग्री से बचता है; एनआईएसटी एआई आरएमएफ 1.0 )

  • लहजा और ब्रांड की आवाज़ (क्या यह वैसा ही लगता है जैसा आप चाहते हैं)

इससे “एआई मॉडल का मूल्यांकन कैसे करें” कोर्स एक बड़ी परीक्षा की बजाय लक्षित प्रश्नोत्तरी के एक सेट जैसा लगता है। प्रश्नोत्तरी थोड़ी परेशान करने वाली होती हैं, लेकिन उन्हें हल किया जा सकता है। 😄


4) ऑफ़लाइन मूल्यांकन की बुनियादी बातें - परीक्षण सेट, लेबल और वे सभी महत्वपूर्ण विवरण जो देखने में आकर्षक नहीं लगते 📦

ऑफलाइन मूल्यांकन वह प्रक्रिया है जिसमें उपयोगकर्ता द्वारा किसी भी चीज़ को छूने से पहले नियंत्रित परीक्षण किए जाते हैं (कार्यप्रवाह पैटर्न: ओपनएआई मूल्यांकन )।

एक ऐसा टेस्ट सेट बनाएं या इकट्ठा करें जो वास्तव में आपका हो।

एक अच्छे टेस्ट सेट में आमतौर पर निम्नलिखित शामिल होते हैं:

  • स्वर्णिम उदाहरण : आदर्श परिणाम जिन्हें आप गर्व से प्रदर्शित करेंगे

  • अपवाद : अस्पष्ट संकेत, अव्यवस्थित इनपुट, अप्रत्याशित स्वरूपण

  • विफलता-मोड जांच : ऐसे संकेत जो मतिभ्रम या असुरक्षित प्रतिक्रियाओं को प्रेरित करते हैं (जोखिम परीक्षण फ्रेमिंग: एनआईएसटी एआई आरएमएफ 1.0 )

  • विविधता कवरेज : विभिन्न उपयोगकर्ता कौशल स्तर, बोलियाँ, भाषाएँ, डोमेन

अगर आप सिर्फ "साफ-सुथरे" प्रॉम्प्ट्स पर ही टेस्टिंग करते हैं, तो मॉडल देखने में शानदार लगेगा। लेकिन फिर आपके यूजर्स टाइपिंग की गलतियों, अधूरे वाक्यों और गुस्से में क्लिक करने जैसी हरकतों के साथ सामने आएंगे। यही हकीकत है।.

लेबलिंग विकल्प (यानी: सख्ती के स्तर)

आप आउटपुट को इस प्रकार लेबल कर सकते हैं:

  • बाइनरी : पास/फेल (तेज़, कठोर)

  • क्रमसूचक : 1-5 गुणवत्ता स्कोर (बारीक, व्यक्तिपरक)

  • बहु-विशेषता : सटीकता, पूर्णता, लहजा, उद्धरणों का उपयोग आदि (सर्वोत्तम, धीमा)

कई टीमों के लिए मल्टी-एट्रीब्यूट सबसे कारगर तरीका है। यह ठीक वैसे ही है जैसे खाना चखते समय नमक की मात्रा और बनावट को अलग-अलग परखना। वरना आप बस "अच्छा" कहकर कंधे उचका देते हैं।.


5) ऐसे मेट्रिक्स जो झूठ नहीं बोलते - और ऐसे मेट्रिक्स जो थोड़ा-बहुत झूठ बोलते हैं 📊😅

मापदंड मूल्यवान होते हैं... लेकिन वे एक चमकते बम की तरह भी हो सकते हैं। चमकदार, हर जगह फैले हुए, और जिन्हें साफ करना मुश्किल होता है।.

सामान्य मीट्रिक परिवार

  • सटीकता / सटीक मिलान : निष्कर्षण, वर्गीकरण और संरचित कार्यों के लिए उत्कृष्ट।

  • F1 / प्रेसिजन / रिकॉल : यह तब उपयोगी होता है जब किसी चीज का छूट जाना अतिरिक्त शोर से भी बदतर हो (परिभाषाएँ: scikit-learn प्रेसिजन/रिकॉल/F-स्कोर )

  • BLEU / ROUGE शैली का ओवरलैप : सारांश संबंधी कार्यों के लिए ठीक है, लेकिन अक्सर भ्रामक होता है (मूल मेट्रिक्स: BLEU और ROUGE )

  • समानता को शामिल करना : अर्थ संबंधी मिलान में सहायक, गलत लेकिन समान उत्तरों को पुरस्कृत कर सकता है

  • कार्य सफलता दर : "क्या उपयोगकर्ता को वह मिला जिसकी उन्हें आवश्यकता थी?" सही परिभाषा होने पर यह एक आदर्श मानक है।

  • बाधा अनुपालन : प्रारूप, लंबाई, JSON वैधता और स्कीमा अनुपालन का पालन करता है।

मुख्य बिंदु

यदि आपका कार्य खुला-अंत वाला है (लेखन, तर्क-वितर्क, सहायता चैट), तो एकल-संख्या मापन पद्धति… अस्थिर हो सकती है। निरर्थक नहीं, बस अस्थिर। रचनात्मकता को पैमाने से मापना संभव है, लेकिन ऐसा करते हुए आपको अजीब लगेगा। (और शायद आप अपनी आंख में चोट भी लगा लेंगे।)

इसलिए: मैट्रिक्स का उपयोग करें, लेकिन उन्हें मानवीय समीक्षा और वास्तविक कार्य परिणामों से जोड़ें (एलएलएम-आधारित मूल्यांकन चर्चा + चेतावनियों का एक उदाहरण: जी-इवैल )।


6) तुलना तालिका - शीर्ष मूल्यांकन विकल्प (कुछ विचित्रताओं के साथ, क्योंकि जीवन में विचित्रताएं होती हैं) 🧾✨

यहां मूल्यांकन के विभिन्न तरीकों की एक व्यावहारिक सूची दी गई है। इन्हें अपनी आवश्यकतानुसार मिलाएं। अधिकांश टीमें ऐसा ही करती हैं।.

उपकरण / विधि श्रोता कीमत यह कैसे काम करता है
हाथ से निर्मित त्वरित परीक्षण सूट उत्पाद + अंग्रेजी $ बहुत सटीक, त्रुटियों को तुरंत पकड़ लेता है - लेकिन आपको इसे हमेशा के लिए बनाए रखना होगा 🙃 (शुरुआती टूल: OpenAI Evals )
मानव मूल्यांकन पैनल वे टीमें जो समीक्षकों को अतिरिक्त सहायता प्रदान कर सकती हैं $$ लहजे, बारीकियों, "क्या कोई इंसान इसे स्वीकार करेगा?" जैसे भावों और समीक्षकों के अनुसार थोड़ी-बहुत अव्यवस्था के लिए सबसे अच्छा।
एलएलएम-न्यायाधीश के रूप में (नियमों सहित) तेज़ पुनरावृति लूप $-$$ तेज़ और विस्तार योग्य, लेकिन इसमें पूर्वाग्रह आ सकता है और कभी-कभी यह तथ्यों के बजाय भावनाओं को ग्रेड देता है (अनुसंधान + ज्ञात पूर्वाग्रह मुद्दे: जी-इवैल )।
विरोधी रेड-टीमिंग स्प्रिंट सुरक्षा + अनुपालन $$ इसमें विशेष रूप से त्वरित इंजेक्शन जैसी जटिल विफलता पद्धतियों का पता चलता है - यह जिम में तनाव परीक्षण जैसा लगता है (खतरे का अवलोकन: OWASP LLM01 त्वरित इंजेक्शन / OWASP LLM ऐप्स के लिए शीर्ष 10 )
सिंथेटिक परीक्षण उत्पादन डेटा-लाइट टीमें $ कवरेज तो बढ़िया है, लेकिन कृत्रिम संकेत कभी-कभी बहुत ही सलीकेदार और विनम्र होते हैं... उपयोगकर्ता विनम्र नहीं होते।
वास्तविक उपयोगकर्ताओं के साथ ए/बी परीक्षण परिपक्व उत्पाद $$$ सबसे स्पष्ट संकेत - साथ ही सबसे अधिक भावनात्मक रूप से तनावपूर्ण भी जब मैट्रिक्स में उतार-चढ़ाव होता है (क्लासिक व्यावहारिक मार्गदर्शिका: कोहावी एट अल., "वेब पर नियंत्रित प्रयोग" )
पुनर्प्राप्ति-आधारित मूल्यांकन (RAG जाँच) खोजें + QA ऐप्स $$ उपाय "संदर्भ का सही उपयोग करता है," मतिभ्रम स्कोर में वृद्धि को कम करता है (आरएजी मूल्यांकन अवलोकन: आरएजी का मूल्यांकन: एक सर्वेक्षण )
निगरानी + विचलन का पता लगाना उत्पादन प्रणालियाँ $$-$$$ समय के साथ होने वाली खराबी को पकड़ लेता है - जब तक यह आपकी जान नहीं बचाता, तब तक यह आकर्षक नहीं लगता 😬 (ड्रिफ्ट अवलोकन: कॉन्सेप्ट ड्रिफ्ट सर्वे (पीएमसी) )

ध्यान दें कि कीमतें जानबूझकर अनिश्चित रखी गई हैं। ये पैमाने, उपयोग किए जाने वाले उपकरणों और अनजाने में आयोजित होने वाली बैठकों की संख्या पर निर्भर करती हैं।.


7) मानवीय मूल्यांकन - वह गुप्त हथियार जिसे लोग कम महत्व देते हैं 👀🧑⚖️

यदि आप केवल स्वचालित मूल्यांकन करते हैं, तो आप निम्नलिखित बातों से वंचित रह जाएंगे:

  • लहजे में असंगति ("यह इतना व्यंग्यात्मक क्यों है")

  • सूक्ष्म तथ्यात्मक त्रुटियाँ जो सहज प्रतीत होती हैं

  • हानिकारक निहितार्थ, रूढ़िवादिताएँ, या अटपटी शब्दावली (जोखिम + पूर्वाग्रह फ्रेमिंग: NIST AI RMF 1.0 )

  • निर्देशों का पालन करने में हुई ऐसी गलतियाँ जो अब भी "स्मार्ट" लगती हैं

मूल्यांकन मानदंड को स्पष्ट बनाएं (अन्यथा समीक्षक अपनी मर्जी से काम करेंगे)

खराब मानदंड: "सहायता"
बेहतर मानदंड:

  • शुद्धता : दिए गए संकेत और संदर्भ के आधार पर तथ्यात्मक रूप से सटीक।

  • पूर्णता : अनावश्यक बातों को शामिल किए बिना आवश्यक बिंदुओं को समेटता है।

  • स्पष्टता : पठनीय, सुव्यवस्थित, न्यूनतम भ्रम

  • नीति/सुरक्षा : प्रतिबंधित सामग्री से परहेज करता है, अस्वीकृति को अच्छी तरह से संभालता है (सुरक्षा ढांचा: NIST AI RMF 1.0 )

  • शैली : आवाज, लहजे और पढ़ने के स्तर से मेल खाती है

  • निष्ठा : निराधार स्रोतों या दावों का आविष्कार नहीं करता।

साथ ही, समय-समय पर समीक्षकों के बीच तुलना भी करें। यदि दो समीक्षक लगातार असहमत होते हैं, तो यह "लोगों की समस्या" नहीं है, बल्कि मूल्यांकन पद्धति की समस्या है। आमतौर पर (समीक्षकों के बीच विश्वसनीयता की मूल बातें: कोहेन के कप्पा पर मैकह्यू का शोध )।


8) सुरक्षा, मजबूती और उपयोगकर्ताओं की समस्याओं को ध्यान में रखते हुए एआई मॉडल का मूल्यांकन कैसे करें 🧯🧪

यह वह हिस्सा है जिसे आप लॉन्च से पहले करते हैं - और फिर लगातार करते रहते हैं, क्योंकि इंटरनेट कभी सोता नहीं है।.

मजबूती परीक्षणों में शामिल हैं

  • गलत वर्तनी, बोलचाल की भाषा, टूटी-फूटी व्याकरण

  • बहुत लंबे प्रॉम्प्ट और बहुत छोटे प्रॉम्प्ट

  • परस्पर विरोधी निर्देश ("संक्षिप्त रहें लेकिन हर विवरण शामिल करें")

  • कई चरणों वाली बातचीत जिसमें उपयोगकर्ता अपने लक्ष्य बदलते हैं

  • त्वरित इंजेक्शन के प्रयास (“पिछले नियमों को अनदेखा करें…”) (खतरे का विवरण: OWASP LLM01 त्वरित इंजेक्शन )

  • संवेदनशील विषय जिन पर सावधानीपूर्वक अस्वीकृति की आवश्यकता होती है (जोखिम/सुरक्षा रूपरेखा: एनआईएसटी एआई आरएमएफ 1.0 )

सुरक्षा मूल्यांकन का मतलब सिर्फ यह नहीं है कि "क्या यह मना करता है"।

एक अच्छे मॉडल में निम्नलिखित गुण होने चाहिए:

  • असुरक्षित अनुरोधों को स्पष्ट और शांत तरीके से अस्वीकार करें (मार्गदर्शन रूपरेखा: एनआईएसटी एआई आरएमएफ 1.0 )

  • उपयुक्त होने पर सुरक्षित विकल्प प्रदान करें

  • हानिरहित प्रश्नों को बार-बार अस्वीकार करने से बचें (गलत सकारात्मक परिणाम)।

  • अस्पष्ट अनुरोधों को स्पष्टीकरण वाले प्रश्नों के साथ संभालें (जब अनुमति हो)।

अत्यधिक अस्वीकृति एक वास्तविक उत्पाद समस्या है। उपयोगकर्ता संदिग्ध जिन्न की तरह व्यवहार किए जाने को पसंद नहीं करते। 🧌 (भले ही वे वास्तव में संदिग्ध जिन्न हों।)


9) लागत, विलंबता और परिचालन संबंधी वास्तविकता - वह मूल्यांकन जिसे हर कोई भूल जाता है 💸⏱️

कोई मॉडल "शानदार" होने के बावजूद भी आपके लिए गलत हो सकता है यदि वह धीमा, महंगा या संचालन की दृष्टि से नाजुक हो।.

मूल्यांकन करना:

  • विलंबता वितरण (केवल औसत ही नहीं - p95 और p99 भी मायने रखते हैं) (प्रतिशतक क्यों मायने रखते हैं: निगरानी पर Google SRE वर्कबुक )

  • प्रत्येक सफल कार्य की लागत (केवल टोकन की लागत नहीं)

  • लोड के तहत स्थिरता (टाइमआउट, दर सीमा, असामान्य उतार-चढ़ाव)

  • टूल कॉलिंग विश्वसनीयता (यदि यह फ़ंक्शन का उपयोग करता है, तो क्या यह ठीक से काम करता है)

  • आउटपुट की लंबाई संबंधी प्रवृत्तियाँ (कुछ मॉडल बहुत लंबे होते हैं, और लंबे समय तक चलने वाले आउटपुट में पैसा खर्च होता है)

थोड़ी कमज़ोर लेकिन दोगुनी तेज़ चलने वाली कार भी असल में जीत सकती है। यह बात तो बिल्कुल साफ़ है, फिर भी लोग इसे नज़रअंदाज़ कर देते हैं। जैसे किराने का सामान लाने के लिए स्पोर्ट्स कार खरीदना और फिर डिग्गी में जगह की कमी की शिकायत करना।.


10) एक सरल संपूर्ण कार्यप्रणाली जिसे आप कॉपी (और संशोधित) कर सकते हैं 🔁✅

बिना अंतहीन प्रयोगों में फंसे एआई मॉडल का मूल्यांकन करने के लिए यहां एक व्यावहारिक प्रक्रिया दी गई है

  1. सफलता को परिभाषित करें : कार्य, बाधाएं, विफलता की लागत

  2. एक छोटा "कोर" टेस्ट सेट बनाएं : 50-200 उदाहरण जो वास्तविक उपयोग को दर्शाते हों।

  3. एज और एडवर्सरियल सेट जोड़ें : इंजेक्शन प्रयास, अस्पष्ट संकेत, सुरक्षा जांच (संकेत इंजेक्शन वर्ग: OWASP LLM01 )

  4. स्वचालित जाँचें चलाएँ : फ़ॉर्मेटिंग, JSON की वैधता, और जहाँ संभव हो बुनियादी शुद्धता।

  5. मानव समीक्षा करें : विभिन्न श्रेणियों में नमूना आउटपुट लें, मूल्यांकन मानदंड के आधार पर स्कोर निर्धारित करें।

  6. गुणवत्ता, लागत, विलंबता और सुरक्षा के बीच के अंतरों की तुलना करें

  7. सीमित रिलीज में पायलट प्रोजेक्ट : ए/बी परीक्षण या चरणबद्ध रोलआउट (ए/बी परीक्षण मार्गदर्शिका: कोहावी एट अल. )

  8. उत्पादन में निगरानी : विचलन, प्रतिगमन, उपयोगकर्ता प्रतिक्रिया लूप (विचलन का अवलोकन: अवधारणा विचलन सर्वेक्षण (पीएमसी) )

  9. पुनरावृति करें : प्रॉम्प्ट, पुनर्प्राप्ति, फाइन-ट्यूनिंग, गार्डरेल्स को अपडेट करें, फिर से इवैल चलाएं (इवैल पुनरावृति पैटर्न: ओपनएआई इवैल गाइड )

वर्ज़न्ड लॉग्स रखें। इसलिए नहीं कि यह मज़ेदार है, बल्कि इसलिए कि भविष्य में आप कॉफी पीते हुए और मन ही मन सोचते हुए, "क्या बदल गया...?" (🙂)


11) आम गलतियाँ (यानी: वे तरीके जिनसे लोग अनजाने में खुद को मूर्ख बना लेते हैं) 🪤

  • परीक्षण के लिए प्रशिक्षण : आप बेंचमार्क के बेहतरीन दिखने तक प्रॉम्प्ट को ऑप्टिमाइज़ करते हैं, लेकिन उपयोगकर्ताओं को परेशानी झेलनी पड़ती है।

  • मूल्यांकन डेटा में गड़बड़ी : परीक्षण संकेत प्रशिक्षण या फाइन-ट्यूनिंग डेटा में दिखाई देते हैं (अफ़सोस!)

  • एकल मापदंड की पूजा : एक ऐसे स्कोर का पीछा करना जो उपयोगकर्ता के मूल्य को प्रतिबिंबित नहीं करता है।

  • वितरण परिवर्तन की अनदेखी : उपयोगकर्ता व्यवहार बदलता है और आपका मॉडल धीरे-धीरे खराब होता जाता है (उत्पादन जोखिम का विश्लेषण: अवधारणा विचलन सर्वेक्षण (पीएमसी) )

  • “चतुराई” पर अत्यधिक ज़ोर देना : अगर चतुर तर्क से प्रारूप बिगड़ जाए या मनगढ़ंत तथ्य सामने आएं तो उसका कोई महत्व नहीं है।

  • अस्वीकृति की गुणवत्ता का परीक्षण न करना : "नहीं" सही हो सकता है, लेकिन फिर भी उपयोगकर्ता अनुभव बहुत खराब रहेगा।

साथ ही, डेमो से सावधान रहें। डेमो बिल्कुल फिल्म के ट्रेलर की तरह होते हैं। वे मुख्य अंश दिखाते हैं, धीमे हिस्सों को छिपाते हैं, और कभी-कभी नाटकीय संगीत से धोखा देते हैं। 🎬


12) एआई मॉडल का मूल्यांकन कैसे करें, इस पर समापन सारांश 🧠✨

एआई मॉडल का मूल्यांकन केवल एक अंक के आधार पर नहीं किया जाता, बल्कि यह एक संतुलित आहार की तरह है। इसमें प्रोटीन (शुद्धता), सब्जियां (सुरक्षा), कार्बोहाइड्रेट (गति और लागत), और हां, कभी-कभी मिठाई (स्वाद और आनंद) भी शामिल होती है 🍲🍰 (जोखिम का आकलन: NIST AI RMF 1.0 )

अगर आपको और कुछ याद न रहे तो:

  • अपने उपयोग के संदर्भ में "अच्छा" का क्या अर्थ है, इसे परिभाषित करें।

  • प्रतिनिधि परीक्षण सेटों का उपयोग करें, न कि केवल प्रसिद्ध बेंचमार्क का।

  • स्वचालित मापदंडों को मानवीय मूल्यांकन के साथ संयोजित करें।

  • परीक्षण की मजबूती और सुरक्षा का आकलन इस तरह करें जैसे उपयोगकर्ता विरोधी हों (क्योंकि कभी-कभी... वे होते हैं) (प्रॉम्प्ट इंजेक्शन क्लास: OWASP LLM01 )

  • मूल्यांकन में लागत और विलंबता को शामिल करें, न कि बाद में विचार करने के लिए (प्रतिशत क्यों मायने रखते हैं: गूगल एसआरई वर्कबुक )

  • लॉन्च के बाद निगरानी करें - मॉडल बदलते हैं, ऐप्स विकसित होते हैं, मनुष्य रचनात्मक हो जाते हैं (परिस्थिति में बदलाव का अवलोकन: कॉन्सेप्ट ड्रिफ्ट सर्वे (पीएमसी) )

इस तरह से एआई मॉडल का मूल्यांकन किया जाता है, जो आपके उत्पाद के लाइव होने और लोगों द्वारा अप्रत्याशित व्यवहार करने पर भी कारगर साबित होता है। (और ऐसा हमेशा होता है।) 🙂

अक्सर पूछे जाने वाले प्रश्न

किसी वास्तविक उत्पाद के लिए एआई मॉडल का मूल्यांकन करने का पहला चरण क्या है?

सबसे पहले, अपने विशिष्ट उपयोग के मामले में "अच्छा" का अर्थ परिभाषित करें। उपयोगकर्ता का लक्ष्य स्पष्ट करें, विफलताओं से होने वाले नुकसान (कम जोखिम बनाम अधिक जोखिम) और मॉडल कहाँ चलेगा (क्लाउड, डिवाइस पर, नियंत्रित वातावरण) यह बताएं। फिर विलंबता, लागत, गोपनीयता और नीतिगत नियंत्रण जैसी ठोस बाधाओं को सूचीबद्ध करें। इस आधार के बिना, आप बहुत कुछ मापेंगे और फिर भी गलत निर्णय ले लेंगे।.

मैं एक ऐसा टेस्ट सेट कैसे बनाऊं जो मेरे उपयोगकर्ताओं को सही मायने में प्रतिबिंबित करे?

एक ऐसा टेस्ट सेट तैयार करें जो सचमुच आपका अपना हो, न कि सिर्फ एक सार्वजनिक बेंचमार्क। इसमें ऐसे बेहतरीन उदाहरण शामिल करें जिन्हें आप गर्व से प्रकाशित करना चाहेंगे, साथ ही टाइपो, अधूरे वाक्यों और अस्पष्ट अनुरोधों से भरे, वास्तविक दुनिया के संदर्भों में इस्तेमाल होने वाले प्रश्न भी शामिल करें। ऐसे विशिष्ट मामलों और विफलता-मोड की जांच शामिल करें जो भ्रम या असुरक्षित प्रतिक्रियाओं को जन्म दे सकते हैं। कौशल स्तर, बोलियों, भाषाओं और डोमेन में विविधता को शामिल करें ताकि उत्पादन में परिणाम विफल न हों।.

मुझे किन मापदंडों का उपयोग करना चाहिए, और कौन से मापदंड भ्रामक हो सकते हैं?

कार्य के प्रकार के अनुसार मेट्रिक्स का चयन करें। सटीक मिलान और सटीकता निष्कर्षण और संरचित आउटपुट के लिए कारगर होते हैं, जबकि परिशुद्धता/रिकॉल और F1 तब सहायक होते हैं जब किसी चीज का छूट जाना अतिरिक्त शोर से भी बदतर हो। BLEU/ROUGE जैसे ओवरलैप मेट्रिक्स खुले-छोर वाले कार्यों के लिए भ्रामक हो सकते हैं, और एम्बेडिंग समानता "गलत लेकिन समान" उत्तरों को पुरस्कृत कर सकती है। लेखन, समर्थन या तर्क के लिए, मेट्रिक्स को मानवीय समीक्षा और कार्य सफलता दर के साथ संयोजित करें।.

मुझे मूल्यांकन को किस प्रकार संरचित करना चाहिए ताकि वे दोहराने योग्य और उत्पादन-स्तरीय हों?

एक सुदृढ़ मूल्यांकन ढांचा दोहराने योग्य, प्रतिनिधि, बहुस्तरीय और कार्रवाई योग्य होता है। स्वचालित जांच (स्वरूप, JSON वैधता, बुनियादी शुद्धता) को मानवीय मूल्यांकन मानदंड और प्रतिकूल परीक्षणों के साथ संयोजित करें। डेटा लीक होने से बचाकर और "परीक्षण के लिए प्रशिक्षण" न देकर इसे छेड़छाड़-रोधी बनाएं। मूल्यांकन को लागत के प्रति जागरूक रखें ताकि आप इसे लॉन्च से पहले केवल एक बार नहीं, बल्कि बार-बार चला सकें।.

मानव मूल्यांकन को अव्यवस्था में बदले बिना करने का सबसे अच्छा तरीका क्या है?

एक ठोस मानदंड का प्रयोग करें ताकि समीक्षक मनमानी न करें। शुद्धता, पूर्णता, स्पष्टता, सुरक्षा/नीतिगत अनुपालन, शैली/स्वर का मेल और सत्यनिष्ठा (मनगढ़ंत दावे या स्रोत न बनाना) जैसे गुणों को अंक दें। समय-समय पर समीक्षकों के बीच सहमति की जाँच करें; यदि समीक्षक लगातार असहमत होते हैं, तो मानदंड में सुधार की आवश्यकता हो सकती है। स्वर में असंगति, सूक्ष्म तथ्यात्मक त्रुटियों और निर्देशों का पालन न करने जैसी गलतियों के लिए मानवीय समीक्षा विशेष रूप से उपयोगी है।.

मैं सुरक्षा, मजबूती और त्वरित इंजेक्शन के जोखिमों का मूल्यांकन कैसे करूं?

“उफ़, यूज़र्स” जैसे इनपुट के साथ परीक्षण करें: टाइपिंग की गलतियाँ, बोलचाल की भाषा, विरोधाभासी निर्देश, बहुत लंबे या बहुत छोटे प्रॉम्प्ट, और कई चरणों में लक्ष्य परिवर्तन। “पिछले नियमों को अनदेखा करें” जैसे प्रॉम्प्ट इंजेक्शन प्रयासों और सावधानीपूर्वक अस्वीकृति की आवश्यकता वाले संवेदनशील विषयों को शामिल करें। बेहतर सुरक्षा प्रदर्शन का मतलब केवल अस्वीकृति देना नहीं है - बल्कि स्पष्ट रूप से अस्वीकृति देना, उपयुक्त होने पर सुरक्षित विकल्प प्रदान करना और हानिरहित प्रश्नों को बार-बार अस्वीकार करने से बचना है जो यूज़र एक्सपीरियंस को नुकसान पहुँचाता है।.

मैं लागत और विलंबता का मूल्यांकन इस तरह से कैसे करूँ जो वास्तविकता के अनुरूप हो?

सिर्फ औसत मापें ही नहीं - लेटेंसी वितरण पर नज़र रखें, खासकर p95 और p99 पर। प्रति टोकन लागत का मूल्यांकन न करें, बल्कि सफल कार्य की लागत का मूल्यांकन करें, क्योंकि रिट्राई और अनियमित आउटपुट बचत को खत्म कर सकते हैं। लोड के तहत स्थिरता (टाइमआउट, रेट लिमिट, स्पाइक्स) और टूल/फ़ंक्शन कॉलिंग विश्वसनीयता का परीक्षण करें। थोड़ा कमज़ोर मॉडल, जो दोगुना तेज़ या अधिक स्थिर हो, बेहतर उत्पाद विकल्प हो सकता है।.

एआई मॉडल का मूल्यांकन करने के लिए एक सरल, संपूर्ण कार्यप्रणाली क्या है?

सफलता के मापदंड और सीमाएं निर्धारित करें, फिर एक छोटा कोर टेस्ट सेट (लगभग 50-200 उदाहरण) बनाएं जो वास्तविक उपयोग को दर्शाता हो। सुरक्षा और इंजेक्शन प्रयासों के लिए एज और एडवर्सरियल सेट जोड़ें। स्वचालित जांच चलाएं, फिर मानव मूल्यांकन के लिए आउटपुट के नमूने लें। गुणवत्ता, लागत, विलंबता और सुरक्षा की तुलना करें, सीमित स्तर पर परीक्षण करें या ए/बी टेस्ट करें, और उत्पादन में विचलन और प्रतिगमन की निगरानी करें।.

मॉडल मूल्यांकन में टीमें अनजाने में खुद को धोखा देने के सबसे आम तरीके क्या हैं?

आम गलतियों में बेंचमार्क हासिल करने के लिए प्रॉम्प्ट को ऑप्टिमाइज़ करना शामिल है, जबकि उपयोगकर्ता इससे परेशान होते हैं, मूल्यांकन प्रॉम्प्ट को ट्रेनिंग या फाइन-ट्यूनिंग डेटा में शामिल करना, और किसी एक ऐसे मेट्रिक को प्राथमिकता देना जो उपयोगकर्ता के मूल्य को नहीं दर्शाता है। टीमें डिस्ट्रीब्यूशन शिफ्ट को भी अनदेखा करती हैं, फॉर्मेट के अनुपालन और विश्वसनीयता के बजाय "स्मार्टनेस" पर अधिक ज़ोर देती हैं, और अस्वीकृति गुणवत्ता परीक्षण को छोड़ देती हैं। डेमो इन समस्याओं को छिपा सकते हैं, इसलिए हाइलाइट रील्स के बजाय संरचित मूल्यांकन पर भरोसा करें।.

संदर्भ

  1. OpenAI - OpenAI मूल्यांकन मार्गदर्शिका - platform.openai.com

  2. राष्ट्रीय मानक एवं प्रौद्योगिकी संस्थान (एनआईएसटी) - एआई जोखिम प्रबंधन ढांचा (एआई आरएमएफ 1.0) - nist.gov

  3. OpenAI - openai/evals (GitHub रिपॉजिटरी) - github.com

  4. scikit-learn - precision_recall_fscore_support - scikit-learn.org

  5. एसोसिएशन फॉर कम्प्यूटेशनल लिंग्विस्टिक्स (एसीएल एंथोलॉजी) - बीएलईयू - aclanthology.org

  6. एसोसिएशन फॉर कम्प्यूटेशनल लिंग्विस्टिक्स (एसीएल एंथोलॉजी) - रूज - aclanthology.org

  7. arXiv - G-Eval - arxiv.org

  8. OWASP - LLM01: त्वरित इंजेक्शन - owasp.org

  9. OWASP - बड़े भाषा मॉडल अनुप्रयोगों के लिए OWASP के शीर्ष 10 - owasp.org

  10. स्टैनफोर्ड विश्वविद्यालय - कोहावी एट अल., "वेब पर नियंत्रित प्रयोग" - stanford.edu

  11. arXiv - RAG का मूल्यांकन: एक सर्वेक्षण - arxiv.org

  12. पबमेड सेंट्रल (पीएमसी) - अवधारणा विचलन सर्वेक्षण (पीएमसी) - एनआईएच.जी.वी.वी.

  13. पबमेड सेंट्रल (पीएमसी) - कोहेन के कप्पा पर मैकह्यू - nih.gov

  14. गूगल - मॉनिटरिंग पर एसआरई वर्कबुक - google.workbook

आधिकारिक एआई असिस्टेंट स्टोर पर नवीनतम एआई खोजें

हमारे बारे में

ब्लॉग पर वापस जाएँ