#18: सावधान! आपके डेटा पर प्रशिक्षित हो रहे हैं AI मॉडल
साथ हीः जानिये 2024 के प्रतिष्ठित पुलित्जर पुरस्कार से सम्मानित पॉडकास्ट के बारे में
पॉडकास्ट निर्माताओं को अपना ट्रांसक्रिप्ट बनाने के लिये ज़ोर देने के लिये कई प्लैटफॉर्म तत्पर हैं। सबस्टैक व स्पाटिफाई ,ऑडियो ट्रांसक्रिप्शन (प्रतिलेखन) के लिये स्वचालित विकल्प भी देते हैं। पर SEO और Accessibility (मसलन बधिरों के लिये) के कोण के इतर, क्या वाकई श्रोता ट्रांसक्रिप्ट चाहते हैं? मेरी निजी राय में तो नहीं। तो ट्रांसक्रिप्ट बनाने पर जोर देने का कारण क्या है?
वॉल स्ट्रीट जर्नल के मुताबिक कृत्रिम बुद्धि (एआई) कंपनियों के सामने आने वाली एक महत्वपूर्ण चुनौती है: उच्च गुणवत्ता वाले प्रशिक्षण डेटा प्राप्त करना। कैम्ब्रिज एनालिटिका घोटाले जैसी घटनाओं से बढ़ी गोपनीयता संबंधी चिंताओं ने डेटा के मनचाहे उपयोग को बाधित किया है। पर ओपनएआई और गूगल जैसी कंपनियों ने इस बाधा को पार करने के लिये कई दफ़ा एआई कॉपीराइट कानूनों से संबंधित संदिग्ध कानूनी क्षेत्र में काम किया है।
डेटा की कमी को दूर करने के लिए, कंपनियों ने विभिन्न स्रोतों की तलाश की है। इनमें गिटहब से कंप्यूटर कोड, शतरंज चाल के डेटाबेस और क्विज़लेट जैसे प्लेटफार्मों से शैक्षिक सामग्री शामिल है।
ओपनएआई को, विशेष रूप से, प्रशिक्षण डेटा की कमी का सामना करना पड़ा। उन्होंने GPT-4 भाषा मॉडल को प्रशिक्षित करने के लिए व्हिस्पर ऑडियो ट्रांसक्रिप्शन मॉडल की मदद से दस लाख घंटे से अधिक के यूट्यूब वीडियो को ट्रांसक्राईब किया। तिस पर कानूनी अस्पष्टता का लाभ उठाते हुये ओपनएआई ने अपने कार्यों को फ़ेयर यूज़ करार देकर उचित भी ठहराया।
एक ओर तो गूगल ने यूट्यूब सामग्री की अनधिकृत स्क्रैपिंग या डाउनलोडिंग पर चिंता व्यक्त की, दूजी ओर, ओपनएआई और गूगल दोनों ने वैधता और अनुपालन के विभिन्न दृष्टिकोणों को दरकिनार कर, यूट्यूब ट्रांसक्रिप्शन का उपयोग करने की बात स्वीकार की है। गूगल ने तो डेटा उपयोग क्षमताओं का विस्तार करने के लिए अपनी गोपनीयता नीति को भी रातोंरात संशोधित किया, ताकि गूगल डॉक्स की सामग्री का भी उपयोग हो सके। मेटा (पहले फेसबुक) को भी इसी तरह की चुनौतियों का सामना करना पड़ा, जिसमें पुस्तक लाइसेंस खरीदने या प्रकाशन कंपनी का अधिग्रहण करने जैसे विकल्पों की खोज करते समय कॉपीराइट सामग्री के अनाधिकृत उपयोग का सहारा लिया गया।
2028 तक एआई प्रशिक्षण हेतु गुणवत्ता वाले डेटा की आसन्न कमी का अनुमान लगाया गया है। प्रस्तावित समाधानों में एआई मॉडल द्वारा उत्पन्न सिंथेटिक यानी नकली डेटा पर प्रशिक्षण या सीमित डेटा के साथ मॉडल की समझ को बढ़ाना शामिल है। हालाँकि, ये विधियाँ फिलहाल अप्रमाणित हैं।
घटते विकल्पों के कारण, कंपनियों अनुमति की परवाह किए बिना उपलब्ध डेटा का उपयोग करने के प्रलोभन का सामना करती रहेंगी भले ही इसमें कानूनी जोखिम हो। अगर आप अपने डेटा का एआई प्रशिक्षण हेतु प्रयोग नहीं होने देना चाहते तो संबंधित अनुप्रयोग की सेटिंग्स में जाकर देखें।
अन्य खबरों में
एक नया सप्ताह, और एक नया सर्वेक्षण। 2024 में लोग पॉडकास्ट कहां सुन रहे हैं इसका पता लगाने के लिये YouGov के नए सर्वे में 47 वैश्विक बाजारों का विश्लेषण किया गया। सर्वेक्षण में शामिल सभी उपभोक्ताओं में से 40% का कहना है कि वे प्रति सप्ताह एक घंटे से अधिक समय तक पॉडकास्ट सुनते हैं, जबकि 10% प्रति सप्ताह 10 घंटे से अधिक समय तक पॉडकास्ट सुनते हैं। एशिया पेसिफिक में इंडोनेशिया, थाईलैंड, भारत, वियतनाम और फिलीपींस में नियमित पॉडकास्ट श्रोताओं का अनुपात औसत से ज्यादा है। इंडोनेशिया, 57% और थाईलैंड, 52% के साथ सर्वोपरि हैं जबकि भारत और वियतनाम 47% के साथ तीसरे स्थान पर हैं।
हैरत की बात है कि जापान के आंकड़े बताते हैं कि केवल 10% जापानी उपभोक्ता प्रति सप्ताह एक घंटे या उससे अधिक पॉडकास्ट सुनते हैं। ऐसा लगता है कि यह हमारे विगत आलेख में कवर किए गए एक अन्य सर्वेक्षण का खंडन करता है। सचाई तो जापानी लोग ही जानें।
उल्लेखनीय पॉडकास्ट
यू डिड नॉट सी नथिन (अंग्रेजी) | ट्रू क्राईम 🆓 🅴
1997 में, लेनार्ड क्लार्क को एक गोरों के बहुल्य इलाके ब्रिजपोर्ट में अश्वेत होने के कारण किशोरों के एक गिरोह ने पीट-पीटकर कोमा में पहुंचा दिया था। उस वक्त लेखक व पत्रकार योहांस लैकौर की उम्र महज़ 20 साल थी। जब मीडिया ने इस हेट क्राईम को नस्लीय मेल-मिलाप की एक परी कथा में बदल दिया, तो लैकौर इसे बर्दाश्त न कर पाये। इस घृणित अपराध की जांच के लिए वे नाटक लिखना छोड़ एक स्थानीय समाचार पत्र के साथ जुड़ गये। पर नशीली दवायें बेचते पकड़े जाने पर उन्हें दस साल की कैद हो गई।
जेल की सजा काटकर लौटे लैकौर ने पाया कि 26 साल बाद भी शिकागो और ब्रिजपोर्ट में कुछ भी नहीं बदला है। यह पॉडकास्ट उनके संस्मरण, और अभिलेखीय ऑडियो व घटना से जुड़े लोगों के साक्षात्कार पर आधारित पत्रकारिता का मिश्रण है। इनविजिबल इंस्टीट्यूट और यूएसजी ऑडियो द्वारा निर्मित इस श्रृंखला को हाल ही में ऑडियो पत्रकारिता के लिए 2024 का प्रतिष्ठित पुलित्जर पुरस्कार मिला है।