बहुभाषी क्षेत्र एआई खोज के भविष्य के बारे में क्या बताते हैं

एआई खोज केवल परिणामों का अनुवाद या स्थानीयकरण नहीं करती है। यह तय करता है कि वास्तविकता के कौन से स्रोत, संस्थान और संस्करण सबसे पहले सामने आते हैं।

कैटेलोनिया उस प्रणाली के लिए एक उपयोगी तनाव परीक्षण प्रदान करता है। दो भाषाएँ समान भूगोल साझा करती हैं, जिससे पुनर्प्राप्ति पैटर्न को पहचानना आसान हो जाता है।

जब Google AI ओवरव्यू और ChatGPT पर कैटलन और स्पैनिश में समान प्रश्न चलाए जाते हैं, तो अंतर शब्दों से कहीं आगे निकल जाते हैं – और व्यापक समस्याएं सामने आती हैं जो बहुभाषी क्षेत्रों से भी आगे तक फैली होती हैं।

एआई खोज के लिए एक तनाव परीक्षण के रूप में कैटेलोनिया

यदि आप खोजते हैं तो क्या आप यह जानते हैं?सेंट जॉर्ज की परंपराएँ—सेंट जॉर्ज परंपराएँ, कैटलन में लिखा गया है – Google अनुवाद स्रोत भाषा को ओसीटान के रूप में पहचानेगा?

शायद नहीं। अधिकांश कैटलन भाषी इसे नहीं जानते हैं, आंशिक रूप से क्योंकि अनुवाद की भाषा का अनुमान बिल्कुल गलत नहीं है: कैटलन और ओसीटान एक सामान्य रोमांस वंश साझा करते हैं, और कुछ वर्गीकरण प्रणालियाँ उन्हें एक साथ समूहित करती हैं।

उत्तर तकनीकी रूप से बचाव योग्य है। यह, सांख्यिकीय रूप से, एक अजीब कॉल है – और एक प्रकार का छोटा किस्सा है जो बुनियादी ढांचे में बहुत बड़ी समस्या की ओर इशारा करता है।

Google Translate showing "Detectado: Occitano" with input "Tradicions de Sant Jordi" and output "Tradiciones de San Jorge" — Google अनुवाद “डिटेक्टेड: ओसीटानो” को इनपुट “ट्रेडिशियन्स डी सैंट जोर्डी” और आउटपुट “ट्रेडिशियन्स डी सैन जॉर्ज” के साथ दिखा रहा है।

ओसीटान में लगभग 200,000 वक्ता हैं, ज्यादातर दक्षिणी फ्रांस में। कैटलन के लगभग 9 मिलियन वक्ता हैं और यह कैटेलोनिया की सह-आधिकारिक भाषा है, जो यूरोप के समृद्ध क्षेत्रों में से एक है और उस शहर का घर है जहां Google 20 वर्षों से अधिक समय से काम कर रहा है।

बार्सिलोना आईपी से पूछे जाने पर, Google का अनुवाद उत्पाद तय करता है कि अधिक प्रशंसनीय स्रोत भाषा वह है जिसके बोलने वाले किसी दूसरे देश में बहुत कम हों। अनुवाद करें फिर प्रस्तुत करेंसेंट जॉर्जस्पेनिश में के रूप मेंसेंट जॉर्ज– कैटेलोनिया के संरक्षक संत के उचित नाम को कैस्टिलियनाइज़ करना, एक ऐसा नाम जिसे पहले स्थान पर अनुवाद करने की आवश्यकता नहीं है।

यह एकल अनुवाद विचित्रता वास्तविक है। यह जिस ओर इशारा करता है वह नहीं है। यह एक भाषा-पहचान समस्या है जो Google के बुनियादी ढांचे के अंदर वर्षों से मौजूद है—और Google स्वयं भी मौजूद है.

जनवरी 2023 में, कंपनी के सर्च लाइजन अकाउंट ने कैटलन-भाषी उपयोगकर्ताओं की शिकायतों की एक लहर का जवाब दिया, जिसमें कैटलन परिणामों को स्पेनिश परिणामों के पक्ष में डाउनग्रेड किया गया था। Google ने इस मुद्दे को “प्राथमिकता” बताया और जांच जारी रखने के लिए प्रतिबद्ध किया। स्वीकृति कैटलन में भी की गई थी – एक मौन स्वीकृति कि प्रभावित दर्शक वास्तविक थे और सीधी प्रतिक्रिया देने के लिए पर्याप्त बड़े थे।

बाद में Google ने उस वर्ष अपडेट जारी किए जिससे शास्त्रीय SERPs में कैटलन दृश्यता में उल्लेखनीय सुधार हुआ। लेकिन अंतर्निहित भाषा-पहचान परत की कभी भी संरचनात्मक रूप से मरम्मत नहीं की गई। जब आज कोई कैटलन वक्ता Google के AI अवलोकन को स्पैनिश भाषा में कैटलन भाषा के प्रश्न का उत्तर देता हुआ देखता है, तो यह कोई नई बग नहीं है। यह एक पुराना बग है जो अब संश्लेषण परत के नीचे बैठा है जो इसे फैलाता है।

एआई खोज, जब आती है, तो यह धारणा विरासत में मिलती है कि क्वेरी की भाषा पहले स्थान पर अविश्वसनीय है। पुनर्प्राप्ति पाइपलाइन जो आज कैटलन को स्पैनिश में समतल करती है, वही पाइपलाइन है जो संशोधित रूपों में, उन बाजारों में उप-राष्ट्रीय क्षेत्राधिकार संबंधी संदर्भ को समतल करेगी जहां सतही भाषा कभी नहीं बदलती है।

मैंने पिछले कई महीने दस्तावेज़ीकरण में बिताए हैं – 20+ स्पैनिश भाषी देशों का इलाज करना एकल सांख्यिकीय डिफ़ॉल्ट के रूप में। वह काम अपने परिणामों में गंभीर है, लेकिन कम से कम भूगोल साफ है: स्पेन एक देश है, मेक्सिको दूसरा है, मॉडल उन्हें अलग बताने में विफल है।

कैटेलोनिया के अंदर जो होता है वह अधिक खुलासा करने वाला है क्योंकि भूगोल नहीं बदलता है। दो भाषाएँ एक क्षेत्र साझा करती हैं, और सिस्टम दो समानांतर वास्तविकताएँ उत्पन्न करता है – जब यह भाषाओं की पहचान कर सकता है।

बहुभाषी क्षेत्र वे हैं जहां पुनर्प्राप्ति के वास्तुशिल्प डिफ़ॉल्ट दिखाई देते हैं, क्योंकि उन क्षेत्रों में उपयोगकर्ता भाषाएं बदल सकते हैं और सिस्टम को अर्थ, अधिकार और कभी-कभी उत्तर की भाषा भी पुन: निर्दिष्ट करते हुए देख सकते हैं।

वही डिफ़ॉल्ट बाज़ारों के अंदर सामने आएंगे जो सतह पर एकभाषी दिखते हैं, अलग-अलग रूपों में और अलग-अलग शमन के साथ। कैटेलोनिया एक प्रमुख संकेतक है।

मैंने इसका परीक्षण कैसे किया

मैं जिन पैटर्नों का वर्णन करने जा रहा हूं, वे किसी भी व्यवसायी से परिचित हैं, जिन्होंने पिछले दशक में कैटलन-भाषा एसईओ पर काम किया है – मेरा अपना अनुभव, और समान परिस्थितियों में काम करने वाले कई सहयोगियों का अनुभव।

जिस किसी ने भी कैटलन में कीवर्ड अनुसंधान करने का प्रयास किया है, उसने Google कीवर्ड प्लानर रिपोर्ट देखी है, जो प्रतिदिन कैटलन-स्पीकर क्वेरी के लिए अनिवार्य रूप से शून्य मात्रा की रिपोर्ट करती है, या रिटर्न वॉल्यूम जो स्पष्ट रूप से स्पैनिश-भाषा डेटा के साथ मिश्रित होते हैं और सफाई से उपयोग करना असंभव है।

जिस किसी ने भी बहुभाषी साइटें चलाई हैं, उसने देखा है कि मानक टूलींग द्वारा स्पष्ट न किए जा सकने वाले कारणों से उनके कैटलन संस्करण उनके स्पैनिश संस्करण से कमतर प्रदर्शन कर रहे हैं। नीचे मैं जिस छोटे प्रयोग का वर्णन कर रहा हूं वह इस व्यापक, सुप्रसिद्ध प्रणालीगत स्थिति का एक विशिष्ट, प्रतिलिपि प्रस्तुत करने योग्य उदाहरण है – दावे का आधार नहीं।

सेटअप जानबूझकर सरल था. बार्सिलोना महानगरीय क्षेत्र में एक आवासीय आईपी से, मैंने दो सतहों पर कैटलन और स्पेनिश में युग्मित प्रश्नों का एक सेट चलाया:

ChatGPT (लॉग आउट, ताज़ा सत्र, कोई वैयक्तिकरण नहीं)।
जब सिस्टम ने एक उत्पन्न करना चुना तो Google वेब खोज अपने AI अवलोकन के साथ सक्षम हो गई। (Google प्रत्येक क्वेरी के लिए एक अवलोकन उत्पन्न नहीं करता है – यह स्वयं ध्यान देने योग्य संकेत है।)

सत्र गुप्त मोड में चले. मैंने यह जांचने के लिए कि मैं जो देख रहा था वह एक स्थिर पैटर्न था या एकल-सत्र की कलाकृति, लगभग एक सप्ताह के अंतराल पर दो बार क्वेरीज़ चलाईं। दोनों तिथियां प्रलेखित हैं। स्थान फ़ुटर दृश्यमान के साथ स्क्रीनशॉट उपलब्ध हैं।

मैंने पाँच आशय जोड़े चुने, प्रत्येक को पुनर्प्राप्ति स्टैक की एक अलग परत का परीक्षण करने के लिए डिज़ाइन किया गया:

कैटलन की स्वतंत्रता के बारे में एक राजनीतिक रूप से भरा हुआ तथ्यात्मक प्रश्न, इसलिए चुना गया क्योंकि इसमें वॉकर और टिमोनेडा की अकादमिक मिसाल है(राजनीति विज्ञान विभाग, पर्ड्यू विश्वविद्यालय) भाषा-वातानुकूलित एलएलएम आउटपुट, कैम्ब्रिज यूनिवर्सिटी प्रेस में प्रकाशितराजनीति विज्ञान अनुसंधान और विधियाँ. बार्सिलोना आईपी पर उनकी पद्धति की प्रतिकृति अनुभाग संपादकीय कवर देती है।
फ्रीलांसरों के लिए स्थानीय एकाउंटेंट के बारे में एक लेन-देन संबंधी व्यावसायिक क्वेरी, इसलिए चुनी गई क्योंकि यह रोजमर्रा की एसईओ अर्थव्यवस्था के अंदर सटीक बैठती है और सभी भाषाओं में इरादे में समान है।
संत जोर्डी के बारे में एक सांस्कृतिक-परंपरा प्रश्न, इसलिए चुना गया क्योंकि इसमें स्पष्ट मूल प्राधिकरण (क्षेत्रीय सरकार, नगरपालिका प्राधिकरण), कम राजनीतिक तापमान और किसी विशेष ब्रांड से स्वतंत्र सदियों पुराना दस्तावेजी इतिहास है।
कैटलन किराये की सब्सिडी के बारे में एक नियामक क्वेरी, इसलिए चुनी गई क्योंकि इसके लिए हाइपर-स्थानीय क्षेत्राधिकार परिशुद्धता की आवश्यकता होती है और इसे सीधे जनरलिटैट डी कैटालुन्या द्वारा प्रशासित किया जाता है।
एक भाषा-पहचान तनाव परीक्षण – आकस्मिक और औपचारिक कैटलन प्रश्नों का मिश्रण – यह देखने के लिए कि क्या सतह ने इनपुट को कैटलन के रूप में पहचाना है।

नीचे दिए गए निष्कर्ष सांख्यिकीय साक्ष्य के बजाय प्रतिलिपि प्रस्तुत करने योग्य अस्तित्व प्रमाण हैं। ये विशिष्ट विफलताएँ आज इन विशिष्ट प्लेटफार्मों पर होती हैं – इस विशिष्ट स्थान से – और कोई भी व्यवसायी उन्हें 15 मिनट से कम समय में दोहरा सकता है।

व्यापक दावा – कि ये पैटर्न सामान्यीकृत हैं – सामुदायिक साक्ष्य पर आधारित है, जिसकी Google खोज संपर्क स्वीकृति ने तीन साल पहले स्पष्ट रूप से पुष्टि की थी, और पिछले दशक में कैटलन और अन्य अल्पसंख्यक भाषाओं में काम करने वाले चिकित्सकों के अनुभव पर आधारित है।

चार पैटर्न उभरे. पहले तीन पुनर्प्राप्ति का वर्णन करते हैं। चौथा पहचान का वर्णन करता है, और यह अन्य तीन को रेखांकित करता है।

खोज 1: शब्दावली और स्रोत बहुलता में भिन्नता है

मैंने ChatGPT और Google के AI अवलोकन दोनों से कैटलन की स्वतंत्रता के आसपास के मुख्य तर्कों के बारे में पूछा।

स्पैनिश में, दोनों सतहों ने 1978 के संविधान और 2017 के जनमत संग्रह की अवैधता पर आधारित एक कानूनी ढांचा तैयार किया। कैटलन में, दोनों सतहें अग्रभूमि में हैंनिर्णय लेने का अधिकार(निर्णय लेने का अधिकार) औरआत्मनिर्णयनोवा प्लांटा के निर्णयों के बाद संस्थानों के नुकसान के ऐतिहासिक संदर्भों के साथ, नामित वैचारिक ब्लॉक।

कैटलन आउटपुट अधिक वैचारिक नहीं था। यह अधिक संपूर्ण था. इसने स्वतंत्रता-विरोधी तर्कों को बरकरार रखा, जिसमें स्पैनिश संस्करण से अनुपस्थित फ़्रेमिंग भी शामिल थी।

उद्धरणों में विचलन तेज हो जाता है। स्पैनिश एआई अवलोकन बीबीसी, विकिपीडिया (ईएस), फंडाकियोन एस्पासियो पब्लिको और फ्रांस 24 से लिया गया है। कैटलन एआई अवलोकन ने एल पुंट अवुई, विलावेब, रेडिट आर/कैटालुन्या और विकिपीडिया (सीए) को जोड़ा, जबकि अभी भी बीबीसी और एल पेस का हवाला दिया गया है।

वही इंजन, वही भूगोल, वही सवाल। भाषा स्ट्रिंग द्वारा ट्रिगर किए गए दो गैर-अतिव्यापी पुनर्प्राप्ति पूल। भाषा उत्तर को लेबल नहीं कर रही है। यह कॉर्पस को फ़िल्टर कर रहा है।

खोज 2: वाणिज्यिक पुनर्प्राप्ति बदलाव, और इंजन अल्पसंख्यक भाषा पर संदेह करता है

लेन-देन संबंधी जोड़ी सरल थी:बार्सिलोना में फ्रीलांसरों के लिए सर्वोत्तम एजेंसियां/बार्सिलोना में फ्रीलांसरों के लिए सर्वोत्तम एजेंसियां. बार्सिलोना में फ्रीलांसरों के लिए सर्वश्रेष्ठ अकाउंटेंट, एक ही शहर से दो भाषाओं में।

ChatGPT ने दोनों संस्करणों में मोटे तौर पर समान भौतिक फर्मों की सिफारिश की, लेकिन ऑनलाइन प्रदाता अलग हो गए: कैटलन प्रतिक्रिया में ओपनजेस और गेस्टासोर सामने आए; स्पैनिश प्रतिक्रिया गेस्टोरिया ऑनलाइन और गेस्टोरम सामने आई। डिजिटल-प्रथम खंड के लिए समान इरादा, समान भूगोल, दो समानांतर वाणिज्यिक ब्रह्मांड।

Google के ऑर्गेनिक SERP ने अधिक स्पष्ट विभाजन दिखाया। कैटलन संस्करण ने स्थानीय रूप से द्विभाषी साइटों (ग्रेमीकैट, काल्डर्स एसेसर्स, गेस्टम, बार्सेलोना.कूल) को उन्नत किया। स्पैनिश संस्करण एग्रीगेटर्स और जनरलिस्ट निर्देशिकाओं (लेजिफाई, ज़ैस्क, बीसीएनजीईएसटी) के साथ आगे बढ़ा।

दो माध्यमिक संकेत रैंकिंग से अधिक मायने रखते हैं।

सबसे पहले, Google ने कैटलन क्वेरी को स्वतः सुधारा। परिणामों के ऊपर, इंजन ने पेशकश की:शायद आप कहना चाहते थे: बार्सिलोना में फ्रीलांसरों के लिए सर्वश्रेष्ठ आइसक्रीम पार्लर. क्या आपका मतलब आइसक्रीम की दुकानों से था? बार्सिलोना आईपी पर बैठे सिस्टम ने कैटलन में एक वाणिज्यिक क्वेरी को वास्तविक मानने से इनकार कर दिया और एक होमोफोन-आसन्न विकल्प का प्रस्ताव रखा।

दूसरा, स्पैनिश परिणामों में सशुल्क विज्ञापन शामिल थे – टैलेनोम, डिक्लेरांडो, होरस फर्म। कैटलन का परिणाम शून्य रहा। एसईएम बाजार कैटलन को बोलीदाताओं के बिना क्षेत्र के रूप में मानता है, और वाणिज्यिक संकेत की अनुपस्थिति स्वयं एक संकेत है। क्लिक और सहभागिता डेटा पर प्रशिक्षित मॉडल उस अनुपस्थिति को सबूत के रूप में पढ़ते हैं कि भाषा व्यावसायिक रूप से गंभीर नहीं है और तदनुसार वजन पुनर्प्राप्ति होती है।

तंत्र स्वयं सिखाता है. कम व्यावसायिक बोली से व्यावसायिक दृश्यता कम होती है। कम व्यावसायिक दृश्यता कम व्यावसायिक सिग्नल उत्पन्न करती है।

लेन-देन के इरादे से भाषा को लगातार प्राथमिकता दी जा रही है – भले ही बार्सिलोना से कैटलन में टाइप करने वाला प्रत्येक उपयोगकर्ता स्पेनिश में टाइप करने वाले उपयोगकर्ता के समान भूगोल साझा करता है। यह फिर से प्रासंगिक हो जाएगा जब हम भाषा की पहचान पर गौर करेंगे।

न्यूज़लेटर खोज प्राप्त करें जिस पर विपणक भरोसा करते हैं।

खोज 3: सांस्कृतिक प्राधिकार पुनः सौंपा गया

संत जोर्डी की जोड़ी इसे सबसे स्पष्ट रूप से दिखाती है, और सत्रों के बीच विशिष्ट पुनर्मूल्यांकन एक तरह से बदलता है जो स्वयं ही प्रकट होता है।

पहले सत्र में, स्पैनिश-भाषा एआई अवलोकनसंत जोर्डी की परंपराएँप्राथमिक उद्धरण के रूप में दो होटल श्रृंखलाओं का नेतृत्व किया गया – कासा लिमोना होटल बुटीक और सुमस होटल। कैटलन संस्करण में अजुंतामेंट डी बार्सिलोना, नगर परिषद का हवाला दिया गया है जिसने सदियों से इस परंपरा को औपचारिक रूप से संचालित किया है।

दूसरे सत्र में, एक सप्ताह बाद, उन्हीं प्रश्नों ने एक अलग पुन:असाइनमेंट लौटाया। स्पेनिश संस्करण में अब विदेशी पर्यटकों के लिए लक्षित राज्य पर्यटन पोर्टल, स्पेन.इन्फो के साथ-साथ अजुन्टामेंट का हवाला दिया गया है। कैटलन संस्करण संस्थागत पदानुक्रम को पूरी तरह से ऊपर ले गया – इसका प्राथमिक उद्धरण जनरलिटेट डी कैटालुन्या, क्षेत्रीय सरकार बन गया, जिसमें पाद लेख लिंक थाकैटेलोनिया सरकार के दिन की आधिकारिक मार्गदर्शिका. टाउन हॉल अनुपस्थित था.

दोनों सत्रों में जो स्थिर रहता है वह संरचनात्मक पैटर्न है: सिस्टम द्वारा श्रेय दिया जाने वाला सांस्कृतिक संरक्षक भाषा के साथ बदलता है। कैटलन-भाषा के प्रश्न क्षेत्रीय और नगरपालिका सरकार, परंपरा के मूल संस्थान, पर सामने आते हैं। स्पैनिश-भाषा के प्रश्न राज्य पर्यटन, वाणिज्यिक संस्थाओं, या पर्यटन स्थल के रूप में तैयार नगरपालिका सरकार के सामने आते हैं।

ChatGPT अपने गद्य में उसी पैटर्न को पुष्ट करता है। स्पैनिश संस्करण बाहरी रूप से संत जोर्डी का वर्णन करता है:प्यार का दिन “कैटलन शैली,” कैटलन सांस्कृतिक विरासत के बारे में जानने का अवसर. कैटलन संस्करण बिना दूरी के देशी शब्दावली का उपयोग करता है। उसी 600 साल पुरानी परंपरा को एक भाषा में बाहर से विदेशी और दूसरी भाषा में अंदर से परंपरा के रूप में वर्णित किया गया है।

मॉडल किसी भी भाषा में झूठ नहीं बोल रहा है। यह अपने पुनर्प्राप्ति पूल को देखते हुए सबसे सांख्यिकीय रूप से प्रशंसनीय संश्लेषण का उत्पादन कर रहा है। लेकिन पुनर्प्राप्ति पूल का गठन भाषा द्वारा अलग-अलग तरीके से किया जाता है – और एक संविधान सरकार को सांस्कृतिक संरक्षक के रूप में मानता है, जबकि दूसरा पर्यटन विपणन को सांस्कृतिक संरक्षक के रूप में मानता है।

ब्रांडों के लिए, यह कोई अनुवाद समस्या नहीं है। यह एक सवाल है कि मॉडल का मानना है कि उत्तर का मालिक कौन है।

खोज 4: भाषा की पहचान एलएलएम के छूने से पहले ही टूट चुकी थी

यह वह खोज है जो बाकी को फिर से परिभाषित करती है। उपरोक्त सभी पुन:असाइनमेंट पैटर्न सिस्टम पर निर्भर करते हैं जो पहले स्थान पर क्वेरी की भाषा को सही ढंग से पहचानता है। अक्सर, ऐसा नहीं होता।

Google अनुवाद खोज – कैटलन को बार्सिलोना आईपी से ओसीटान के रूप में गलत वर्गीकृत किया गया – इसका एक चेहरा है। दूसरा तब होता है जब आप Google खोज में स्पष्ट रूप से कैटलन क्वेरी टाइप करते हैं।

पूछताछकैलकोट्स रेसिपी– कैलकोट्स की रेसिपी, एक सब्जी जो केवल कैटेलोनिया में मौजूद है और हर दूसरी भाषा में अपना कैटलन नाम बरकरार रखती है – परिणामों के ऊपर एक बैनर बनाती है:युक्ति: परिणाम स्पैनिश में दिखाएं. आप भाषा के आधार पर फ़िल्टर करने के तरीके के बारे में अधिक जानकारी भी देख सकते हैं.

सिस्टम सुझाव देता है कि उपयोगकर्ता फ़िल्टर कैटलन परिणाम देता है। क्वेरी के लिए कोई AI अवलोकन उत्पन्न नहीं होता है. बुनियादी ढांचे ने निर्णय लिया है कि कैटलन में केवल कैटलन सब्जी के लिए नुस्खा खोज का स्पेनिश में अधिक उपयोगी उत्तर दिया जाता है।

Google के AI अवलोकन में, क्वेरीसेंट जॉर्ज की परंपराएँ कभी-कभी स्पेन.इन्फो का हवाला देते हुए, पूरी तरह से कैटलन में लिखे जाने के बावजूद स्पेनिश भाषा में उत्तर देता है। अन्य सत्रों में, उसी प्रश्न को सही ढंग से पहचाना जाता है और कैटलन में उत्तर दिया जाता है।

यह व्यवहार सभी सत्रों में असंगत है, जो लगातार गलत होने से भी बदतर है: इसका निदान नहीं किया जा सकता है। साइट स्वामी ऐसी किसी चीज़ को ठीक नहीं कर सकता जो सिस्टम के सामने न आने के कारणों से रुक-रुक कर टूट जाती है।

विफलता सार्वभौमिक नहीं है. जैसे प्रश्नकैटेलोनिया के उत्सवयासमकालीन कैटलन कवि– थोड़ा अधिक औपचारिक या युगानुकूल वाक्यांश – कैटलन के रूप में सही ढंग से पहचाने जाते हैं और क्षेत्रीय स्रोतों (पिमेक, जेनकैट, एल टेम्प्स, लेट्रा यूओसी) का हवाला देते हुए कैटलन-भाषा संश्लेषण के साथ उत्तर दिया जाता है।

सिस्टम कैटलन की पहचान कर सकता है। यह वाणिज्यिक या लोकप्रिय प्रश्नों के लिए इतना विश्वसनीय रूप से काम नहीं करता है, यही कारण है कि इसे गलत करने की लागत साइट मालिकों के लिए सबसे अधिक है।

यह वह जगह है जहां निष्कर्ष 2 और 4 एक लूप को बंद करते हैं। वही व्यावसायिक श्रेणियाँ जो कैटलन में शून्य SEM बोली दिखाती हैं, वे श्रेणियाँ हैं जहाँ भाषा की पहचान सबसे अधिक बार विफल होती है। बिना व्यावसायिक संकेत वाली भाषा सिस्टम को सिखाती है कि इसे व्यावसायिक रूप से गंभीर मानने की आवश्यकता नहीं है – और इसलिए, व्यावसायिक प्रश्नों के लिए, सिस्टम इसे कम विश्वसनीय रूप से पहचानने की अनुमति देता है। दोनों विफलताएं एक-दूसरे को मजबूत करती हैं।

इन में से कोई भी नया नही है। Google खोज संपर्क ने जनवरी 2023 में सार्वजनिक रूप से कैटलन डिमोशन समस्या को स्वीकार किया और बाद में उसी वर्ष शास्त्रीय SERPs में दृश्यमान सुधारों को आगे बढ़ाया।

संश्लेषण परत जो अब शीर्ष पर है, उसे वे सुधार विरासत में नहीं मिले हैं। इन पाइपलाइनों पर AI खोज बनाई गई है। यह उनकी चूक, उनकी प्रशिक्षण-डेटा संरचना और उनके निर्णयों को विरासत में देता है कि कब कोई भाषा उत्तर की भाषा के रूप में मानी जानी चाहिए।

अल्पसंख्यक भाषाओं पर स्लोप लूप बंद हो रहा है

एक दूसरा, धीमा तंत्र समय के साथ इस सब को बदतर बना देता है, और यह चिह्नित करने लायक है क्योंकि यह कहीं और दिखाई देने लगा है।

वेब-स्केल कॉर्पोरा पर प्रशिक्षित एलएलएम अब अल्पसंख्यक भाषाओं में कम गुणवत्ता वाली सामग्री की महत्वपूर्ण मात्रा उत्पन्न कर रहे हैं – दोनों प्रत्यक्ष रूप से (अनुवाद सुविधाओं के माध्यम से) और अप्रत्यक्ष रूप से (डाउनस्ट्रीम टूल के माध्यम से जो एसईओ सामग्री, सामाजिक और स्वचालित लेख उत्पन्न करते हैं)।

वह उत्पन्न सामग्री अनुक्रमित हो जाती है, क्रॉल हो जाती है, अगली पीढ़ी के प्रशिक्षण डेटा में वापस फीड हो जाती है। जो मॉडल कैटलन को अच्छी तरह से नहीं समझता है वह कैटलन सामग्री तैयार करता है जो अगले मॉडल को प्रशिक्षित करता है।

यह सैद्धांतिक नहीं है. एब्रूक्स, एगर्ट और पेस्कॉफ़ द्वारा पाया गया कि नव निर्मित अंग्रेजी विकिपीडिया लेखों में से 5% से अधिक में एआई-जनरेटेड होने के संकेत मिले, जिनमें जर्मन, फ्रेंच और इतालवी संस्करणों में कम लेकिन फिर भी मापने योग्य दरें थीं।

विस्तार से – हालांकि प्रिंसटन टीम के माप के दायरे से बाहर – कम संपादकीय निरीक्षण वाले अल्पसंख्यक-भाषा संस्करण अधिक आनुपातिक प्रभाव को अवशोषित करने की संभावना रखते हैं।

अल्पसंख्यक-भाषा की क्षति अब अच्छी तरह से प्रलेखित है। एमआईटी टेक्नोलॉजी रिव्यू ने सितंबर 2025 में रिपोर्ट दीकमज़ोर भाषा वाले विकिपीडिया में।

चार अफ़्रीकी-भाषा संस्करणों पर काम करने वाले स्वयंसेवकों ने अनुमान लगाया कि उनके 40% से 60% लेख बिना सुधारे मशीनी अनुवाद थे।
इनुक्टिटुट संस्करण में दो-तिहाई से अधिक मूल पृष्ठों में मशीन-अनुवादित भाग शामिल थे।
कुछ हवाईयन-भाषा प्रविष्टियों में उनके 35% शब्दों को देशी वक्ताओं द्वारा समझ से बाहर के रूप में चिह्नित किया गया था।
ग्रीनलैंडिक संस्करण, जहां वस्तुतः वास्तविक वक्ताओं द्वारा कोई लेख नहीं लिखा गया था, को अंततः 2025 में बंद करने की सिफारिश की गई थी, विकिपीडिया भाषा समिति ने एआई टूल का हवाला देते हुए कहा था कि “अक्सर ऐसी बकवास उत्पन्न होती है जो भाषा को गलत तरीके से प्रस्तुत कर सकती है।”

अनुमान लगाया गया था कि 2022 में विकिपीडिया 27 कम संसाधन वाली भाषाओं के लिए ऑनलाइन भाषाई डेटा का एकमात्र आसानी से सुलभ स्रोत होगा – जिसका अर्थ है कि ये त्रुटियां विकिपीडिया पर नहीं रहती हैं। एआई सिस्टम आगे उन पर प्रशिक्षण देते हैं।

यह लूप है. खराब भाषा पहचान खराब पुनर्प्राप्ति उत्पन्न करती है। ख़राब पुनर्प्राप्ति से ख़राब सामग्री सामने आती है. एलएलएम द्वारा बड़े पैमाने पर खराब सामग्री उत्पन्न की जाती है जो भाषा को पूरी तरह से नहीं समझते हैं। ख़राब सामग्री अनुक्रमित हो जाती है. अगला मॉडल इस पर ट्रेन करता है।

गुणवत्ता को ख़राब करने के लिए तंत्र को द्वेष की आवश्यकता नहीं है – इसे केवल मात्रा की आवश्यकता है। और अल्पसंख्यक भाषाओं में वॉल्यूम का निर्माण करना कभी आसान नहीं रहा है।

विकिपीडिया ने इसके बारे में क्या करने का निर्णय लिया

सबसे स्पष्ट संस्थागत संकेत कि यह समस्या वास्तविक है, इसे गंभीरता से लेने के अनुभव और प्रोत्साहन दोनों के साथ कुछ प्लेटफार्मों में से एक से आता है।

20 मार्च को, अंग्रेजी विकिपीडिया समुदाय ने औपचारिक रूप से अपने 7.1 मिलियन लेखों में एलएलएम-जनित लेख सामग्री को प्रतिबंधित करने के लिए मतदान किया। संपादकों को अभी भी बुनियादी प्रतिलिपि संपादन और अन्य भाषा संस्करणों से लेखों के पर्यवेक्षित अनुवाद के लिए एलएलएम का उपयोग करने की अनुमति है, लेकिन एलएलएम के साथ लेख सामग्री तैयार करना या फिर से लिखना पूरी तरह से प्रतिबंधित है।

यह निर्णय वर्षों की बढ़ती चिंता का जवाब था: चैटजीपीटी-युग के लेख पाठ में छोड़े गए “एक बड़े भाषा मॉडल के रूप में” संकेत के साथ दिखाई दे रहे थे, पूरी तरह से अस्तित्वहीन उद्धरणों के साथ, और उस तरह के धाराप्रवाह-लेकिन-खाली गद्य के साथ जिसे समीक्षक स्वयं-अनुपातिक ढंग से साफ करने में अपना समय खर्च कर रहे थे।

विकिपीडिया कोई सामान्य SEO चिंता का विषय नहीं है। यह मजबूत स्वयंसेवी शासन और स्पष्ट तटस्थता नीतियों के साथ एक क्यूरेटेड ज्ञान मंच है। यदि निम्न-गुणवत्ता वाली सामग्री के खिलाफ संरचनात्मक सुरक्षा के उस स्तर वाले मंच ने निष्कर्ष निकाला है कि एआई-जनित पाठ ज्ञान अखंडता को नुकसान पहुंचाता है, तो एसईओ उद्योग को यह नहीं मानना चाहिए कि विकिपीडिया के डाउनस्ट्रीम पुनर्प्राप्ति पाइपलाइन विकिपीडिया की तुलना में बेहतर उत्तर देंगे जो स्वयं प्रकाशित करने के लिए तैयार थे।

अल्पसंख्यक भाषाओं में एआई-जनरेटेड सामग्री के खिलाफ सुरक्षा का निर्माण करने वाले संस्थान – विकिपीडिया, कैटेलोनिया में आइना प्रोजेक्ट, बास्क देश में लैटक्सा मॉडल – वैचारिक कारणों से रक्षात्मक नहीं हो रहे हैं। वे गुणवत्ता में मापी गई गिरावट पर प्रतिक्रिया दे रहे हैं। वह गिरावट अब एआई खोज की अगली पीढ़ी के प्रशिक्षण डेटा का हिस्सा है।

ऐसा क्यों होता है, यंत्रवत्

ने प्रलेखित किया है कि कैसे एआई सिस्टम भाषा को बाज़ारों के लिए एक प्रॉक्सी के रूप में मानकर भौगोलिक सीमाओं को ध्वस्त कर देता है, एक ऐसी घटना जिसे वह भू-पहचान बहाव कहती है। यहां तंत्र वही है, एक अतिरिक्त बाधा के साथ जो इसे और अधिक स्पष्ट रूप से उजागर करता है।

जब दो भाषाएँ एक ही भूगोल साझा करती हैं, तो सिस्टम चुपचाप “उस देश की भाषा” पर डिफॉल्ट नहीं कर सकता है। यह कुछ और चुनने के लिए मजबूर है। चुनाव आम तौर पर उस कॉर्पस को जाता है जो बड़ा हो, अधिक नया हो, या अधिक व्यावसायिक रूप से टैग किया गया हो।

उपरोक्त वॉकर और टिमोनेडा के अध्ययन ने इसे अनुभवजन्य आधार पर स्थापित किया है। उनकी खोज – कि स्वतंत्रता-विरोधी फ्रेमिंग स्पैनिश आउटपुट में कैटलन की तुलना में लगभग दोगुनी बार दिखाई देती है – राजनीति के बारे में कोई खोज नहीं थी। यह इस बारे में एक खोज थी कि प्रशिक्षण-डेटा संरचना आउटपुट कैसे निर्धारित करती है। प्रशिक्षण कोष में कैटलन-भाषा के पाठ परिप्रेक्ष्यों का एक वितरण करते हैं; स्पैनिश भाषा के पाठ एक और बात लेकर आते हैं। मॉडल को दोनों और सतहें विरासत में मिली हैं, जिस तक वह वर्तमान में पहुंच रहा है।

यह उस चीज़ से मेल खाता है जिसे शोधकर्ता कहते हैं: जब पुनर्प्राप्ति एम्बेडिंग उप-राष्ट्रीय संकेतों को विश्वसनीय रूप से अलग नहीं कर सकती है, तो सिस्टम उन्हें प्रमुख संस्करण में समतल कर देता है। एकभाषी देशों में, प्रमुख रूप देश ही होता है। कैटेलोनिया जैसे क्षेत्र में, प्रमुख संस्करण बड़ा भाषाई पड़ोसी है – स्पेन – कैटलन-विशिष्ट अर्थ को सामान्य स्पेनिश डिफ़ॉल्ट की ओर खींचता है जब तक कि कुछ स्पष्ट वापस नहीं खींचता।

उप-राष्ट्रीय सरकारों ने ध्यान दिया है। आइना प्रोजेक्ट और लैटक्सा मॉडल अलग-अलग प्रयास नहीं हैं: वे भाषा-संसाधन संप्रभुता बनाने के प्रत्यक्ष प्रयास हैं क्योंकि मानक वैश्विक एलएलएम स्पेनिश की तुलना में कैटलन और बास्क पर काफी खराब प्रदर्शन करते हैं। जब सरकारें अपने स्वयं के एलएलएम का प्रशिक्षण शुरू करती हैं, तो एसईओ उद्योग को इसे सबूत के रूप में मानना चाहिए कि अंतर्निहित तंत्र वास्तविक और संरचनात्मक है।

यह पैटर्न कैटेलोनिया के लिए अद्वितीय नहीं है।

फ़्रांसीसी में क्वेरी करने वाले क्यूबेक उपयोगकर्ताओं को नियमित रूप से पेरिस-फ़्रेंच डिफ़ॉल्ट प्राप्त होते हैं और उत्तर क्यूबेक के विशिष्ट नागरिक कानून और प्रांतीय कर व्यवस्था के बजाय फ़्रांसीसी नियामक ढांचे में दिए जाते हैं।
बेल्जियम के उपयोगकर्ताओं को एक ऐसे देश के अंदर फ़्रेंच और डच क्षेत्राधिकार संबंधी चूक मिलती है, जिसके तीन क्षेत्र वास्तव में अलग-अलग कानूनी और भाषाई नियमों के तहत संचालित होते हैं।
स्विस उपयोगकर्ता पुनर्प्राप्ति को स्विट्ज़रलैंड के स्वयं के सम्मेलनों के बजाय जर्मन या फ्रांसीसी राष्ट्रीय चूक की ओर देखते हैं।

कैटलन का मामला एक ही सत्र में एक ही आईपी से परीक्षण करना सबसे आसान है, लेकिन संरचनात्मक खोज हर उस क्षेत्र के लिए सामान्यीकृत है जहां दो या दो से अधिक भाषाएं एक भूगोल साझा करती हैं।

अग्रणी-संकेतक तर्क

दिलचस्प सवाल यह नहीं है कि कैटेलोनिया के लिए इसका क्या मतलब है। बाकी सभी के लिए कैटेलोनिया का यही मतलब है।

बहुभाषी क्षेत्र कैनरी हैं। वास्तुशिल्प दोष तब उजागर होता है जब दो भाषाएं एक भूगोल साझा करती हैं – एक वेक्टर स्थान जो विश्वसनीय रूप से क्षेत्राधिकार को अर्थ से अलग नहीं कर सकता है, भाषा-पहचान परत के शीर्ष पर बैठकर जो पहले से ही चीजों को गलत कर देता है – एआई खोज परिपक्व होने और वास्तव में उप-राष्ट्रीय उत्तरों का प्रयास करने पर अन्य रूपों में दिखाई देगा।

यहीं पर मैं समानांतर से सावधान रहना चाहता हूं। मोनोलिंगुअल बाज़ारों में, एआई खोज के पास स्थानीयकरण संकेतों तक पहुंच होती है जिसे कैटलन केस आंशिक रूप से हटा देता है: आईपी जियोलोकेशन, जीपीएस संदर्भ, ब्राउज़र लोकेल और संरचित स्थानीय पैक डेटा।

ठेकेदार लाइसेंसिंग के बारे में ऑस्टिन की एक क्वेरी बार्सिलोना से कैटलन में एक क्वेरी के रूप में सिस्टम के लिए उतनी अस्पष्ट नहीं है, क्योंकि सिस्टम में अधिक गैर-भाषाई संदर्भ है। कैटेलोनिया-टेक्सास के बीच कोई प्रत्यक्ष तुल्यता नहीं है।

हालाँकि, यह परीक्षण के लायक एक परिकल्पना है। वही तंत्र जो कैटलन को स्पैनिश में समतल करते हैं – कॉर्पस-वेट डिफॉल्ट्स, सिमेंटिक पतन, प्रशिक्षण-डेटा संरचना – भाषा जोड़ी की परवाह किए बिना संश्लेषण पाइपलाइनों में मौजूद हैं।

जैसे-जैसे एआई अवलोकन और चैट-शैली खोज स्थानीयकृत लिंक को सामने लाने के बजाय संश्लेषण द्वारा प्रश्नों का उत्तर दे रही है, आईपी-आधारित स्थानीयकरण का सुरक्षात्मक प्रभाव कमजोर हो जाता है। सिस्टम को यह निर्णय लेना होगा कि कौन सा कॉर्पस “उत्तर” का प्रतिनिधित्व करता है, और कॉर्पस वेट जीतने की प्रवृत्ति रखता है।

जिन स्थानों पर एकभाषी अंग्रेजी बाजारों में इसके सामने आने की सबसे अधिक संभावना है: महत्वपूर्ण कॉर्पस विषमता के साथ राज्य-स्तरीय विनियमन। कैलिफ़ोर्निया की CCPA और टेक्सास की डेटा गोपनीयता व्यवस्था एक ही भाषा में लिखी गई हैं, लेकिन अलग-अलग क्षेत्राधिकार संबंधी वास्तविकताओं का प्रतिनिधित्व करती हैं।

गोपनीयता साहित्य कैलिफ़ोर्निया-आधारित है। जब एआई अवलोकन एक सामान्य उत्तर “मेरे पास क्या गोपनीयता अधिकार हैं” का संश्लेषण करता है, तो डिफ़ॉल्ट उस क्षेत्राधिकार की ओर झुक जाता है जिसमें अधिक अधिकार संकेत होते हैं। स्थानीयकरण मदद करता है, लेकिन केवल तभी जब क्वेरी स्वयं क्षेत्राधिकार की दृष्टि से स्पष्ट हो।

किसी भी बड़े देश में उप-राष्ट्रीय विनियामक ग्रैन्युलैरिटी। शराब लाइसेंसिंग, ठेकेदार लाइसेंसिंग, रियल एस्टेट प्रकटीकरण नियम, गुजारा भत्ता गणना, स्कूल जिला नीतियां, ज़ोनिंग कोड – क्षेत्राधिकार-विशिष्ट, सभी अंग्रेजी में, क्षेत्राधिकारों के बीच बेतहाशा भिन्न कॉर्पस भार के साथ। जैसे-जैसे अधिक प्रश्नों का उत्तर लिंक के बजाय संश्लेषण द्वारा दिया जाता है, क्षेत्राधिकार संबंधी चूक उन तरीकों से परिणामी हो जाती हैं जिनके बारे में पारंपरिक एसईओ को कभी चिंता करने की आवश्यकता नहीं होती है।

मैं इसे ज़्यादा बेचना नहीं चाहता। स्वच्छ कैटलन प्रदर्शन को टेक्सास में सीधे तौर पर दोहराया नहीं जा सकता। जो दोहराने योग्य है वह अंतर्निहित अवलोकन है: जब पुनर्प्राप्ति प्रणाली संकेतों को ढहा देती है, तो यह उन्हें बड़े, बेहतर प्रतिनिधित्व वाले कॉर्पस के पक्ष में ढहा देती है। यह सच है कि क्या ध्वस्त किए जा रहे सिग्नल भाषाई, क्षेत्राधिकार संबंधी या दोनों हैं।

जिन ब्रांडों ने यह पता लगा लिया है कि पूरे स्पेन और मेक्सिको में कैसे काम करना है, उन्होंने पहले ही इस पाठ का एक संस्करण सीख लिया है। टेक्सास और कैलिफ़ोर्निया में काम करने वाले ब्रांड संभवतः एक संबंधित चीज़ सीखेंगे, एक ऐसे रूप में जो समान नहीं दिखेगा और उसे अपने स्वयं के निदान की आवश्यकता होगी।

इसके बारे में क्या करना है

वे सिद्धांत जो अनुकूलन के साथ बहुभाषी विखंडन को बहु-क्षेत्राधिकार विखंडन में स्थानांतरित करने के लिए काम करते हैं। दवाओं का एक ही परिवार, अलग-अलग मरीज़।

उप-राष्ट्रीय क्षेत्राधिकारों को अलग-अलग संस्थाओं के रूप में मानें। यदि आपका व्यवसाय कई अमेरिकी राज्यों में विनियमित वर्टिकल में संचालित होता है, तो उन राज्य संस्करणों को अपने स्वयं के प्राधिकरण संकेतों की आवश्यकता होती है – न कि केवल एक फ़ोल्डर संरचना की। प्रत्येक संस्करण को अपने आप में विहित होना चाहिए, न कि किसी राष्ट्रीय मूल पृष्ठ पर जो पतन को आमंत्रित करेगा।

संरचित डेटा और प्रतिलिपि में क्षेत्राधिकार को स्पष्ट रूप से एनकोड करें। Schema.org’sसेवाकृत क्षेत्रकिसी भी भौगोलिक विवरण पर कार्य करता है; इसे राज्य, काउंटी, या नगर पालिका में उपयोग करें जहां यह मायने रखता है। इसे स्पष्ट प्रतिलिपि मार्करों के साथ जोड़ें: नियामक नाम, राज्य-विशिष्ट पहचानकर्ता, क्षेत्र-विशिष्ट मुद्राएं या प्रारूप। मॉडल को नियतात्मक हुक की आवश्यकता है। उनके बिना, इसमें सुधार होता है।

विकिडेटा के माध्यम से उप-राष्ट्रीय ग्राउंडिंग को सुदृढ़ करें। अधिकांश एसईओ कार्यक्रम ऑन-साइट स्कीमा पर रुक जाते हैं, लेकिन ज्ञान ग्राफ़ पढ़ रहे हैं कि अन्य ग्राफ़ आपके बारे में क्या कहते हैं। विकिडेटा के अधिकार क्षेत्र की संपत्ति (पी1001) और स्पष्ट भाषा गुण आपको ज्ञान-ग्राफ़ स्तर पर क्षेत्राधिकार और भाषाई सीमाओं को एन्कोड करने देते हैं – बिल्कुल वह परत जहां एआई सिस्टम इकाई संदर्भ खींचते हैं। यदि आप किसी उप-राष्ट्रीय क्षेत्राधिकार में काम करते हैं जो व्यावसायिक रूप से मायने रखता है, तो आपकी इकाई को वहां मायने रखने वाली ग्रैन्युलैरिटी के साथ तैयार किया जाना चाहिए।

उप-राष्ट्रीय प्राधिकरण अंतरालों के लिए ऑडिट उसी प्रकार करें जैसे आप अंतर्राष्ट्रीय प्राधिकरणों के लिए ऑडिट करते हैं। डायग्नोस्टिक प्रॉम्प्ट चलाएं जो आप स्पेन बनाम मैक्सिको के लिए चलाएंगे, लेकिन टेक्सास बनाम कैलिफ़ोर्निया, या कनाडा के अंदर ओन्टारियो बनाम क्यूबेक, या किसी भी क्षेत्राधिकार के लिए जहां आपका व्यवसाय संचालित होता है। यदि मॉडल उन्हें मिलाता है, तो आपकी सामग्री में एकल बाज़ार की तरह दिखने वाली विखंडन समस्या है।

द्वितीयक सिग्नल देखें. कैटलन में, SEM बोलियों की अनुपस्थिति एक संकेत थी, और सिस्टम ने इससे सीखा। यही बात अंडरसर्व्ड मोनोलिंगुअल क्षेत्राधिकारों पर भी लागू होती है: यदि कोई भी टेक्सास-विशिष्ट शब्दावली पर बोली नहीं लगाता है, तो टेक्सास-विशिष्ट सामग्री को संश्लेषण में प्राथमिकता नहीं दी जाती है। यदि आपके ज्ञान-ग्राफ की उपस्थिति, स्थानीय उद्धरण और प्राधिकारी संकेत सभी प्रमुख क्षेत्राधिकार की ओर इशारा करते हैं, तो मॉडल के पास कम प्रतिनिधित्व वाले को सामने लाने का कोई कारण नहीं है।

यह कोई नई प्लेबुक नहीं है. यह हैदेश रेखा के नीचे लागू: बाजार विभाजन, ट्रांसक्रिएशन, पुनर्प्राप्ति बाधाएं, और इकाई सुदृढीकरण, लेकिन उप-राष्ट्रीय ग्रैन्युलैरिटी पर।

आपकी AI खोज रणनीति के लिए इसका क्या अर्थ है

खराब अनुवाद के कारण संत जोर्डी का उत्तर विफल नहीं हुआ। यह विफल रहा क्योंकि अनुवाद के नीचे की भाषा-पहचान परत ने कभी भी कैटलन को ओसीटान से, कैटलन को स्पैनिश से, या कैटलन-द-भाषा-क्वेरी को कैटलन-एज़-अप्रासंगिक-शोर से अलग नहीं किया है।

Google ने तीन वर्ष पहले कैटलन में स्वयं ऐसा कहा था। उस परत के शीर्ष पर बनी पुनर्प्राप्ति पाइपलाइन उन सभी निर्णयों को प्राप्त करती है, और अब संश्लेषित उत्तर उत्पन्न करती है जो उन्हें चुपचाप प्रचारित करती है।

विकिपीडिया ने उसी जेनरेटिव-एआई इकोसिस्टम को एक अलग नजरिए से देखते हुए मार्च 2026 में निर्णय लिया कि गिरावट का जोखिम इतना गंभीर है कि एलएलएम-जनरेटेड सामग्री को पूरी तरह से प्रतिबंधित किया जा सकता है। आइना प्रोजेक्ट और लैटक्सा टीम अपने स्वयं के फाउंडेशन मॉडल को वित्त पोषित करके पहले ही उसी निष्कर्ष पर पहुंच गई थी। बहुभाषी ज्ञान अखंडता के निकटतम संस्थान सामान्य एआई से दूर हो रहे हैं। एसईओ उद्योग को कम से कम पैटर्न पर ध्यान देना चाहिए।

बहुभाषी क्षेत्र एआई खोज में अंतर्निहित एक संरचनात्मक धारणा को प्रकट करते हैं: भाषा और बाजार एक ही चीज़ हैं, और वह भाषा एक क्वेरी स्ट्रिंग से विश्वसनीय रूप से जानने योग्य है। कोई भी सच नहीं है. ह्रेफ्लांग ने पारंपरिक खोज के लिए भौगोलिक भेद को क्रियाशील बनाया। जेनेरिक पुनर्प्राप्ति के लिए अभी तक इसे चालू नहीं किया गया है।

जो ब्रांड पूरे स्पेन और मैक्सिको में अच्छा काम करते हैं वे पहले से ही जानते हैं कि भाषाओं के लिए इसे कैसे ठीक किया जाए। वही तकनीकें – स्पष्ट क्षेत्राधिकार संकेत, बाजार-विशिष्ट प्राधिकरण, पुनर्प्राप्ति बाधाएं, अनुवाद के बजाय ट्रांसक्रिएशन, ज्ञान ग्राफ में इकाई ग्राउंडिंग – अब किसी भी भाषा संयोजन में, किसी भी क्षेत्राधिकार के जोड़े में अच्छी तरह से संचालन के लिए टेबल स्टेक हैं।

यदि आप कई न्यायक्षेत्रों में काम करते हैं, तो पूछने का सवाल यह नहीं है कि आपकी सामग्री स्थानीयकृत है या नहीं। यह है कि क्या मॉडल बता सकता है।