NLP துறையின் முக்கியமான பிரச்சனைகளில் ஒன்று இயந்திர மொழிபெயர்ப்பு ஆகும், இது Google Translate போன்ற கருவிகளின் அடிப்படையான பணியாகும். இந்த பிரிவில், இயந்திர மொழிபெயர்ப்பில் கவனம் செலுத்துவோம், அல்லது பொதுவாக, எந்த வரிசை-முதல்-வரிசை பணியிலும் (இது வாக்கிய மாற்றம் என்றும் அழைக்கப்படுகிறது).
RNNகளுடன், வரிசை-முதல்-வரிசை இரண்டு மீள்நினைவூட்டும் நெட்வொர்க்குகளால் செயல்படுத்தப்படுகிறது, இதில் ஒரு நெட்வொர்க், என்கோடர், உள்ளீட்டு வரிசையை ஒரு மறைமாநிலமாக சுருக்குகிறது, மற்றொரு நெட்வொர்க், டிகோடர், இந்த மறைமாநிலத்தை மொழிபெயர்க்கப்பட்ட முடிவாக விரிக்கிறது. இந்த அணுகுமுறையில் சில பிரச்சனைகள் உள்ளன:
- என்கோடர் நெட்வொர்க்கின் இறுதி நிலை ஒரு வாக்கியத்தின் தொடக்கத்தை நினைவில் வைத்துக்கொள்ள கடினமாக உள்ளது, இதனால் நீண்ட வாக்கியங்களுக்கு மாடலின் தரம் குறைவாகிறது.
- ஒரு வரிசையில் உள்ள அனைத்து வார்த்தைகளும் முடிவில் ஒரே தாக்கத்தை ஏற்படுத்துகின்றன. ஆனால் உண்மையில், உள்ளீட்டு வரிசையில் உள்ள குறிப்பிட்ட வார்த்தைகள் மற்றவற்றை விட தொடர்ச்சியான வெளியீடுகளில் அதிக தாக்கத்தை ஏற்படுத்துகின்றன.
கவன механизмங்கள் RNN இன் ஒவ்வொரு வெளியீட்டு கணிப்பில் உள்ளீட்டு வெக்டரின் சூழலியல் தாக்கத்தை எடுக்கும் ஒரு வழியை வழங்குகின்றன. இது செயல்படுத்தப்படும் விதம், உள்ளீட்டு RNN மற்றும் வெளியீட்டு RNN இன் இடைநிலை நிலைகளுக்கு இடையே குறுக்குவழிகளை உருவாக்குவதன் மூலம். இந்த முறையில், yt வெளியீட்டு சின்னத்தை உருவாக்கும்போது, hi உள்ளீட்டு மறைமாநிலங்களை, வெவ்வேறு எடை குணகங்கள் αt,i உடன் கணக்கில் எடுத்துக்கொள்வோம்.
Bahdanau et al., 2015 இல் சேர்க்கை கவன механизмம் கொண்ட என்கோடர்-டிகோடர் மாடல், இந்த வலைப்பதிவு இல் மேற்கோள்.
கவன அணி {αi,j} என்பது ஒரு வெளியீட்டு வரிசையில் ஒரு குறிப்பிட்ட வார்த்தையை உருவாக்குவதில் சில உள்ளீட்டு வார்த்தைகள் விளையாடும் அளவை பிரதிநிதித்துவப்படுத்தும். கீழே ஒரு அத்தகைய அணி எடுத்துக்காட்டாக உள்ளது:
Bahdanau et al., 2015 (Fig.3) இல் இருந்து எடுத்த படம்
கவன механизмங்கள் NLP இல் தற்போதைய அல்லது தற்போதைய நிலைமையைப் பெரும்பாலும் பொறுப்பாக உள்ளன. கவனத்தைச் சேர்ப்பது மாடல் அளவுருக்களின் எண்ணிக்கையை பெரிதும் அதிகரிக்கிறது, இது RNNகளுடன் அளவீட்டு சிக்கல்களை ஏற்படுத்தியது. RNNகளை அளவீட்டில் ஒரு முக்கிய கட்டுப்பாடு என்பது மாடல்களின் மீள்நினைவூட்டும் தன்மை பயிற்சியை தொகுதி மற்றும் இணைபார்க்க சிக்கலாக்குகிறது. RNN இல் ஒரு வரிசையின் ஒவ்வொரு கூறும் தொடர்ச்சியான வரிசையில் செயல்படுத்தப்பட வேண்டும், இது எளிதாக இணைபார்க்க முடியாது என்பதைக் குறிக்கிறது.
Google வலைப்பதிவு இல் இருந்து எடுத்த படம்
கவன механизмங்களை ஏற்றுக்கொள்வது மற்றும் இந்த கட்டுப்பாட்டுடன் இணைந்து, இன்று நாம் அறிந்த மற்றும் பயன்படுத்தும் நிலைமையான டிரான்ஸ்ஃபார்மர் மாடல்களின் உருவாக்கத்துக்கு வழிவகுத்தது, உதாரணமாக BERT முதல் Open-GPT3 வரை.
டிரான்ஸ்ஃபார்மர்களின் முக்கியமான யோசனைகளில் ஒன்று RNNகளின் தொடர்ச்சியான தன்மையைத் தவிர்க்கவும், பயிற்சியின் போது இணைபார்க்கக்கூடிய மாடலை உருவாக்கவும். இது இரண்டு யோசனைகளை செயல்படுத்துவதன் மூலம் அடையப்படுகிறது:
- நிலை குறியீடு
- RNNகள் (அல்லது CNNகள்) பதிலாக முறைபாடுகளைப் பிடிக்க சுய-கவன механизмம் பயன்படுத்துதல் (அதனால் டிரான்ஸ்ஃபார்மர்களை அறிமுகப்படுத்தும் ஆவணம் Attention is all you need என்று அழைக்கப்படுகிறது)
நிலை குறியீட்டின் யோசனை பின்வருமாறு:
- RNNகளைப் பயன்படுத்தும்போது, டோக்கன்களின் தொடர்புடைய நிலை படிகளின் எண்ணிக்கையால் பிரதிநிதித்துவப்படுத்தப்படுகிறது, எனவே வெளிப்படையாக பிரதிநிதித்துவப்படுத்த தேவையில்லை.
- ஆனால் கவனத்தை மாற்றியவுடன், ஒரு வரிசையில் உள்ள டோக்கன்களின் தொடர்புடைய நிலைகளை அறிய வேண்டும்.
- நிலை குறியீட்டை பெற, டோக்கன்களின் வரிசையுடன் வரிசையில் டோக்கன் நிலைகளின் வரிசையை (அதாவது, 0,1, ...) சேர்க்கிறோம்.
- பின்னர் டோக்கன் எம்பெடிங் வெக்டருடன் டோக்கன் நிலையை கலக்கிறோம். நிலையை (முழு எண்) வெக்டராக மாற்ற, நாம் வெவ்வேறு அணுகுமுறைகளைப் பயன்படுத்தலாம்:
- டோக்கன் எம்பெடிங் போன்ற பயிற்சி செய்யக்கூடிய எம்பெடிங். இது இங்கு நாம் கருதும் அணுகுமுறை. டோக்கன்களுக்கும் அவற்றின் நிலைகளுக்கும் மேல் எம்பெடிங் அடுக்குகளைப் பயன்படுத்துகிறோம், இதனால் ஒரே பரிமாணங்களின் எம்பெடிங் வெக்டர்கள் கிடைக்கின்றன, பின்னர் அவற்றை ஒன்றாகச் சேர்க்கிறோம்.
- அசையாத நிலை குறியீட்டு செயல்பாடு, அசல் ஆவணத்தில் முன்மொழியப்பட்டது.
எழுத்தாளரின் படம்
நிலை எம்பெடிங் மூலம் நாம் பெறும் முடிவு, அசல் டோக்கனையும் அதன் வரிசையிலுள்ள நிலையையும் எம்பெடிங் செய்கிறது.
அடுத்ததாக, நமது வரிசையில் சில முறைபாடுகளைப் பிடிக்க வேண்டும். இதைச் செய்ய, டிரான்ஸ்ஃபார்மர்கள் சுய-கவன механизмம் பயன்படுத்துகின்றன, இது உள்ளீட்டு மற்றும் வெளியீட்டாக ஒரே வரிசையில் கவனம் செலுத்துவது ஆகும். சுய-கவனத்தைப் பயன்படுத்துவது வாக்கியத்தின் சூழலத்தை கணக்கில் எடுத்துக்கொள்ளவும், எந்த வார்த்தைகள் தொடர்புடையவை என்பதைப் பார்க்கவும் உதவுகிறது. உதாரணமாக, it போன்ற இணைப்புகள் எந்த வார்த்தைகளை குறிப்பிடுகின்றன என்பதைப் பார்க்கவும், சூழலத்தை கணக்கில் எடுத்துக்கொள்ளவும் உதவுகிறது:
Google வலைப்பதிவு இல் இருந்து எடுத்த படம்
டிரான்ஸ்ஃபார்மர்களில், மல்டி-ஹெடட் கவனம் பயன்படுத்தப்படுகிறது, இது நெட்வொர்க்கிற்கு பல்வேறு வகையான சார்புகளைப் பிடிக்க சக்தியை வழங்குகிறது, உதாரணமாக, நீண்டகாலம் மற்றும் குறுகியகால வார்த்தை உறவுகள், இணைப்பு மற்றும் வேறு ஏதோ போன்றவை.
TensorFlow Notebook டிரான்ஸ்ஃபார்மர் அடுக்குகளின் செயல்பாட்டில் மேலும் விவரங்களை உள்ளடக்கியது.
டிரான்ஸ்ஃபார்மர்களில், கவனம் இரண்டு இடங்களில் பயன்படுத்தப்படுகிறது:
- உள்ளீட்டு உரையில் முறைபாடுகளைப் பிடிக்க சுய-கவனம்
- வரிசை மொழிபெயர்ப்பு செய்ய - இது என்கோடர் மற்றும் டிகோடருக்கு இடையிலான கவன அடுக்கு.
என்கோடர்-டிகோடர் கவனம் RNNகளில் பயன்படுத்தப்படும் கவன механизмத்திற்கு மிகவும் ஒத்ததாக உள்ளது, இந்த பிரிவின் தொடக்கத்தில் விவரிக்கப்பட்டது. இந்த அனிமேஷன் வரைபடம் என்கோடர்-டிகோடர் கவனத்தின் பங்கைக் கூறுகிறது.
ஒவ்வொரு உள்ளீட்டு நிலையும் ஒவ்வொரு வெளியீட்டு நிலைக்கு தனித்தனியாக வரைமுறைப்படுத்தப்படுவதால், டிரான்ஸ்ஃபார்மர்கள் RNNகளை விட சிறப்பாக இணைபார்க்க முடியும், இது மிகவும் பெரிய மற்றும் வெளிப்படையான மொழி மாடல்களை இயக்குகிறது. ஒவ்வொரு கவன தலைவும் வார்த்தைகளுக்கு இடையிலான வெவ்வேறு உறவுகளை கற்றுக்கொள்வதற்கு பயன்படுத்தப்படலாம், இது கீழ்மட்ட இயற்கை மொழி செயலாக்க பணிகளை மேம்படுத்துகிறது.
BERT (Bidirectional Encoder Representations from Transformers) என்பது 12 அடுக்குகளைக் கொண்ட BERT-base மற்றும் 24 அடுக்குகளைக் கொண்ட BERT-large ஆகியவற்றுடன் மிகப்பெரிய பல அடுக்கு டிரான்ஸ்ஃபார்மர் நெட்வொர்க் ஆகும். மாடல் முதலில் ஒரு பெரிய உரை தரவுத்தொகுப்பில் (WikiPedia + புத்தகங்கள்) மேற்பயிற்சி செய்யப்படுகிறது, இது கண்காணிக்கப்படாத பயிற்சியைப் (ஒரு வாக்கியத்தில் மறைக்கப்பட்ட வார்த்தைகளை கணிக்க) பயன்படுத்துகிறது. மேற்பயிற்சியின் போது, மாடல் முக்கியமான அளவிலான மொழி புரிதலை உறிஞ்சுகிறது, இது பிற தரவுத்தொகுப்புகளுடன் நன்றாக தகுந்து பயன்படுத்தப்படலாம். இந்த செயல்முறை மாற்றம் கற்றல் என்று அழைக்கப்படுகிறது.
படம் மூலம்
பின்வரும் நோட்புக்குகளில் உங்கள் கற்றலை தொடருங்கள்:
இந்த பாடத்தில் நீங்கள் டிரான்ஸ்ஃபார்மர்கள் மற்றும் கவன механизмங்கள் பற்றி கற்றுக்கொண்டீர்கள், இது NLP கருவி பெட்டியில் முக்கியமான கருவிகள். BERT, DistilBERT, BigBird, OpenGPT3 மற்றும் பலவற்றை உள்ளடக்கிய டிரான்ஸ்ஃபார்மர் கட்டமைப்புகளின் பல்வேறு மாறுபாடுகள் உள்ளன, அவற்றை நன்றாக தகுந்து பயன்படுத்தலாம். HuggingFace தொகுப்பு PyTorch மற்றும் TensorFlow இரண்டையும் பயன்படுத்தி இந்த கட்டமைப்புகளைப் பயிற்சி செய்ய ஒரு களஞ்சியத்தை வழங்குகிறது.
- டிரான்ஸ்ஃபார்மர்களை அறிமுகப்படுத்தும் Attention is all you need ஆவணத்தை விளக்கும் வலைப்பதிவு.
- டிரான்ஸ்ஃபார்மர்களை விளக்கும் வலைப்பதிவுகளின் தொடர், கட்டமைப்பை விரிவாக விளக்குகிறது.
குறிப்பு:
இந்த ஆவணம் Co-op Translator என்ற AI மொழிபெயர்ப்பு சேவையைப் பயன்படுத்தி மொழிபெயர்க்கப்பட்டுள்ளது. நாங்கள் துல்லியத்திற்காக முயற்சிக்கிறோம், ஆனால் தானியக்க மொழிபெயர்ப்புகளில் பிழைகள் அல்லது தவறான தகவல்கள் இருக்கக்கூடும் என்பதை தயவுசெய்து கவனத்தில் கொள்ளுங்கள். அதன் தாய்மொழியில் உள்ள மூல ஆவணம் அதிகாரப்பூர்வ ஆதாரமாக கருதப்பட வேண்டும். முக்கியமான தகவல்களுக்கு, தொழில்முறை மனித மொழிபெயர்ப்பு பரிந்துரைக்கப்படுகிறது. இந்த மொழிபெயர்ப்பைப் பயன்படுத்துவதால் ஏற்படும் எந்த தவறான புரிதல்கள் அல்லது தவறான விளக்கங்களுக்கு நாங்கள் பொறுப்பல்ல.






