A szemantikai beágyazások, mint például a Word2Vec és a GloVe, valójában az első lépést jelentik a nyelvi modellezés felé – olyan modellek létrehozása felé, amelyek valamilyen módon megértik (vagy reprezentálják) a nyelv természetét.
A nyelvi modellezés mögött álló fő ötlet az, hogy ezeket modelleket felcímkézetlen adathalmazokon tanítjuk, felügyelet nélküli módon. Ez azért fontos, mert hatalmas mennyiségű felcímkézetlen szöveg áll rendelkezésünkre, míg a felcímkézett szövegek mennyisége mindig korlátozott lesz azzal az erőfeszítéssel, amit a címkézésre fordítani tudunk. Leggyakrabban olyan nyelvi modelleket építhetünk, amelyek képesek hiányzó szavakat megjósolni a szövegben, mivel könnyű véletlenszerűen kitakarni egy szót a szövegben, és azt mint tanítási mintát használni.
Korábbi példáinkban előre betanított szemantikai beágyazásokat használtunk, de érdekes látni, hogyan lehet ezeket a beágyazásokat betanítani. Számos lehetséges ötlet létezik, amelyeket használhatunk:
- N-Gram nyelvi modellezés, amikor egy token-t jósolunk meg az N előző token alapján (N-gram).
-
Folytonos Szózsák (CBoW), amikor a középső token-t
$W_0$ jósoljuk meg egy token sorozatban$W_{-N}$ , ...,$W_N$ . -
Skip-gram, ahol a középső token
$W_0$ alapján egy szomszédos tokenek halmazát {$W_{-N},\dots, W_{-1}, W_1,\dots, W_N$} jósoljuk meg.
Folytasd a tanulást az alábbi jegyzetfüzetekben:
Az előző leckében láttuk, hogy a szavak beágyazásai szinte varázslatosan működnek! Most már tudjuk, hogy a szavak beágyazásainak tanítása nem egy nagyon bonyolult feladat, és képesek vagyunk saját beágyazásokat tanítani specifikus szakterületi szövegekhez, ha szükséges.
- Hivatalos PyTorch oktatóanyag a nyelvi modellezésről.
- Hivatalos TensorFlow oktatóanyag a Word2Vec modell tanításáról.
- A gensim keretrendszer használata a leggyakrabban használt beágyazások néhány sor kóddal történő tanításához ebben a dokumentációban van leírva.
A laborban arra hívunk ki, hogy módosítsd az ebben a leckében szereplő kódot, és taníts Skip-Gram modellt a CBoW helyett. Olvasd el a részleteket
