ΠΠΎΡΡΡΠΈΡΠΈΠ΅Π½Ρ ΠΆΠ°ΠΊΠΊΠ°ΡΠ° ΠΏΠΎΠΊΠ°Π·ΡΠ²Π°Π΅Ρ ΡΡΠΎ
ΠΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΡ ΠΈ ΠΎΡΠ΄ΠΈΠ½Π°ΡΠΈΡ
ΠΠ°ΡΠΈΠ½Π° ΠΠ°ΡΡΠΎΠ»ΠΎΠΌΠ΅Π΅Π²Π°
ΠΠ°Π½Π½ΡΠ΅ ΠΎ ΠΏΡΠΎΡΠ΅ΠΎΠΌΠ΅ ΠΆΠ°Π±Ρ Π³ΡΠ΅Π±Π΅ΡΠΊΠ° Pecten maximus ΠΎΡ Π°Π²ΡΠΎΡΠΎΠ² ΠΏΠ°ΠΊΠ΅ΡΠ° prot2D (Artigaud et al. 2013) :
ΠΠ°Π½Π½ΡΠ΅ ΠΎ ΠΏΡΠΎΡΠ΅ΠΎΠΌΠ΅ ΡΡΠ²ΠΎΡΠΎΡΠΊΠΈ ΠΊΡΠΎΠ²ΠΈ ΠΏΠ°ΡΠΈΠ΅Π½ΡΠΎΠ², ΡΡΡΠ°Π΄Π°ΡΡΠΈΡ ΡΠ°Π·Π½ΠΎΠΉ ΡΡΠ΅ΠΏΠ΅Π½ΡΡ Π³ΠΈΠΏΠ΅ΡΠΏΠ»Π°Π·ΠΈΠΈ ΠΏΡΠ΅Π΄ΡΡΠ°ΡΠ΅Π»ΡΠ½ΠΎΠΉ ΠΆΠ΅Π»Π΅Π·Ρ, ΠΈΠ· ΠΏΠ°ΠΊΠ΅ΡΠ° digeR (Fan et al. 2009) :
ΠΠ°ΠΊΠ΅ΡΡ (ΠΈΠ½ΡΡΠ°Π»Π»ΠΈΡΡΠΉΡΠ΅ ΠΏΡΠΈ Π½Π΅ΠΎΠ±Ρ ΠΎΠ΄ΠΈΠΌΠΎΡΡΠΈ)
ΠΠ½ΠΎΠ³ΠΎΠΌΠ΅ΡΠ½ΡΠ΅ Π΄Π°Π½Π½ΡΠ΅
ΠΠ±Π»Π°ΠΊΠΎ ΡΠΎΡΠ΅ΠΊ Π² ΠΌΠ½ΠΎΠ³ΠΎΠΌΠ΅ΡΠ½ΠΎΠΌ ΠΏΡΠΎΡΡΡΠ°Π½ΡΡΠ²Π΅
ΠΠΎΠ³Π΄Π° ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ² ΠΌΠ½ΠΎΠ³ΠΎ, ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡΠ΅Π΄ΡΡΠ°Π²ΠΈΡΡ Π²ΡΠ΅ ΠΎΠ±ΡΠ΅ΠΊΡΡ ΠΊΠ°ΠΊ ΠΎΠ±Π»Π°ΠΊΠΎ ΡΠΎΡΠ΅ΠΊ Π² ΠΌΠ½ΠΎΠ³ΠΎΠΌΠ΅ΡΠ½ΠΎΠΌ ΠΏΡΠΎΡΡΡΠ°Π½ΡΡΠ²Π΅.
Migration by Don McCullough on Flickr
ΠΠ»Ρ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ N ΠΎΠ±ΡΠ΅ΠΊΡΠΎΠ² Π² ΠΈΠ΄Π΅Π°Π»Π΅ Π½ΡΠΆΠ½ΠΎ N-1 ΠΈΠ·ΠΌΠ΅ΡΠ΅Π½ΠΈΠΉ
ΠΠ½ΠΎΠ³ΠΎΠΌΠ΅ΡΠ½ΠΎΠ΅ ΠΏΡΠΎΡΡΡΠ°Π½ΡΡΠ²ΠΎ ΡΠ»ΠΎΠΆΠ½ΠΎ ΠΈΠ·ΠΎΠ±ΡΠ°Π·ΠΈΡΡ. ΠΡΡΡ Π΄Π²Π° ΠΏΡΡΠΈ:
black shadows for a white horses / les negres ombres dels cavalls blancs by Ferran JordΓ on Flickr
ΠΠΎΡΡΡΠΈΡΠΈΠ΅Π½ΡΡ ΡΡ ΠΎΠ΄ΡΡΠ²Π°-ΡΠ°Π·Π»ΠΈΡΠΈΡ
\(0 \le S \le 1\) ΠΈΠ»ΠΈ \(-1 \le S \le 1\)
ΠΠ²ΠΊΠ»ΠΈΠ΄ΠΎΠ²ΠΎ ΡΠ°ΡΡΡΠΎΡΠ½ΠΈΠ΅
ΠΠ»Ρ Π΄Π²ΡΠΌΠ΅ΡΠ½ΠΎΠ³ΠΎ ΠΏΡΠΎΡΡΡΠ°Π½ΡΡΠ²Π° ΠΠ²ΠΊΠ»ΠΈΠ΄ΠΎΠ²ΠΎ ΡΠ°ΡΡΡΠΎΡΠ½ΠΈΠ΅ ΡΠ°ΡΡΡΠΈΡΡΠ²Π°Π΅ΡΡΡ ΡΠ°ΠΊ:
Π’.Π΅. ΠΠ²ΠΊΠ»ΠΈΠ΄ΠΎΠ²ΠΎ ΡΠ°ΡΡΡΠΎΡΠ½ΠΈΠ΅ Π² ΡΡΠΎΠΌ Π³ΠΈΠΏΠΎΡΠ΅ΡΠΈΡΠ΅ΡΠΊΠΎΠΌ ΠΏΡΠΈΠΌΠ΅ΡΠ΅ Π±ΡΠ΄Π΅Ρ
ΠΠ»Ρ ΠΏΡΠΎΡΡΡΠ°Π½ΡΡΠ²Π° Ρ Π±ΠΎΠ»ΡΡΠΈΠΌ ΡΠΈΡΠ»ΠΎΠΌ ΠΈΠ·ΠΌΠ΅ΡΠ΅Π½ΠΈΠΉ ΡΠΎΡΠΌΡΠ»Π° ΠΠ²ΠΊΠ»ΠΈΠ΄ΠΎΠ²Π° ΡΠ°ΡΡΡΠΎΡΠ½ΠΈΡ Π²ΡΠ³Π»ΡΠ΄ΠΈΡ ΡΠ°ΠΊ:
ΠΠ²ΠΊΠ»ΠΈΠ΄ΠΎΠ²ΠΎ ΡΠ°ΡΡΡΠΎΡΠ½ΠΈΠ΅ β ΡΡΠΎ ΠΌΠ΅ΡΡΠΈΠΊΠ°.
ΠΠ»Ρ Π²ΡΠ΅Ρ ΠΌΠ΅ΡΡΠΈΠΊ (ΡΠ°ΡΡΡΠΎΡΠ½ΠΈΠΉ) ΡΠΏΡΠ°Π²Π΅Π΄Π»ΠΈΠ²Ρ ΡΡΠΈ ΡΠ²ΠΎΠΉΡΡΠ²Π°:
Π’ΡΠΈΠ°Π½Π³ΡΠ»ΡΡΠ½ΠΎΡΡΡ Π΅ΡΡΡ ΡΠΎΠ»ΡΠΊΠΎ Ρ ΠΌΠ΅ΡΡΠΈΠΊ! ΠΠΌΠ΅Π½Π½ΠΎ ΠΏΠΎΡΠΎΠΌΡ, ΡΡΠΎ Π΄Π»Ρ Π½ΠΈΡ Π²ΡΠΏΠΎΠ»Π½ΡΠ΅ΡΡΡ Π½Π΅ΡΠ°Π²Π΅Π½ΡΡΠ²ΠΎ ΡΡΠ΅ΡΠ³ΠΎΠ»ΡΠ½ΠΈΠΊΠ°, ΠΎΠ½ΠΈ ΠΈΠΌΠ΅ΡΡ ΠΏΡΠ°Π²ΠΎ Π½Π°Π·ΡΠ²Π°ΡΡΡΡ ΡΠ°ΡΡΡΠΎΡΠ½ΠΈΡΠΌΠΈ, Π° Π½Π΅ ΠΏΡΠΎΡΡΠΎ ΠΌΠ΅ΡΠ°ΠΌΠΈ ΡΠ°Π·Π»ΠΈΡΠΈΡ.
ΠΠΎΡΡΡΠΈΡΠΈΠ΅Π½Ρ ΠΠ°ΠΊΠΊΠ°ΡΠ°
ΠΡΠ»ΠΈ ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡΡΡΡ Π±ΠΈΠ½Π°ΡΠ½ΡΠ΅ Π΄Π°Π½Π½ΡΠ΅, ΡΠΎ ΠΏΠΎΡΡΠΈΡΠ°ΡΡ ΡΡ ΠΎΠ΄ΡΡΠ²ΠΎ ΠΌΠΎΠΆΠ½ΠΎ, ΡΡΠΈΡΡΠ²Π°Ρ ΠΏΡΠΈΡΡΡΡΡΠ²ΠΈΠ΅-ΠΎΡΡΡΡΡΡΠ²ΠΈΠ΅ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ².
ΠΠΎΡΡΡΠΈΡΠΈΠ΅Π½ΡΠΎΠ² ΡΡ ΠΎΠ΄ΡΡΠ²Π°-ΡΠ°Π·Π»ΠΈΡΠΈΡ Π΄Π»Ρ ΠΊΠ°ΡΠ΅ΡΡΠ²Π΅Π½Π½ΡΡ Π΄Π°Π½Π½ΡΡ ΠΏΡΠΈΠ΄ΡΠΌΠ°Π½ΠΎ Π²Π΅Π»ΠΈΠΊΠΎΠ΅ ΠΌΠ½ΠΎΠΆΠ΅ΡΡΠ²ΠΎ.
ΠΠΎΡΡΡΠΈΡΠΈΠ΅Π½Ρ ΠΠ°ΠΊΠΊΠ°ΡΠ° ΡΠ°ΡΡΡΠΈΡΡΠ²Π°Π΅ΡΡΡ ΠΏΠΎ ΡΠΎΡΠΌΡΠ»Π΅:
Π‘ΠΎΠΎΡΠ²Π΅ΡΡΡΠ²ΡΡΡΠΈΠΉ ΠΊΠΎΡΡΡΠΈΡΠΈΠ΅Π½Ρ ΡΠ°Π·Π»ΠΈΡΠΈΡ ΠΠ°ΠΊΠΊΠ°ΡΠ° ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠΎΡΡΠΈΡΠ°ΡΡ ΡΠ°ΠΊ:
Π£ ΠΊΠΎΡΡΡΠΈΡΠΈΠ΅Π½ΡΠ° ΠΠ°ΠΊΠΊΠ°ΡΠ° Π΅ΡΡΡ ΠΎΠ΄Π½ΠΎ Π·Π°Π±Π°Π²Π½ΠΎΠ΅ ΡΠ²ΠΎΠΉΡΡΠ²ΠΎ. ΠΠ±ΡΠ°ΡΠΈΡΠ΅ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅, Π² Π·Π½Π°ΠΌΠ΅Π½Π°ΡΠ΅Π»Π΅ ΡΠΈΠ³ΡΡΠΈΡΡΠ΅Ρ Π½Π΅ ΠΎΠ±ΡΠ΅Π΅ ΡΠΈΡΠ»ΠΎ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ² β ΡΡ ΠΎΠ΄ΡΡΠ²ΠΎ ΠΏΠΎ ΠΎΡΡΡΡΡΡΠ²ΠΈΡ Π½Π΅ ΡΡΠΈΡΡΠ²Π°Π΅ΡΡΡ! ΠΡΠΎ ΡΠ²ΠΎΠΉΡΡΠ²ΠΎ ΠΎΡΠ΅Π½Ρ ΠΏΠΎΠ»Π΅Π·Π½ΠΎ Π΄Π»Ρ ΡΠ°Π±ΠΎΡΡ Ρ ΠΏΡΠΎΡΠ΅ΠΎΠΌΠ½ΡΠΌΠΈ Π΄Π°Π½Π½ΡΠΌΠΈ. ΠΡΡΠ½ΠΎ ΠΌΠΎΠΆΠ΅Ρ ΠΎΡΡΡΡΡΡΠ²ΠΎΠ²Π°ΡΡ Π½Π° Π³Π΅Π»Π΅ Π½Π΅ ΡΠΎΠ»ΡΠΊΠΎ ΠΏΠΎΡΠΎΠΌΡ, ΡΡΠΎ Π±Π΅Π»ΠΊΠ° Π½Π΅ Π±ΡΠ»ΠΎ Π² ΠΏΡΠΎΠ±Π΅, Π½ΠΎ ΠΈ Π² ΡΠΈΠ»Ρ ΡΠ°ΠΌΡΡ ΡΠ°Π·Π½ΡΡ Π΄ΡΡΠ³ΠΈΡ ΠΏΡΠΈΡΠΈΠ½ (Π½Π°ΠΏΡΠΈΠΌΠ΅Ρ, ΡΠΊΡΠΏΡΠ΅ΡΡΠΈΡ Π½ΠΈΠΆΠ΅ ΠΏΠΎΡΠΎΠ³Π° ΠΎΠΏΡΠ΅Π΄Π΅Π»Π΅Π½ΠΈΡ, ΠΏΠ»ΠΎΡ ΠΎ ΠΏΡΠΎΠΊΡΠ°ΡΠ΅Π½ ΠΎΠ±ΡΠ°Π·Π΅Ρ ΠΈ ΠΏΡΠΎΡ.).
ΠΠ°ΠΏΡΠΈΠΌΠ΅Ρ, ΠΏΡΡΡΡ Ρ Π½Π°Ρ Π΅ΡΡΡ ΡΡΠΈ ΠΏΡΠΎΠ±Ρ, Ρ ΠΊΠΎΡΠΎΡΡΡ ΠΌΡ Π½Π°ΡΠ»ΠΈ Π²ΡΠ΅Π³ΠΎ 5 ΠΏΡΡΠ΅Π½.
Objects | Spot.1 | Spot.2 | Spot.3 | Spot.4 | Spot.5 |
---|---|---|---|---|---|
Object 1 | 1 | 1 | 0 | 1 | 0 |
Object 2 | 1 | 1 | 1 | 1 | 0 |
Object 3 | 0 | 0 | 0 | 1 | 0 |
Π§ΡΠΎΠ±Ρ ΠΎΡΠ΅Π½ΠΈΡΡ ΡΠ°Π·Π»ΠΈΡΠΈΠ΅ ΠΌΠ΅ΠΆΠ΄Ρ ΡΡΠΈΠΌΠΈ ΠΏΡΠΎΠ±Π°ΠΌΠΈ, ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠΎΡΡΠΈΡΠ°ΡΡ ΠΊΠΎΡΡΡΠΈΡΠΈΠ΅Π½Ρ ΠΠ°ΠΊΠΊΠ°ΡΠ°.
Object 1 | Object 2 | Object 3 | |
---|---|---|---|
Object 1 | 0.00 | 0.25 | 0.67 |
Object 2 | 0.25 | 0.00 | 0.75 |
Object 3 | 0.67 | 0.75 | 0.00 |
Π’ΠΎΡΠ½ΠΎ ΡΠ°ΠΊ ΠΆΠ΅, ΡΡΠΎΠ±Ρ ΠΎΡΠ΅Π½ΠΈΡΡ ΡΠ°Π·Π»ΠΈΡΠΈΠ΅ Π±Π΅Π»ΠΊΠΎΠ², ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠΎΡΡΠΈΡΠ°ΡΡ ΠΊΠΎΡΡΡΠΈΡΠΈΠ΅Π½Ρ ΠΠ°ΠΊΠΊΠ°ΡΠ° ΠΌΠ΅ΠΆΠ΄Ρ Π±Π΅Π»ΠΊΠ°ΠΌΠΈ.
Spot 1 | Spot 2 | Spot 3 | Spot 4 | Spot 5 | |
---|---|---|---|---|---|
Spot 1 | 0.00 | 0.00 | 0.50 | 0.33 | 1 |
Spot 2 | 0.00 | 0.00 | 0.50 | 0.33 | 1 |
Spot 3 | 0.50 | 0.50 | 0.00 | 0.67 | 1 |
Spot 4 | 0.33 | 0.33 | 0.67 | 0.00 | 1 |
Spot 5 | 1.00 | 1.00 | 1.00 | 1.00 | 0 |
ΠΠΈΠ·ΡΠ°Π»ΠΈΠ·Π°ΡΠΈΡ ΠΌΠ½ΠΎΠ³ΠΎΠΌΠ΅ΡΠ½ΡΡ Π΄Π°Π½Π½ΡΡ
ΠΠ΅ΡΠ°ΡΡ ΠΈΡΠ΅ΡΠΊΠ°Ρ ΠΊΠ»Π°ΡΡΠ΅ΡΠΈΠ·Π°ΡΠΈΡ
Π‘ΡΡΠ΅ΡΡΠ²ΡΠ΅Ρ ΠΌΠ½ΠΎΠ³ΠΎ ΠΌΠ΅ΡΠΎΠ΄ΠΎΠ² ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΠΈ: ΠΌΠ΅ΡΠΎΠ΄Ρ ΠΊΠ»Π°ΡΡΠ΅ΡΠΈΠ·Π°ΡΠΈΠΈ Π½Π° ΠΎΡΠ½ΠΎΠ²Π°Π½ΠΈΠΈ ΡΠ°ΡΡΡΠΎΡΠ½ΠΈΠΉ ΠΈ ΠΌΠ΅ΡΠΎΠ΄Ρ ΠΊΠ»Π°ΡΡΠ΅ΡΠΈΠ·Π°ΡΠΈΠΈ Π½Π° ΠΎΡΠ½ΠΎΠ²Π°Π½ΠΈΠΈ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ².
Π ΡΡΠΎΠΌ ΠΊΡΡΡΠ΅ ΠΌΡ Π±ΡΠ΄Π΅ΠΌ Π·Π°ΡΡΠ°Π³ΠΈΠ²Π°ΡΡ ΡΠΎΠ»ΡΠΊΠΎ ΠΌΠ΅ΡΠΎΠ΄Ρ ΠΈΠ΅ΡΠ°ΡΡ ΠΈΡΠ΅ΡΠΊΠΎΠΉ ΠΊΠ»Π°ΡΡΠ΅ΡΠΈΠ·Π°ΡΠΈΠΈ Π½Π° ΠΎΡΠ½ΠΎΠ²Π°Π½ΠΈΠΈ ΡΠ°ΡΡΡΠΎΡΠ½ΠΈΠΉ.
ΠΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΡ Π΄Π°Π½Π½ΡΡ ΠΏΡΠΎΡ ΠΎΠ΄ΠΈΡ Π² Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΎ ΡΡΠ°ΠΏΠΎΠ². Π Π΅Π·ΡΠ»ΡΡΠ°Ρ ΠΊΠ»Π°ΡΡΠ΅ΡΠΈΠ·Π°ΡΠΈΠΈ Π±ΡΠ΄Π΅Ρ ΡΠΈΠ»ΡΠ½Π΅Π΅ Π²ΡΠ΅Π³ΠΎ Π·Π°Π²ΠΈΡΠ΅ΡΡ (1) ΠΎΡ Π²ΡΠ±ΠΎΡΠ° ΠΊΠΎΡΡΡΠΈΡΠΈΠ΅Π½ΡΠ° ΡΡ ΠΎΠ΄ΡΡΠ²Π°-ΡΠ°Π·Π»ΠΈΡΠΈΡ ΠΈ (2) ΠΎΡ Π°Π»Π³ΠΎΡΠΈΡΠΌΠ° ΠΊΠ»Π°ΡΡΠ΅ΡΠΈΠ·Π°ΡΠΈΠΈ. ΠΠ΅Ρ ΡΠΎΡΠΌΠ°Π»ΡΠ½ΡΡ ΡΠΏΠΎΡΠΎΠ±ΠΎΠ² Π²ΡΠ±ΡΠ°ΡΡ Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ ΠΏΠΎΠ΄Ρ ΠΎΠ΄ΡΡΠΈΠΉ ΠΊΠΎΡΡΡΠΈΡΠΈΠ΅Π½Ρ ΠΈ Π°Π»Π³ΠΎΡΠΈΡΠΌ.
ΠΠ»Π³ΠΎΡΠΈΡΠΌΡ ΠΈΠ΅ΡΠ°ΡΡ ΠΈΡΠ΅ΡΠΊΠΎΠΉ ΠΊΠ»Π°ΡΡΠ΅ΡΠΈΠ·Π°ΡΠΈΠΈ Π½Π° ΠΎΡΠ½ΠΎΠ²Π°Π½ΠΈΠΈ ΡΠ°ΡΡΡΠΎΡΠ½ΠΈΠΉ
ΠΡ ΡΠ°ΡΡΠΌΠΎΡΡΠΈΠΌ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΎ Π°Π»Π³ΠΎΡΠΈΡΠΌΠΎΠ², ΠΊΠΎΡΠΎΡΡΠ΅ ΡΡΡΠΎΡΡ ΠΈΠ΅ΡΠ°ΡΡ ΠΈΡΠ΅ΡΠΊΡΡ ΠΊΠ»Π°ΡΡΠ΅ΡΠΈΠ·Π°ΡΠΈΡ ΠΎΠ±ΡΠ΅ΠΊΡΠΎΠ² Π½Π° ΠΎΡΠ½ΠΎΠ²Π°Π½ΠΈΠΈ ΠΌΠ°ΡΡΠΈΡΡ ΡΠ°Π·Π»ΠΈΡΠΈΠΉ ΠΌΠ΅ΠΆΠ΄Ρ Π½ΠΈΠΌΠΈ:
ΠΠ΅ΡΠΎΠ΄ Π±Π»ΠΈΠΆΠ°ΠΉΡΠ΅Π³ΠΎ ΡΠΎΡΠ΅Π΄Π° (= nearest neighbour = single linkage)
ΠΠ΅ΡΠΎΠ΄ ΠΎΡΠ΄Π°Π»Π΅Π½Π½ΠΎΠ³ΠΎ ΡΠΎΡΠ΅Π΄Π° (= furthest neighbour = complete linkage)
ΠΠ΅ΡΠΎΠ΄ Π½Π΅Π²Π·Π²Π΅ΡΠ΅Π½Π½ΠΎΠ³ΠΎ ΠΏΠΎΠΏΠ°ΡΠ½ΠΎΠ³ΠΎ ΡΡΠ΅Π΄Π½Π΅Π³ΠΎ (= UPGMA = Unweighted Pair Group Method with Arithmetic mean)
ΠΠ½Π²Π΅ΡΡΠΈΠΈ Π½Π° Π΄Π΅Π½Π΄ΡΠΎΠ³ΡΠ°ΠΌΠΌΠ°Ρ
ΠΈΠ· Borcard et al., 2011
ΠΠ»Π°ΡΡΠ΅ΡΠ½ΡΠΉ Π°Π½Π°Π»ΠΈΠ· Π² R: Π³ΡΠ΅Π±Π΅ΡΠΊΠΈ
ΠΡΠΏΠΎΠΌΠ½ΠΈΠΌ, Π½Π° ΡΠ΅ΠΌ ΠΌΡ ΠΎΡΡΠ°Π½ΠΎΠ²ΠΈΠ»ΠΈΡΡ Π² ΠΏΡΠΎΡΠ»ΡΠΉ ΡΠ°Π·.
ΠΠ°Π·Π²Π°Π½ΠΈΡ ΠΏΡΠΎΠ± Π² ΡΡΠΎΠΌ ΡΠ°ΠΉΠ»Π΅ β Π΄Π»ΠΈΠ½Π½ΡΠ΅ Π½Π΅ΠΏΠΎΠ½ΡΡΠ½ΡΠ΅ Π°Π±Π±ΡΠ΅Π²ΠΈΠ°ΡΡΡΡ.
ΠΠΌΠ΅ΡΡΠΎ Π½ΠΈΡ Π½ΡΠΆΠ½ΠΎ ΡΠΎΠ·Π΄Π°ΡΡ ΠΎΡΠΌΡΡΠ»Π΅Π½Π½ΡΠ΅ ΠΈ ΠΊΡΠ°ΡΠΊΠΈΠ΅ Π»Π΅ΠΉΠ±Π»Ρ Π΄Π»Ρ ΠΏΡΠΎΠ±.
ΠΠ½ΡΠΎΡΠΌΠ°ΡΠΈΡ ΠΎ Π»Π΅ΠΉΠ±Π»Π°Ρ Π²ΠΎΠ·ΡΠΌΠ΅ΠΌ ΠΈΠ· Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌΠ° Ρ ΡΠ°ΠΊΡΠΎΡΠ°ΠΌΠΈ
Π§ΡΠΎΠ±Ρ ΡΡΡΠΎΠΈΡΡ Π΄Π΅ΡΠ΅Π²ΡΡ Π΄Π»Ρ ΠΏΡΠΎΠ±, Π½Π°ΠΌ ΠΏΠΎΠ½Π°Π΄ΠΎΠ±ΠΈΡΡΡ ΡΡΠ°Π½ΡΠΏΠΎΠ½ΠΈΡΠΎΠ²Π°ΡΡ ΠΈΡΡ ΠΎΠ΄Π½ΡΠ΅ Π΄Π°Π½Π½ΡΠ΅
ΠΠ°Π²Π°ΠΉΡΠ΅ ΠΏΠΎΡΡΡΠΎΠΈΠΌ Π΄Π΅ΡΠ΅Π²ΡΡ ΠΏΡΠΈ ΠΏΠΎΠΌΠΎΡΠΈ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΈΡ Π°Π»Π³ΠΎΡΠΈΡΠΌΠΎΠ² ΠΊΠ»Π°ΡΡΠ΅ΡΠΈΠ·Π°ΡΠΈΠΈ (ΠΏΠΎ ΡΡΠ°Π½Π΄Π°ΡΡΠΈΠ·ΠΎΠ²Π°Π½Π½ΡΠΌ Π΄Π°Π½Π½ΡΠΌ, Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ ΠΠ²ΠΊΠ»ΠΈΠ΄ΠΎΠ²Π° ΡΠ°ΡΡΡΠΎΡΠ½ΠΈΡ) ΠΈ ΡΡΠ°Π²Π½ΠΈΠΌ ΠΈΡ . ΠΠ°ΠΌ ΠΏΠΎΠ½Π°Π΄ΠΎΠ±ΠΈΡΡΡ ΠΌΠ°ΡΡΠΈΡΠ° ΡΠ°ΡΡΡΠΎΡΠ½ΠΈΠΉ.
ΠΠ΅ΡΠ΅Π²ΡΡ ΠΌΠΎΠΆΠ½ΠΎ Π²ΠΈΠ·ΡΠ°Π»ΠΈΠ·ΠΈΡΠΎΠ²Π°ΡΡ ΠΏΡΠΈ ΠΏΠΎΠΌΠΎΡΠΈ Π±Π°Π·ΠΎΠ²ΠΎΠΉ Π³ΡΠ°ΡΠΈΠΊΠΈ, Π½ΠΎ Ρ Π½Π΅Π΅ Π΄ΠΎΠ²ΠΎΠ»ΡΠ½ΠΎ ΠΌΠ°Π»ΠΎ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡΠ΅ΠΉ Π΄Π»Ρ Π½Π°ΡΡΡΠΎΠΉΠΊΠΈ Π²Π½Π΅ΡΠ½Π΅Π³ΠΎ Π²ΠΈΠ΄Π°.
ΠΡΠΈ ΠΆΠ΅Π»Π°Π½ΠΈΠΈ ΠΌΠΎΠΆΠ½ΠΎ ΡΠ°ΡΠΊΡΠ°ΡΠΈΡΡ Π»Π΅ΠΉΠ±Π»Ρ. ΠΡΠΎ ΠΌΠΎΠΆΠ½ΠΎ ΡΠ΄Π΅Π»Π°ΡΡ Π²ΡΡΡΠ½ΡΡ, ΠΏΡΠΎΡΡΠΎ ΠΏΠ΅ΡΠ΅Π΄Π°Π² Π²Π΅ΠΊΡΠΎΡ Π½ΡΠΆΠ½ΡΡ ΡΠ²Π΅ΡΠΎΠ² Π² ΡΠΎΠΌ ΠΏΠΎΡΡΠ΄ΠΊΠ΅, Π² ΠΊΠΎΡΠΎΡΠΎΠΌ ΠΈΠ΄ΡΡ Π»Π΅ΠΉΠ±Π»Ρ Π½Π° Π΄Π΅Π½Π΄ΡΠΎΠ³ΡΠ°ΠΌΠΌΠ΅.
Π§ΡΠΎΠ±Ρ Π½Π΅ ΠΏΡΠΈΡΠ»ΠΎΡΡ Π²ΡΡΡΠ½ΡΡ ΡΠΎΠ·Π΄Π°Π²Π°ΡΡ Π²Π΅ΠΊΡΠΎΡ ΡΠ²Π΅ΡΠΎΠ², ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠΎΠΏΡΠΎΠ±ΠΎΠ²Π°ΡΡ ΠΏΡΠΈ ΠΏΠΎΠΌΠΎΡΠΈ ΡΡΠ½ΠΊΡΠΈΠΈ Π²ΡΡΠ°ΡΠΈΡΡ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΡ ΠΈΠ· Π»Π΅ΠΉΠ±Π»ΠΎΠ² Π½Π° Π΄Π΅Π½Π΄ΡΠΎΠ³ΡΠ°ΠΌΠΌΠ΅. ΠΡΠ° ΡΡΠ½ΠΊΡΠΈΡ Π±Π΅ΡΠ΅Ρ Π΄Π΅Π½Π΄ΡΠΎΠ³ΡΠ°ΠΌΠΌΡ, ΡΠΊΡΡΡΠ°Π³ΠΈΡΡΠ΅Ρ ΠΈΠ· Π½Π΅Π΅ ΠΏΠΎΡΡΠ΄ΠΎΠΊ Π»Π΅ΠΉΠ±Π»ΠΎΠ², Π±Π΅ΡΠ΅Ρ ΠΏΠ΅ΡΠ²ΡΠ΅ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΎ Π±ΡΠΊΠ² Π² ΠΈΠΌΠ΅Π½ΠΈ Π»Π΅ΠΉΠ±Π»Π° ΠΈ Π½Π° ΠΎΡΠ½ΠΎΠ²Π°Π½ΠΈΠΈ ΡΡΠΎΠ³ΠΎ ΡΠ°ΠΊΡΠΎΡΠ° ΡΠΎΠ·Π΄Π°Π΅Ρ Π²Π΅ΠΊΡΠΎΡ ΡΠ²Π΅ΡΠΎΠ².
Π’Π΅ΠΏΠ΅ΡΡ ΠΌΠΎΠΆΠ½ΠΎ Π»Π΅Π³ΠΊΠΎ ΡΠ°ΡΠΊΡΠ°ΡΠΈΡΡ Π³ΡΡΠΏΠΏΡ Π½Π° Π΄Π΅Π½Π΄ΡΠΎΠ³ΡΠ°ΠΌΠΌΠ΅, ΠΎΡΠΈΠ΅Π½ΡΠΈΡΡΡΡΡ Π½Π° ΠΏΠ΅ΡΠ²ΡΠ΅ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΎ ΡΠΈΠΌΠ²ΠΎΠ»ΠΎΠ² Π² Π½Π°Π·Π²Π°Π½ΠΈΠΈ Π»Π΅ΠΉΠ±Π»Π°.
ΠΠ°Π΄Π°Π½ΠΈΠ΅ 1
ΠΠΎΡΡΡΠΎΠΉΡΠ΅ Π΄Π΅Π½Π΄ΡΠΎΠ³ΡΠ°ΠΌΠΌΡ, ΠΎΠΏΠΈΡΡΠ²Π°ΡΡΠΈΠ΅ ΡΡ ΠΎΠ΄ΡΡΠ²ΠΎ ΠΏΡΠΎΠ±, ΠΏΡΠΈ ΠΏΠΎΠΌΠΎΡΠΈ ΠΌΠ΅ΡΠΎΠ΄ΠΎΠ² ΠΎΡΠ΄Π°Π»Π΅Π½Π½ΠΎΠ³ΠΎ ΡΠΎΡΠ΅Π΄Π° ΠΈ ΡΡΠ΅Π΄Π½Π΅Π³ΡΡΠΏΠΏΠΎΠ²ΠΎΠ³ΠΎ ΡΠ°ΡΡΡΠΎΡΠ½ΠΈΡ.
Π‘Π΅ΠΌΠ°Π½ΡΠΈΡΠ΅ΡΠΊΠΈΠΉ ΠΏΠΎΠΈΡΠΊ: ΠΎΡ ΠΏΡΠΎΡΡΠΎΠ³ΠΎ ΡΡ ΠΎΠ΄ΡΡΠ²Π° ΠΠ°ΠΊΠΊΠ°ΡΠ° ΠΊ ΡΠ»ΠΎΠΆΠ½ΠΎΠΌΡ SBERT
Π ΠΌΠ°ΡΠ΅ΡΠΈΠ°Π»Π΅, ΠΏΠ΅ΡΠ΅Π²ΠΎΠ΄ΠΎΠΌ ΠΊΠΎΡΠΎΡΠΎΠ³ΠΎ ΠΌΡ ΡΠ΅ΡΠΈΠ»ΠΈ ΠΏΠΎΠ΄Π΅Π»ΠΈΡΡΡΡ ΠΊ ΡΡΠ°ΡΡΡ ΠΊΡΡΡΠ° ΠΎ ΠΌΠ°ΡΠΈΠ½Π½ΠΎΠΌ ΠΈ Π³Π»ΡΠ±ΠΎΠΊΠΎΠΌ ΠΎΠ±ΡΡΠ΅Π½ΠΈΠΈ, ΠΏΡΠΎΡΡΡΠΌ ΡΠ·ΡΠΊΠΎΠΌ ΡΠ°ΡΡΠΊΠ°Π·ΡΠ²Π°Π΅ΡΡΡ ΠΎ ΡΠ΅ΠΌΠ°Π½ΡΠΈΡΠ΅ΡΠΊΠΎΠΌ ΠΏΠΎΠΈΡΠΊΠ΅, ΡΡΠ°ΡΡΡ ΠΎΡ Π²Π°ΡΡΠ²Π°Π΅Ρ ΡΠ΅ΡΡΡ Π΅Π³ΠΎ ΠΌΠ΅ΡΠΎΠ΄ΠΎΠ²; Π½Π°ΡΠΈΠ½Π°Ρ Ρ ΠΏΡΠΎΡΡΡΡ ΡΡ ΠΎΠ΄ΡΡΠ²Π° ΠΏΠΎ ΠΠ°ΠΊΠΊΠ°ΡΡ, Π°Π»Π³ΠΎΡΠΈΡΠΌΠ° ΡΠΈΠ½Π³Π»ΠΎΠ² ΠΈ ΡΠ°ΡΡΡΠΎΡΠ½ΠΈΡ ΠΠ΅Π²Π΅Π½ΡΡΠ΅ΠΉΠ½Π°, Π°Π²ΡΠΎΡ ΠΏΠ΅ΡΠ΅Ρ ΠΎΠ΄ΠΈΡ ΠΊ ΠΏΠΎΠΈΡΠΊΡ Ρ ΡΠ°Π·ΡΠ΅ΠΆΠ΅Π½Π½ΡΠΌΠΈ Π²Π΅ΠΊΡΠΎΡΠ°ΠΌΠΈ β TF-IDF ΠΈ BM25 ΠΈ Π·Π°ΠΊΠ°Π½ΡΠΈΠ²Π°Π΅Ρ ΡΠΎΠ²ΡΠ΅ΠΌΠ΅Π½Π½ΡΠΌΠΈ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»Π΅Π½ΠΈΡΠΌΠΈ ΠΏΠ»ΠΎΡΠ½ΡΡ Π²Π΅ΠΊΡΠΎΡΠΎΠ² ΠΈ Sentence-BERT. ΠΡΠΎΡΡΡΠ΅ ΠΏΡΠΈΠΌΠ΅ΡΡ ΡΠΎΠΏΡΠΎΠ²ΠΎΠΆΠ΄Π°ΡΡΡΡ ΠΊΠΎΠ΄ΠΎΠΌ ΠΈ ΠΈΠ»Π»ΡΡΡΡΠ°ΡΠΈΡΠΌΠΈ, Π° Π² ΠΊΠΎΠ½ΡΠ΅ Π²Ρ Π½Π°ΠΉΠ΄ΡΡΠ΅ ΡΡΡΠ»ΠΊΠΈ Π½Π° ΡΠΎΠΎΡΠ²Π΅ΡΡΡΠ²ΡΡΡΠΈΠ΅ Π±Π»ΠΎΠΊΠ½ΠΎΡΡ Jupyter.
ΠΠΎΠΈΡΠΊ ΡΡ ΠΎΠ΄ΡΡΠ²Π° β ΠΎΠ΄Π½Π° ΠΈΠ· ΡΠ°ΠΌΡΡ Π±ΡΡΡΡΠΎΡΠ°ΡΡΡΡΠΈΡ ΠΎΠ±Π»Π°ΡΡΠ΅ΠΉ Π² ΠΠ ΠΈ ΠΌΠ°ΡΠΈΠ½Π½ΠΎΠΌ ΠΎΠ±ΡΡΠ΅Π½ΠΈΠΈ. ΠΠΎ ΡΠ²ΠΎΠ΅ΠΉ ΡΡΡΠΈ, ΡΡΠΎ ΠΏΡΠΎΡΠ΅ΡΡ ΡΠΎΠΏΠΎΡΡΠ°Π²Π»Π΅Π½ΠΈΡ ΡΠ΅Π»Π΅Π²Π°Π½ΡΠ½ΡΡ ΡΠ°ΡΡΠ΅ΠΉ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΈ Π΄ΡΡΠ³ Ρ Π΄ΡΡΠ³ΠΎΠΌ. ΠΠ΅Π»ΠΈΠΊΠ° Π²Π΅ΡΠΎΡΡΠ½ΠΎΡΡΡ, ΡΡΠΎ Π²Ρ Π½Π°ΡΠ»ΠΈ ΡΡΡ ΡΡΠ°ΡΡΡ ΡΠ΅ΡΠ΅Π· ΠΏΠΎΠΈΡΠΊΠΎΠ²ΡΡ ΡΠΈΡΡΠ΅ΠΌΡ β ΡΠΊΠΎΡΠ΅Π΅ Π²ΡΠ΅Π³ΠΎ, Google. ΠΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ, Π²Ρ ΠΈΡΠΊΠ°Π»ΠΈ ΡΡΠΎ-ΡΠΎ Π²ΡΠΎΠ΄Π΅ «what is semantic similarity search?» ΠΈΠ»ΠΈ «traditional vs vector similarity search». Google ΠΎΠ±ΡΠ°Π±ΠΎΡΠ°Π» Π²Π°Ρ Π·Π°ΠΏΡΠΎΡ ΠΈ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π» ΠΌΠ½ΠΎΠ³ΠΈΠ΅ ΠΎΡΠ½ΠΎΠ²Π½ΡΠ΅ ΠΏΡΠΈΠ½ΡΠΈΠΏΡ ΠΏΠΎΠΈΡΠΊΠ° ΠΏΠΎ ΡΡ ΠΎΠ΄ΡΡΠ²Ρ, ΠΎ ΠΊΠΎΡΠΎΡΡΡ ΡΠ°ΡΡΠΊΠ°Π·ΡΠ²Π°Π΅ΡΡΡ Π² ΡΡΠΎΠΉ ΡΡΠ°ΡΡΠ΅.
ΠΠ²Π° Π²ΠΈΠ΄Π΅ΠΎ ΠΎ Π΄Π²ΡΡ ΠΊΠ»Π°ΡΡΠ°Ρ ΠΏΠΎΠ΄Ρ ΠΎΠ΄ΠΎΠ²
Π’ΡΠ°Π΄ΠΈΡΠΈΠΎΠ½Π½ΡΠΉ ΠΏΠΎΠΈΡΠΊ
ΠΡ Π½Π°ΡΠΈΠ½Π°Π΅ΠΌ Ρ Π»Π°Π³Π΅ΡΡ ΡΡΠ°Π΄ΠΈΡΠΈΠΉ ΠΈ ΡΠ°ΠΌ Π½Π°Ρ ΠΎΠ΄ΠΈΠΌ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΈΡ ΠΊΠ»ΡΡΠ΅Π²ΡΡ ΠΈΠ³ΡΠΎΠΊΠΎΠ²:
Π‘Ρ ΠΎΠ΄ΡΡΠ²ΠΎ ΠΠ°ΠΊΠΊΠ°ΡΠ°.
ΠΠ»Π³ΠΎΡΠΈΡΠΌ ΡΠΈΠ½Π³Π»ΠΎΠ².
Π Π°ΡΡΡΠΎΡΠ½ΠΈΠ΅ ΠΠ΅Π²Π΅Π½ΡΡΠ΅ΠΉΠ½Π°.
ΠΡΠ΅ ΡΡΠΎ ΠΏΠΎΠΊΠ°Π·Π°ΡΠ΅Π»ΠΈ ΠΎΡΠ»ΠΈΡΠ½ΠΎ ΡΠ°Π±ΠΎΡΠ°ΡΡ ΠΏΡΠΈ ΠΏΠΎΠΈΡΠΊΠ΅ ΡΡ ΠΎΠ΄ΡΡΠ²Π°, ΠΈΠ· Π½ΠΈΡ ΠΌΡ ΡΠ°ΡΡΠΌΠΎΡΡΠΈΠΌ ΡΡΠΈ ΡΠ°ΠΌΡΡ ΠΏΠΎΠΏΡΠ»ΡΡΠ½ΡΡ : ΡΡ ΠΎΠ΄ΡΡΠ²ΠΎ ΠΏΠΎ ΠΠ°ΠΊΠΊΠ°ΡΡ, Π°Π»Π³ΠΎΡΠΈΡΠΌ ΡΠΈΠ½Π³Π»ΠΎΠ² ΠΈ ΡΠ°ΡΡΡΠΎΡΠ½ΠΈΠ΅ ΠΠ΅Π²Π΅Π½ΡΡΠ΅ΠΉΠ½Π°.
Π‘Ρ ΠΎΠ΄ΡΡΠ²ΠΎ ΠΠ°ΠΊΠΊΠ°ΡΠ°
Π‘Ρ ΠΎΠ΄ΡΡΠ²ΠΎ ΠΠ°ΠΊΠΊΠ°ΡΠ° β ΡΡΠΎ ΠΏΡΠΎΡΡΠ°Ρ, Π½ΠΎ ΠΈΠ½ΠΎΠ³Π΄Π° ΠΌΠΎΡΠ½Π°Ρ ΠΌΠ΅ΡΡΠΈΠΊΠ° ΡΡ ΠΎΠ΄ΡΡΠ²Π°. ΠΠ°Π½Ρ Π΄Π²Π΅ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎΡΡΠΈ A ΠΈ B: Π½Π°Ρ ΠΎΠ΄ΠΈΠΌ ΡΠΈΡΠ»ΠΎ ΠΎΠ±ΡΠΈΡ ΡΠ»Π΅ΠΌΠ΅Π½ΡΠΎΠ² Π² Π½ΠΈΡ ΠΈ Π΄Π΅Π»ΠΈΠΌ Π½Π°ΠΉΠ΄Π΅Π½Π½ΠΎΠ΅ ΡΠΈΡΠ»ΠΎ Π½Π° ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎ ΡΠ»Π΅ΠΌΠ΅Π½ΡΠΎΠ² ΠΎΠ±Π΅ΠΈΡ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎΡΡΠ΅ΠΉ.
Π‘Ρ
ΠΎΠ΄ΡΡΠ²ΠΎ ΠΠ°ΠΊΠΊΠ°ΡΠ° ΠΈΠ·ΠΌΠ΅ΡΡΠ΅Ρ ΠΏΠ΅ΡΠ΅ΡΠ΅ΡΠ΅Π½ΠΈΠ΅ ΠΌΠ΅ΠΆΠ΄Ρ Π΄Π²ΡΠΌΡ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎΡΡΡΠΌΠΈ ΠΏΠΎ ΡΡΠ°Π²Π½Π΅Π½ΠΈΡ Ρ ΠΎΠ±ΡΠ΅Π΄ΠΈΠ½Π΅Π½ΠΈΠ΅ΠΌ Π΄Π²ΡΡ
ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎΡΡΠ΅ΠΉ
ΠΡΠΈΠΌΠ΅Ρ: Π΄Π°Π½Ρ Π΄Π²Π΅ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎΡΡΠΈ ΡΠ΅Π»ΡΡ ΡΠΈΡΠ΅Π», Π·Π°ΠΏΠΈΡΠ΅ΠΌ:
ΠΠ΄Π΅ΡΡ ΠΌΡ ΠΎΠΏΡΠ΅Π΄Π΅Π»ΠΈΠ»ΠΈ Π΄Π²Π° ΠΎΠ±ΡΠΈΡ Π½Π΅ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΡΡ ΡΠ΅Π»ΡΡ ΡΠΈΡΠ»Π°, 3 ΠΈ 4 β ΠΌΠ΅ΠΆΠ΄Ρ Π΄Π²ΡΠΌΡ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎΡΡΡΠΌΠΈ Ρ ΠΎΠ±ΡΠΈΠΌ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎΠΌ Π΄Π΅ΡΡΡΠΈ ΡΠ΅Π»ΡΡ ΡΠΈΡΠ΅Π» Π² ΠΎΠ±Π΅ΠΈΡ , Π³Π΄Π΅ Π²ΠΎΡΠ΅ΠΌΡ ΡΠΈΡΠ΅Π» ΡΠ²Π»ΡΡΡΡΡ ΡΠ½ΠΈΠΊΠ°Π»ΡΠ½ΡΠΌΠΈ Π·Π½Π°ΡΠ΅Π½ΠΈΡΠΌΠΈ β 2/8 Π΄Π°ΡΡ Π½Π°ΠΌ ΠΎΡΠ΅Π½ΠΊΡ ΡΡ ΠΎΠ΄ΡΡΠ²Π° ΠΏΠΎ ΠΠ°ΠΊΠΊΠ°ΡΠ΄Ρ 0,25. Π’Ρ ΠΆΠ΅ ΠΎΠΏΠ΅ΡΠ°ΡΠΈΡ ΠΌΠΎΠΆΠ½ΠΎ Π²ΡΠΏΠΎΠ»Π½ΠΈΡΡ ΠΈ Π΄Π»Ρ ΡΠ΅ΠΊΡΡΠΎΠ²ΡΡ Π΄Π°Π½Π½ΡΡ : Π²ΡΡ, ΡΡΠΎ ΠΌΡ Π΄Π΅Π»Π°Π΅ΠΌ, β Π·Π°ΠΌΠ΅Π½ΡΠ΅ΠΌ ΡΠ΅Π»ΡΠ΅ ΡΠΈΡΠ»Π° Π½Π° ΡΠΎΠΊΠ΅Π½Ρ.
Π‘Ρ
ΠΎΠ΄ΡΡΠ²ΠΎ ΠΏΠΎ ΠΠ°ΠΊΠΊΠ°ΡΡ, ΡΠ°ΡΡΡΠΈΡΠ°Π½Π½ΠΎΠ΅ ΠΌΠ΅ΠΆΠ΄Ρ Π΄Π²ΡΠΌΡ ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΡΠΌΠΈ a ΠΈ b
ΠΡ ΠΎΠ±Π½Π°ΡΡΠΆΠΈΠ»ΠΈ, ΡΡΠΎ, ΠΊΠ°ΠΊ ΠΈ ΠΎΠΆΠΈΠ΄Π°Π»ΠΎΡΡ, ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΡ b ΠΈ c Π½Π°Π±ΡΠ°Π»ΠΈ Π³ΠΎΡΠ°Π·Π΄ΠΎ Π±ΠΎΠ»ΡΡΠ΅ Π±Π°Π»Π»ΠΎΠ². ΠΠΎΠ½Π΅ΡΠ½ΠΎ, ΡΡΠΎ Π½Π΅ Π»ΡΡΡΠ΅Π΅ ΡΠ΅ΡΠ΅Π½ΠΈΠ΅ β Π΄Π²Π° ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΡ, Π² ΠΊΠΎΡΠΎΡΡΡ Π½Π΅Ρ Π½ΠΈΡΠ΅Π³ΠΎ ΠΎΠ±ΡΠ΅Π³ΠΎ, ΠΊΡΠΎΠΌΠ΅ ΡΠ»ΠΎΠ² ‘the’, ‘a’, ‘is’ ΠΈ Ρ. Π΄., ΠΌΠΎΠ³ΡΡ ΠΏΠΎΠ»ΡΡΠΈΡΡ Π²ΡΡΠΎΠΊΠΈΠ΅ ΠΎΡΠ΅Π½ΠΊΠΈ ΠΠ°ΠΊΠΊΠ°ΡΠ°, Π½Π΅ΡΠΌΠΎΡΡΡ Π½Π° ΡΠΎ, ΡΡΠΎ ΠΎΠ½ΠΈ Π½Π΅ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²Ρ ΠΏΠΎ ΡΠΌΡΡΠ»Ρ. ΠΡΠΈ Π½Π΅Π΄ΠΎΡΡΠ°ΡΠΊΠΈ ΠΌΠΎΠ³ΡΡ Π±ΡΡΡ ΡΠ°ΡΡΠΈΡΠ½ΠΎ ΡΡΡΡΠ°Π½Π΅Π½Ρ Ρ ΠΏΠΎΠΌΠΎΡΡΡ ΠΌΠ΅ΡΠΎΠ΄ΠΎΠ² ΠΏΡΠ΅Π΄Π²Π°ΡΠΈΡΠ΅Π»ΡΠ½ΠΎΠΉ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠΈ, ΡΠ°ΠΊΠΈΡ ΠΊΠ°ΠΊ ΡΠ΄Π°Π»Π΅Π½ΠΈΠ΅ ΡΡΠΎΠΏ-ΡΠ»ΠΎΠ², ΡΡΠ΅ΠΌΠΌΠΈΠ½Π³/Π»Π΅ΠΌΠΌΠ°ΡΠΈΠ·Π°ΡΠΈΡ ΠΈ Ρ. Π΄. ΠΠ΄Π½Π°ΠΊΠΎ, ΠΊΠ°ΠΊ ΠΌΡ ΡΠΊΠΎΡΠΎ ΡΠ²ΠΈΠ΄ΠΈΠΌ, Π½Π΅ΠΊΠΎΡΠΎΡΡΠ΅ ΠΌΠ΅ΡΠΎΠ΄Ρ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡΡ ΠΏΠΎΠ»Π½ΠΎΡΡΡΡ ΠΈΠ·Π±Π΅ΠΆΠ°ΡΡ ΡΡΠΈΡ ΠΏΡΠΎΠ±Π»Π΅ΠΌ.
ΠΠ»Π³ΠΎΡΠΈΡΠΌ ΡΠΈΠ½Π³Π»ΠΎΠ²
ΠΡΡΠ³Π°Ρ ΠΏΠΎΡ ΠΎΠΆΠ°Ρ ΡΠ΅Ρ Π½ΠΈΠΊΠ° β Π°Π»Π³ΠΎΡΠΈΡΠΌ ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠ΅Ρ ΡΠΎΡΠ½ΠΎ ΡΠ°ΠΊΡΡ ΠΆΠ΅ Π»ΠΎΠ³ΠΈΠΊΡ ΠΏΠ΅ΡΠ΅ΡΠ΅ΡΠ΅Π½ΠΈΡ/ΠΎΠ±ΡΠ΅Π΄ΠΈΠ½Π΅Π½ΠΈΡ β Π½ΠΎ Ρ «ΡΠΈΠ½Π³Π»ΠΎΠΌ». 2-ΡΠΈΠ½Π³Π»ΠΎΠ²ΠΎΠ΅ ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΠ΅ a Π±ΡΠ΄Π΅Ρ Π²ΡΠ³Π»ΡΠ΄Π΅ΡΡ ΡΠ°ΠΊ:
ΠΠΎΡΠ»Π΅ ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡΠΈΠΌΠ΅Π½ΠΈΡΡ ΡΠΎΡ ΠΆΠ΅ ΡΠ°ΡΡΡΡ ΠΏΠ΅ΡΠ΅ΡΠ΅ΡΠ΅Π½ΠΈΡ/ΠΎΠ±ΡΠ΅Π΄ΠΈΠ½Π΅Π½ΠΈΡ ΠΌΠ΅ΠΆΠ΄Ρ ΡΠ°Π·Π±ΠΈΡΡΠΌΠΈ Π½Π° ΡΠΈΠ½Π³Π»Ρ ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΡΠΌΠΈ:
ΠΡΠΈ ΠΏΠΎΠΌΠΎΡΠΈ Π΄Π²ΡΡ ΡΠΈΠ½Π³Π»ΠΎΠ² Π½Π°Ρ ΠΎΠ΄ΠΈΠΌ ΡΡΠΈ ΡΠΎΠ²ΠΏΠ°Π΄Π°ΡΡΠΈΡ ΡΠΈΠ½Π³Π»Π° ΠΌΠ΅ΠΆΠ΄Ρ ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΡΠΌΠΈ b ΠΈ c, Π² ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠ΅ ΡΡ ΠΎΠ΄ΡΡΠ²ΠΎ ΡΠΎΡΡΠ°Π²Π»ΡΠ΅Ρ 0,125.
Π Π°ΡΡΡΠΎΡΠ½ΠΈΠ΅ ΠΠ΅Π²Π΅Π½ΡΡΠ΅ΠΉΠ½Π°
ΠΡΡΠ³Π°Ρ ΠΏΠΎΠΏΡΠ»ΡΡΠ½Π°Ρ ΠΌΠ΅ΡΡΠΈΠΊΠ° ΡΡΠ°Π²Π½Π΅Π½ΠΈΡ Π΄Π²ΡΡ ΡΡΡΠΎΠΊ β ΡΠ°ΡΡΡΠΎΡΠ½ΠΈΠ΅ ΠΠ΅Π²Π΅Π½ΡΡΠ΅ΠΉΠ½Π° β ΡΡΠΎ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎ ΠΎΠΏΠ΅ΡΠ°ΡΠΈΠΉ, Π½Π΅ΠΎΠ±Ρ ΠΎΠ΄ΠΈΠΌΡΡ Π΄Π»Ρ ΠΏΡΠ΅ΠΎΠ±ΡΠ°Π·ΠΎΠ²Π°Π½ΠΈΡ ΠΎΠ΄Π½ΠΎΠΉ ΡΡΡΠΎΠΊΠΈ Π² Π΄ΡΡΠ³ΡΡ, Π²ΠΎΡ Π΅Π³ΠΎ ΡΠΎΡΠΌΡΠ»Π°:
Π€ΠΎΡΠΌΡΠ»Π° ΡΠ°ΡΡΡΠΎΡΠ½ΠΈΡ ΠΠ΅Π²Π΅Π½ΡΡΠ΅ΠΉΠ½Π°
ΠΠ° Π²ΠΈΠ΄ ΠΎΠ½Π° Π΄ΠΎΠ²ΠΎΠ»ΡΠ½ΠΎ ΡΠ»ΠΎΠΆΠ½Π°; Π΅ΡΠ»ΠΈ Π²Ρ Π΅Ρ ΠΏΠΎΠ½ΡΠ»ΠΈ, ΡΡΠΎ ΠΏΡΠ΅ΠΊΡΠ°ΡΠ½ΠΎ! ΠΡΠ»ΠΈ Π½Π΅Ρ, Π½Π΅ Π²ΠΎΠ»Π½ΡΠΉΡΠ΅ΡΡ β ΠΌΡ ΡΠ°Π·Π±Π΅ΡΡΠΌ Π΅Ρ. ΠΠ΅ΡΠ΅ΠΌΠ΅Π½Π½ΡΠ΅ a ΠΈ b ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»ΡΡΡ Π΄Π²Π΅ Π½Π°ΡΠΈ ΡΡΡΠΎΠΊΠΈ, i ΠΈ j β ΠΏΠΎΠ·ΠΈΡΠΈΠΈ ΡΠΈΠΌΠ²ΠΎΠ»ΠΎΠ² Π² a ΠΈ b ΡΠΎΠΎΡΠ²Π΅ΡΡΡΠ²Π΅Π½Π½ΠΎ. ΠΡΠ°ΠΊ, Π΄Π°Π½Ρ ΡΡΡΠΎΠΊΠΈ:
«Levenshtein» ΠΈ Π½Π΅ΠΏΡΠ°Π²ΠΈΠ»ΡΠ½ΠΎ Π½Π°ΠΏΠΈΡΠ°Π½Π½ΠΎΠ΅ «Livinshten»
ΠΠ½Π΄Π΅ΠΊΡΠΈΡΡΠ΅ΠΌ ΡΠ°ΠΌΠΎ ΡΠ»ΠΎΠ²ΠΎ, Π½Π°ΡΠΈΠ½Π°Ρ Ρ 1 Π΄ΠΎ Π΅Π³ΠΎ Π΄Π»ΠΈΠ½Ρ, Π½ΡΠ»Π΅Π²ΠΎΠΉ ΠΈΠ½Π΄Π΅ΠΊΡ ΠΎΠ·Π½Π°ΡΠ°Π΅Ρ «Π½ΠΈΡΠ΅Π³ΠΎ» (ΠΏΠΎΠ΄ΡΠΎΠ±Π½Π΅Π΅ ΠΎΠ± ΡΡΠΎΠΌ β Π΄Π°Π»Π΅Π΅).
ΠΡΠΎ Π»Π΅Π³ΠΊΠΎ! ΠΡΠ΅ΠΊΡΠ°ΡΠ½ΡΠΉ ΡΠΏΠΎΡΠΎΠ± ΠΏΠΎΠ½ΡΡΡ Π»ΠΎΠ³ΠΈΠΊΡ ΡΡΠΎΠΉ ΡΠΎΡΠΌΡΠ»Ρ β Π²ΠΈΠ·ΡΠ°Π»ΠΈΠ·ΠΈΡΠΎΠ²Π°ΡΡ Π°Π»Π³ΠΎΡΠΈΡΠΌ ΠΠ°Π³Π½Π΅ΡΠ° β Π€ΠΈΡΠ΅ΡΠ°, ΡΠ°ΡΡΡΠΈΡΡΠ²Π°ΡΡΠΈΠΉ ΡΠ°ΡΡΡΠΎΡΠ½ΠΈΠ΅ ΠΠ΅Π²Π΅Π½ΡΡΠ΅ΠΉΠ½Π° ΠΏΡΠΈ ΠΏΠΎΠΌΠΎΡΠΈ ΠΏΡΠΎΡΡΠΎΠΉ ΠΌΠ°ΡΡΠΈΡΡ. ΠΡ Π±Π΅ΡΡΠΌ Π΄Π²Π° ΡΠ»ΠΎΠ²Π° a ΠΈ b ΠΈ ΡΠ°Π·ΠΌΠ΅ΡΠ°Π΅ΠΌ ΠΈΡ ΠΏΠΎ ΠΎΠ±Π΅ΠΈΠΌ ΠΎΡΡΠΌ Π½Π°ΡΠ΅ΠΉ ΠΌΠ°ΡΡΠΈΡΡ, Π²ΠΊΠ»ΡΡΠ°Ρ ΡΠΈΠΌΠ²ΠΎΠ» Π½ΠΈΡΠ΅Π³ΠΎ ΠΊΠ°ΠΊ ΠΏΡΡΡΠΎΠ΅ ΠΏΡΠΎΡΡΡΠ°Π½ΡΡΠ²ΠΎ:
ΠΡΡΡΠ°Ρ ΠΌΠ°ΡΡΠΈΡΠ° ΠΠ°Π³Π½Π΅ΡΠ°-Π€ΠΈΡΠ΅ΡΠ° β ΠΌΡ Π±ΡΠ΄Π΅ΠΌ ΡΠ°Π±ΠΎΡΠ°ΡΡ Ρ Π½Π΅ΠΉ Π΄Π»Ρ Π²ΡΡΠΈΡΠ»Π΅Π½ΠΈΡ ΡΠ°ΡΡΡΠΎΡΠ½ΠΈΡ ΠΠ΅Π²Π΅Π½ΡΡΠ΅ΠΉΠ½Π° ΠΌΠ΅ΠΆΠ΄Ρ ‘Levenshtein’ ΠΈ ‘Livinshten’.
ΠΠΎΠ΄ ΠΈΠ½ΠΈΡΠΈΠ°Π»ΠΈΠ·Π°ΡΠΈΠΈ ΠΏΡΡΡΠΎΠΉ ΠΌΠ°ΡΡΠΈΡΡ ΠΠ°Π³Π½Π΅ΡΠ° β Π€ΠΈΡΠ΅ΡΠ°:
ΠΠ΅ΡΠ΅Π±Π΅ΡΡΠΌ Π²ΡΠ΅ ΠΏΠΎΠ·ΠΈΡΠΈΠΈ Π² ΠΌΠ°ΡΡΠΈΡΠ΅ ΠΈ ΠΏΡΠΈΠΌΠ΅Π½ΠΈΠΌ ΡΡ ΡΠ»ΠΎΠΆΠ½ΡΡ ΡΠΎΡΠΌΡΠ»Ρ, ΠΊΠΎΡΠΎΡΡΡ Π²ΠΈΠ΄Π΅Π»ΠΈ ΡΠ°Π½Π΅Π΅. ΠΠ΅ΡΠ²ΡΠΉ ΡΠ°Π³ Π² Π½Π°ΡΠ΅ΠΉ ΡΠΎΡΠΌΡΠ»Π΅ if min(i, j) = 0 β Π·Π΄Π΅ΡΡ ΠΌΡ ΡΡΠΎΡΠ½ΡΠ΅ΠΌ, Π½Π΅ ΡΠ°Π²Π½Ρ Π»ΠΈ i ΠΈ j Π½ΡΠ»Ρ? ΠΡΠ»ΠΈ Π΄Π°, ΠΏΠ΅ΡΠ΅Ρ ΠΎΠ΄ΠΈΠΌ ΠΊ ΡΡΠ½ΠΊΡΠΈΠΈ max(i, j), ΠΊΠΎΡΠΎΡΠ°Ρ ΠΏΡΠΈΡΠ²Π°ΠΈΠ²Π°Π΅Ρ ΡΠ΅ΠΊΡΡΠ΅ΠΉ ΠΏΠΎΠ·ΠΈΡΠΈΠΈ Π² Π½Π°ΡΠ΅ΠΉ ΠΌΠ°ΡΡΠΈΡΠ΅ Π±ΠΎΠ»ΡΡΠ΅ ΠΈΠ· Π΄Π²ΡΡ Π·Π½Π°ΡΠ΅Π½ΠΈΠΉ β i ΠΈ j:
ΠΠ°ΡΠ½ΡΠΌ ΡΠΏΡΠ°Π²Π°, Π²Π΄ΠΎΠ»Ρ ΡΡΠ±Π΅Ρ, Π³Π΄Π΅ i ΠΈ/ΠΈΠ»ΠΈ j ΡΠ°Π²Π½ΠΎ 0, Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅ Π² ΠΌΠ°ΡΡΠΈΡΠ΅ Π±ΡΠ΄Π΅Ρ Π·Π°ΠΏΠΎΠ»Π½Π΅Π½ΠΎ max(i, j)
ΠΠΎΠ΄ ΠΎΠΏΠ΅ΡΠ°ΡΠΈΠΉ min(i, j) == 0, Π·Π° ΠΊΠΎΡΠΎΡΠΎΠΉ ΡΠ»Π΅Π΄ΡΠ΅Ρ Π²ΠΈΠ·ΡΠ°Π»ΠΈΠ·ΠΈΡΠΎΠ²Π°Π½Π½Π°Ρ Π²ΡΡΠ΅ max(i, j).
Π‘ Π²Π½Π΅ΡΠ½ΠΈΠΌΠΈ ΠΊΡΠ°ΡΠΌΠΈ Π½Π°ΡΠ΅ΠΉ ΠΌΠ°ΡΡΠΈΡΡ ΠΌΡ ΡΠ°Π·ΠΎΠ±ΡΠ°Π»ΠΈΡΡ, Π½ΠΎ Π½Π°ΠΌ Π²ΡΡ Π΅ΡΡ Π½ΡΠΆΠ½ΠΎ Π²ΡΡΠΈΡΠ»ΠΈΡΡ Π²Π½ΡΡΡΠ΅Π½Π½ΠΈΠ΅ Π·Π½Π°ΡΠ΅Π½ΠΈΡ β ΠΈΠΌΠ΅Π½Π½ΠΎ ΡΠ°ΠΌ Π±ΡΠ΄Π΅Ρ ΠΏΡΠΎΡ ΠΎΠ΄ΠΈΡΡ ΠΎΠΏΡΠΈΠΌΠ°Π»ΡΠ½ΡΠΉ ΠΏΡΡΡ. ΠΠ΅ΡΠ½ΡΠΌΡΡ ΠΊ if min(i, j) = 0 β ΡΡΠΎ, Π΅ΡΠ»ΠΈ Π½ΠΈ ΠΎΠ΄Π½ΠΎ ΠΈΠ· Π½ΠΈΡ Π½Π΅ ΡΠ°Π²Π½ΠΎ 0? ΠΠ°ΡΠ΅ΠΌ ΠΏΠ΅ΡΠ΅Ρ ΠΎΠ΄ΠΈΠΌ ΠΊ ΡΠ»ΠΎΠΆΠ½ΠΎΠΉ ΡΠ°ΡΡΠΈ ΡΡΠ°Π²Π½Π΅Π½ΠΈΡ Π² ΡΠ°Π·Π΄Π΅Π»Π΅ min <. ΠΠ°ΠΌ Π½ΡΠΆΠ½ΠΎ Π²ΡΡΠΈΡΠ»ΠΈΡΡ Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅ Π΄Π»Ρ ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΡΡΡΠΎΠΊΠΈ, Π° ΠΏΠΎΡΠ»Π΅ Π²Π·ΡΡΡ ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΡΠ½ΠΎΠ΅ Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅. Π‘Π΅ΠΉΡΠ°Ρ ΡΡΠΈ Π·Π½Π°ΡΠ΅Π½ΠΈΡ ΠΈΠ·Π²Π΅ΡΡΠ½Ρ β ΠΎΠ½ΠΈ Π½Π°Ρ ΠΎΠ΄ΡΡΡΡ Π² Π½Π°ΡΠ΅ΠΉ ΠΌΠ°ΡΡΠΈΡΠ΅:
ΠΠ»Ρ ΠΊΠ°ΠΆΠ΄ΠΎΠΉ Π½ΠΎΠ²ΠΎΠΉ ΠΏΠΎΠ·ΠΈΡΠΈΠΈ Π±Π΅ΡΡΠΌ ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΡΠ½ΠΎΠ΅ Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅ ΠΈΠ· ΡΡΡΡ
ΡΠΎΡΠ΅Π΄Π½ΠΈΡ
ΠΏΠΎΠ·ΠΈΡΠΈΠΉ (ΠΎΠ±Π²Π΅Π΄Π΅Π½ΠΎ ΠΊΡΡΠΆΠΊΠΎΠΌ Π²Π²Π΅ΡΡ
Ρ ΡΠ»Π΅Π²Π°)
ΠΡΠ° ΠΎΠΏΠ΅ΡΠ°ΡΠΈΡ Π² ΡΠΈΠΊΠ»Π΅ ΠΏΠΎ Π²ΡΠ΅ΠΉ ΠΌΠ°ΡΡΠΈΡΠ΅ Π²ΡΠ³Π»ΡΠ΄ΠΈΡ ΡΠ°ΠΊ:
ΠΠΎΠ»Π½Π°Ρ ΡΠ΅Π°Π»ΠΈΠ·Π°ΡΠΈΡ ΡΠ°ΡΡΡΡΠ° ΡΠ°ΡΡΡΠΎΡΠ½ΠΈΡ ΠΠ΅Π²Π΅Π½ΡΡΠ΅ΠΉΠ½Π° ΠΏΡΠΈ ΠΏΠΎΠΌΠΎΡΠΈ ΠΌΠ°ΡΡΠΈΡΡ ΠΠ°Π³Π½Π΅ΡΠ° β Π€ΠΈΡΠ΅ΡΠ°.
ΠΠ΅ΠΊΡΠΎΡΠ½ΠΎΠ΅ ΡΡ ΠΎΠ΄ΡΡΠ²ΠΎ
ΠΠ»Ρ ΠΏΠΎΠΈΡΠΊΠ° Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ Π²Π΅ΠΊΡΠΎΡΠ° ΠΌΡ ΠΎΠ±ΡΡΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠ΅ΠΌ ΠΎΠ΄ΠΈΠ½ ΠΈΠ· Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΈΡ ΠΌΠ΅ΡΠΎΠ΄ΠΎΠ² ΠΏΠΎΡΡΡΠΎΠ΅Π½ΠΈΡ Π²Π΅ΠΊΡΠΎΡΠΎΠ²:
Π ΡΠ°Π½Π΄Π΅ΠΌΠ΅ Ρ Π½Π΅ΠΊΠΎΡΠΎΡΡΠΌΠΈ ΡΠ΅Π°Π»ΠΈΠ·Π°ΡΠΈΡΠΌΠΈ ΠΏΡΠΈΠ±Π»ΠΈΠ·ΠΈΡΠ΅Π»ΡΠ½ΡΡ Π±Π»ΠΈΠΆΠ°ΠΉΡΠΈΡ ΡΠΎΡΠ΅Π΄Π΅ΠΉ (ANN) ΡΡΠΈ Π²Π΅ΠΊΡΠΎΡΠ½ΡΠ΅ ΠΌΠ΅ΡΠΎΠ΄Ρ Π² ΠΌΠΈΡΠ΅ ΠΏΠΎΠΈΡΠΊΠ° ΡΡ ΠΎΠ΄ΡΡΠ²Π°, Π΅ΡΠ»ΠΈ Π³ΠΎΠ²ΠΎΡΠΈΡΡ ΡΠ΅ΡΠΌΠΈΠ½Π°ΠΌΠΈ ΠΏΡΠΎΠ³ΡΠ°ΠΌΠΌΠΈΡΠΎΠ²Π°Π½ΠΈΡ, β ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΡΠ½ΠΎ ΠΆΠΈΠ·Π½Π΅ΡΠΏΠΎΡΠΎΠ±Π½ΡΠ΅ ΠΏΡΠΎΠ΄ΡΠΊΡΡ. Π Π°ΡΡΠΌΠΎΡΡΠΈΠΌ ΠΏΠΎΠ΄Ρ ΠΎΠ΄Ρ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ TF-IDF, BM25 ΠΈ BERT, ΠΏΠΎΡΠΊΠΎΠ»ΡΠΊΡ ΠΎΠ½ΠΈ ΡΠ²Π»ΡΡΡΡΡ Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ ΡΠ°ΡΠΏΡΠΎΡΡΡΠ°Π½ΡΠ½Π½ΡΠΌΠΈ ΠΈ ΠΎΡ Π²Π°ΡΡΠ²Π°ΡΡ ΠΊΠ°ΠΊ ΡΠ°Π·ΡΠ΅ΠΆΠ΅Π½Π½ΡΠ΅, ΡΠ°ΠΊ ΠΈ ΠΏΠ»ΠΎΡΠ½ΡΠ΅ Π²Π΅ΠΊΡΠΎΡΠ½ΡΠ΅ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»Π΅Π½ΠΈΡ.
1. TF-IDF
ΠΠΎΡΡΠ΅Π½Π½ΡΠΉ Π΄Π΅Π΄ΡΡΠΊΠ° Π²Π΅ΠΊΡΠΎΡΠ½ΠΎΠ³ΠΎ ΠΏΠΎΠΈΡΠΊΠ° ΡΡ ΠΎΠ΄ΡΡΠ²Π°, ΡΠΎΠ΄ΠΈΠ²ΡΠΈΠΉΡΡ Π΅ΡΡ Π² 1970-Ρ Π³ΠΎΠ΄Π°Ρ . ΠΠ½ ΡΠΎΡΡΠΎΠΈΡ ΠΈΠ· Π΄Π²ΡΡ ΡΠ°ΡΡΠ΅ΠΉ: Term Frequency (TF) ΠΈ Inverse Document Frequency (IDF). ΠΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ TF ΠΏΠΎΠ΄ΡΡΠΈΡΡΠ²Π°Π΅Ρ, ΡΠΊΠΎΠ»ΡΠΊΠΎ ΡΠ°Π· ΡΠ΅ΡΠΌΠΈΠ½ Π²ΡΡΡΠ΅ΡΠ°Π΅ΡΡΡ Π² Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠ΅, ΠΈ Π΄Π΅Π»ΠΈΡ Π΅Π³ΠΎ Π½Π° ΠΎΠ±ΡΠ΅Π΅ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎ ΡΠ΅ΡΠΌΠΈΠ½ΠΎΠ² ΡΡΠΎΠ³ΠΎ ΠΆΠ΅ Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠ°.
ΠΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ ΡΠ°ΡΡΠΎΡΡ ΡΠ΅ΡΠΌΠΈΠ½Π° (TF) TF-IDF ΠΏΠΎΠ΄ΡΡΠΈΡΡΠ²Π°Π΅Ρ ΡΠ°ΡΡΠΎΡΡ Π½Π°ΡΠ΅Π³ΠΎ Π·Π°ΠΏΡΠΎΡΠ° («bananas») ΠΈ Π΄Π΅Π»ΠΈΡ Π΅Ρ Π½Π° ΡΠ°ΡΡΠΎΡΡ Π²ΡΠ΅Ρ
Π»Π΅ΠΊΡΠ΅ΠΌ
ΠΡΠΎ ΠΏΠ΅ΡΠ²Π°Ρ ΠΏΠΎΠ»ΠΎΠ²ΠΈΠ½Π° Π½Π°ΡΠ΅Π³ΠΎ ΡΠ°ΡΡΡΡΠ°, ΠΌΡ ΠΈΠΌΠ΅Π΅ΠΌ ΡΠ°ΡΡΠΎΡΡ Π·Π°ΠΏΡΠΎΡΠ° Π² ΡΠ°ΠΌΠΊΠ°Ρ ΡΠ΅ΠΊΡΡΠ΅Π³ΠΎ Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠ° f(q, D) Π² ΡΠΈΡΠ»ΠΈΡΠ΅Π»Π΅ ΠΈ ΡΠ°ΡΡΠΎΡΡ Π²ΡΠ΅Ρ ΡΠ΅ΡΠΌΠΈΠ½ΠΎΠ² Π² ΡΠ°ΠΌΠΊΠ°Ρ ΡΠ΅ΠΊΡΡΠ΅Π³ΠΎ Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠ° f(t, D) Π² Π·Π½Π°ΠΌΠ΅Π½Π°ΡΠ΅Π»ΠΈ Π΄ΡΠΎΠ±ΠΈ. TF β Ρ ΠΎΡΠΎΡΠΈΠΉ ΠΏΠΎΠΊΠ°Π·Π°ΡΠ΅Π»Ρ, Π½ΠΎ Π½Π΅ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ Π½Π°ΠΌ ΠΏΡΠΎΠ²Π΅ΡΡΠΈ ΡΠ°Π·Π»ΠΈΡΠΈΠ΅ ΠΌΠ΅ΠΆΠ΄Ρ ΡΠ°ΡΠΏΡΠΎΡΡΡΠ°Π½ΡΠ½Π½ΡΠΌΠΈ ΠΈ Π½Π΅ΠΎΠ±ΡΡΠ½ΡΠΌΠΈ ΡΠ»ΠΎΠ²Π°ΠΌΠΈ. ΠΡΠ»ΠΈ Π±Ρ ΠΌΡ ΠΈΡΠΊΠ°Π»ΠΈ ΡΠ»ΠΎΠ²ΠΎ «the», ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡ ΡΠΎΠ»ΡΠΊΠΎ TF, ΠΌΡ Π±Ρ ΠΏΡΠΈΡΠ²ΠΎΠΈΠ»ΠΈ ΡΡΠΎΠΌΡ ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΡ ΡΡ ΠΆΠ΅ ΡΠ΅Π»Π΅Π²Π°Π½ΡΠ½ΠΎΡΡΡ, ΡΡΠΎ ΠΈ ΠΏΡΠΈ ΠΏΠΎΠΈΡΠΊΠ΅ «bananas». ΠΡΠΎ Ρ ΠΎΡΠΎΡΠΎ, ΠΏΠΎΠΊΠ° ΠΌΡ Π½Π΅ Π½Π°ΡΠ½ΡΠΌ ΡΡΠ°Π²Π½ΠΈΠ²Π°ΡΡ Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΡ ΠΈΠ»ΠΈ ΠΈΡΠΊΠ°ΡΡ ΡΡΠΎ-ΡΠΎ Ρ ΠΏΠΎΠΌΠΎΡΡΡ Π΄Π»ΠΈΠ½Π½ΡΡ Π·Π°ΠΏΡΠΎΡΠΎΠ². ΠΡ Π½Π΅ Ρ ΠΎΡΠΈΠΌ, ΡΡΠΎΠ±Ρ ΡΠ°ΠΊΠΈΠ΅ ΡΠ»ΠΎΠ²Π°, ΠΊΠ°ΠΊ ‘the’, ‘is’ ΠΈΠ»ΠΈ ‘it’, Π±ΡΠ»ΠΈ ΠΎΡΠ΅Π½Π΅Π½Ρ ΡΠ°ΠΊ ΠΆΠ΅ Π²ΡΡΠΎΠΊΠΎ, ΠΊΠ°ΠΊ ‘bananas’ ΠΈΠ»ΠΈ ‘street’.
Π ΠΈΠ΄Π΅Π°Π»Π΅ Ρ ΠΎΡΠ΅ΡΡΡ, ΡΡΠΎΠ±Ρ ΡΠΎΠ²ΠΏΠ°Π΄Π΅Π½ΠΈΡ ΠΌΠ΅ΠΆΠ΄Ρ Π±ΠΎΠ»Π΅Π΅ ΡΠ΅Π΄ΠΊΠΈΠΌΠΈ ΡΠ»ΠΎΠ²Π°ΠΌΠΈ ΠΎΡΠ΅Π½ΠΈΠ²Π°Π»ΠΈΡΡ Π²ΡΡΠ΅. ΠΠ»Ρ ΡΡΠΎΠ³ΠΎ ΠΌΡ ΠΌΠΎΠΆΠ΅ΠΌ ΡΠΌΠ½ΠΎΠΆΠΈΡΡ TF Π½Π° Π²ΡΠΎΡΠΎΠΉ ΡΠ»Π΅Π½ β IDF. ΠΠ±ΡΠ°ΡΠ½Π°Ρ ΡΠ°ΡΡΠΎΡΠ° Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠ° ΠΈΠ·ΠΌΠ΅ΡΡΠ΅Ρ, Π½Π°ΡΠΊΠΎΠ»ΡΠΊΠΎ ΡΠ°ΡΡΠΎ Π²ΡΡΡΠ΅ΡΠ°Π΅ΡΡΡ ΡΠ»ΠΎΠ²ΠΎ Π²ΠΎ Π²ΡΠ΅Ρ Π½Π°ΡΠΈΡ Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠ°Ρ .
ΠΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ ΠΎΠ±ΡΠ°ΡΠ½ΠΎΠΉ ΡΠ°ΡΡΠΎΡΡ Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠΎΠ² (IDF) TF-IDF ΠΏΠΎΠ΄ΡΡΠΈΡΡΠ²Π°Π΅Ρ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎ Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠΎΠ², ΡΠΎΠ΄Π΅ΡΠΆΠ°ΡΠΈΡ
Π½Π°Ρ Π·Π°ΠΏΡΠΎΡ.
ΠΠ΄Π΅ΡΡ ΡΡΠΈ ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΡ. ΠΡΡΠΈΡΠ»ΠΈΠ² IDF Π΄Π»Ρ Π½Π°ΡΠ΅Π³ΠΎ ΡΠ°ΡΠΏΡΠΎΡΡΡΠ°Π½ΡΠ½Π½ΠΎΠ³ΠΎ ΡΠ»ΠΎΠ²Π° ‘is’, ΠΏΠΎΠ»ΡΡΠ°Π΅ΠΌ Π³ΠΎΡΠ°Π·Π΄ΠΎ ΠΌΠ΅Π½ΡΡΠ΅Π΅ ΡΠΈΡΠ»ΠΎ, ΡΠ΅ΠΌ Π² ΡΠ»ΡΡΠ°Π΅ Π±ΠΎΠ»Π΅Π΅ ΡΠ΅Π΄ΠΊΠΎΠ³ΠΎ ΡΠ»ΠΎΠ²Π° ‘forest’. ΠΡΠ»ΠΈ Π±Ρ ΠΏΠΎΡΠ»Π΅ ΠΌΡ ΠΈΡΠΊΠ°Π»ΠΈ ΠΎΠ±Π° ΡΠ»ΠΎΠ²Π° ‘is’ ΠΈ ‘forest’, ΡΠΎ ΠΎΠ±ΡΠ΅Π΄ΠΈΠ½ΠΈΠ»ΠΈ Π±Ρ TF ΠΈ IDF ΡΠ»Π΅Π΄ΡΡΡΠΈΠΌ ΠΎΠ±ΡΠ°Π·ΠΎΠΌ:
ΠΡ Π²ΡΡΠΈΡΠ»ΡΠ΅ΠΌ ΠΎΡΠ΅Π½ΠΊΠΈ TF(‘is’, D) ΠΈ TF(‘forest’, D) Π΄Π»Ρ Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠΎΠ² a, b ΠΈ c. ΠΠ½Π°ΡΠ΅Π½ΠΈΠ΅ IDF ΠΎΡΠ½ΠΎΡΠΈΡΡΡ ΠΊΠΎ Π²ΡΠ΅ΠΌ Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠ°ΠΌ, ΠΏΠΎΡΡΠΎΠΌΡ IDF(‘is’) ΠΈ IDF(‘forest’) Π²ΡΡΠΈΡΠ»ΡΡΡΡΡ ΡΠΎΠ»ΡΠΊΠΎ ΠΎΠ΄ΠΈΠ½ ΡΠ°Π·. ΠΠ°ΡΠ΅ΠΌ ΠΌΡ ΠΏΠΎΠ»ΡΡΠ°Π΅ΠΌ Π·Π½Π°ΡΠ΅Π½ΠΈΡ TF-IDF Π΄Π»Ρ ΠΎΠ±ΠΎΠΈΡ ΡΠ»ΠΎΠ² Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΌ Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠ΅ ΠΏΡΡΡΠΌ ΡΠΌΠ½ΠΎΠΆΠ΅Π½ΠΈΡ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½ΡΠΎΠ² TF ΠΈ IDF. ΠΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΠ΅ a Π½Π°Π±ΠΈΡΠ°Π΅Ρ Π½Π°ΠΈΠ±ΠΎΠ»ΡΡΠ΅Π΅ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎ Π±Π°Π»Π»ΠΎΠ² Π΄Π»Ρ ‘forest’, Π° ‘is’ Π²ΡΠ΅Π³Π΄Π° Π½Π°Π±ΠΈΡΠ°Π΅Ρ 0, ΠΏΠΎΡΠΊΠΎΠ»ΡΠΊΡ IDF(‘is’) ΡΠ°Π²Π½ΠΎ 0.
ΠΡΠΎ Π·Π°ΠΌΠ΅ΡΠ°ΡΠ΅Π»ΡΠ½ΠΎ, Π½ΠΎ Π³Π΄Π΅ Π·Π΄Π΅ΡΡ ΠΏΡΠΈΠΌΠ΅Π½ΡΠ΅ΡΡΡ Π²Π΅ΠΊΡΠΎΡΠ½ΠΎΠ΅ ΡΡ ΠΎΠ΄ΡΡΠ²Π°? ΠΡΠ°ΠΊ, ΠΌΡ Π±Π΅ΡΡΠΌ Π½Π°Ρ ΡΠ»ΠΎΠ²Π°ΡΠ½ΡΠΉ Π·Π°ΠΏΠ°Ρ (Π±ΠΎΠ»ΡΡΠΎΠΉ ΡΠΏΠΈΡΠΎΠΊ Π²ΡΠ΅Ρ ΡΠ»ΠΎΠ² Π² Π½Π°ΡΠ΅ΠΌ Π½Π°Π±ΠΎΡΠ΅ Π΄Π°Π½Π½ΡΡ ) ΠΈ Π²ΡΡΠΈΡΠ»ΡΠ΅ΠΌ TF-IDF Π΄Π»Ρ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΡΠ»ΠΎΠ²Π°.
ΠΡ Π²ΡΡΠΈΡΠ»ΡΠ΅ΠΌ Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅ TF-IDF ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΡΠ»ΠΎΠ²Π° ΡΠ»ΠΎΠ²Π°ΡΡ, ΡΡΠΎΠ±Ρ ΡΠΎΠ·Π΄Π°ΡΡ Π²Π΅ΠΊΡΠΎΡ TF-IDF. ΠΡΠΎΡ ΠΏΡΠΎΡΠ΅ΡΡ ΠΏΠΎΠ²ΡΠΎΡΡΠ΅ΡΡΡ Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΌ Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠ΅
Π§ΡΠΎΠ±Ρ ΡΡΠΎΡΠΌΠΈΡΠΎΠ²Π°ΡΡ Π²Π΅ΠΊΡΠΎΡΡ TF-IDF, ΠΌΡ ΠΌΠΎΠΆΠ΅ΠΌ ΡΠΎΠ±ΡΠ°ΡΡ ΡΡΠΎ Π²ΠΎΠ΅Π΄ΠΈΠ½ΠΎ:
ΠΡΡΡΠ΄Π° ΠΌΡ ΠΏΠΎΠ»ΡΡΠ°Π΅ΠΌ Π²Π΅ΠΊΡΠΎΡ TF-IDF. Π‘ΡΠΎΠΈΡ ΠΎΡΠΌΠ΅ΡΠΈΡΡ, ΡΡΠΎ ΡΠ»ΠΎΠ²Π°ΡΡ Π»Π΅Π³ΠΊΠΎ ΠΌΠΎΠΆΠ΅Ρ ΠΈΠΌΠ΅ΡΡ Π±ΠΎΠ»Π΅Π΅ 20 000 ΡΠ»ΠΎΠ², ΠΏΠΎΡΡΠΎΠΌΡ ΡΠΎΠ·Π΄Π°Π½Π½ΡΠ΅ ΡΡΠΈΠΌ ΠΌΠ΅ΡΠΎΠ΄ΠΎΠΌ Π²Π΅ΠΊΡΠΎΡΡ Π½Π΅Π²Π΅ΡΠΎΡΡΠ½ΠΎ ΡΠ°Π·ΡΠ΅ΠΆΠ΅Π½Ρ, Π° ΡΡΠΎ ΠΎΠ·Π½Π°ΡΠ°Π΅Ρ, ΡΡΠΎ Π·Π°ΠΊΠΎΠ΄ΠΈΡΠΎΠ²Π°ΡΡ ΠΊΠ°ΠΊΠΎΠΉ-Π»ΠΈΠ±ΠΎ ΡΠ΅ΠΌΠ°Π½ΡΠΈΡΠ΅ΡΠΊΠΈΠΉ ΡΠΌΡΡΠ» ΠΌΡ Π½Π΅ ΠΌΠΎΠΆΠ΅ΠΌ.
2. BM25
ΠΡΠ΅Π΅ΠΌΠ½ΠΈΠΊ TF-IDF, Okapi BM25, ΡΠ²Π»ΡΠ΅ΡΡΡ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠΎΠΌ ΠΎΠΏΡΠΈΠΌΠΈΠ·Π°ΡΠΈΠΈ TF-IDF Π² ΠΏΠ΅ΡΠ²ΡΡ ΠΎΡΠ΅ΡΠ΅Π΄Ρ Π΄Π»Ρ Π½ΠΎΡΠΌΠ°Π»ΠΈΠ·Π°ΡΠΈΠΈ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠΎΠ² Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ Π΄Π»ΠΈΠ½Ρ Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠ°. TF-IDF β ΠΎΡΠ»ΠΈΡΠ½ΡΠΉ ΠΈΠ½ΡΡΡΡΠΌΠ΅Π½Ρ, Π½ΠΎ ΠΎΠ½ ΠΌΠΎΠΆΠ΅Ρ Π΄Π°Π²Π°ΡΡ ΡΠΎΠΌΠ½ΠΈΡΠ΅Π»ΡΠ½ΡΠ΅ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΡ, ΠΊΠΎΠ³Π΄Π° ΠΌΡ Π½Π°ΡΠΈΠ½Π°Π΅ΠΌ ΡΡΠ°Π²Π½ΠΈΠ²Π°ΡΡ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΎ ΡΠΏΠΎΠΌΠΈΠ½Π°Π½ΠΈΠΉ. ΠΡΠ»ΠΈ ΠΌΡ Π²ΠΎΠ·ΡΠΌΡΠΌ Π΄Π²Π΅ ΡΡΠ°ΡΡΠΈ ΠΏΠΎ 500 ΡΠ»ΠΎΠ² ΠΈ ΠΎΠ±Π½Π°ΡΡΠΆΠΈΠΌ, ΡΡΠΎ «Π§Π΅ΡΡΠΈΠ»Π»Ρ» Π² ΡΡΠ°ΡΡΠ΅ Π ΡΠΏΠΎΠΌΠΈΠ½Π°Π΅ΡΡΡ 6 ΡΠ°Π·, Π° Π² ΡΡΠ°ΡΡΠ΅ Π β 12 ΡΠ°Π·, Π΄ΠΎΠ»ΠΆΠ½Ρ Π»ΠΈ ΠΌΡ ΡΡΠΈΡΠ°ΡΡ ΡΡΠ°ΡΡΡ Π Π² Π΄Π²Π° ΡΠ°Π·Π° ΠΌΠ΅Π½Π΅Π΅ ΡΠ΅Π»Π΅Π²Π°Π½ΡΠ½ΠΎΠΉ? Π‘ΠΊΠΎΡΠ΅Π΅ Π²ΡΠ΅Π³ΠΎ, Π½Π΅Ρ. BM25 ΡΠ΅ΡΠ°Π΅Ρ ΡΡΡ ΠΏΡΠΎΠ±Π»Π΅ΠΌΡ ΠΏΡΡΡΠΌ ΠΌΠΎΠ΄ΠΈΡΠΈΠΊΠ°ΡΠΈΠΈ TF-IDF:
Π€ΠΎΡΠΌΡΠ»Π° BM25
Π£ΡΠ°Π²Π½Π΅Π½ΠΈΠ΅ Π²ΡΠ³Π»ΡΠ΄ΠΈΡ Π΄ΠΎΠ²ΠΎΠ»ΡΠ½ΠΎ Π½Π΅ΠΏΡΠΈΡΡΠ½ΠΎ, Π½ΠΎ ΡΡΠΎ Π½Π΅ ΡΡΠΎ ΠΈΠ½ΠΎΠ΅, ΠΊΠ°ΠΊ Π½Π°ΡΠ° ΡΠΎΡΠΌΡΠ»Π° TF-IDF Ρ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΈΠΌΠΈ Π½ΠΎΠ²ΡΠΌΠΈ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠ°ΠΌΠΈ! ΠΠ°Π²Π°ΠΉΡΠ΅ ΡΡΠ°Π²Π½ΠΈΠΌ Π΄Π²Π° ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½ΡΠ° TF:
TF-ΡΠ°ΡΡΡ BM25 (ΡΠ»Π΅Π²Π°) ΠΏΠΎ ΡΡΠ°Π²Π½Π΅Π½ΠΈΡ Ρ TF-ΡΠ°ΡΡΡΡ TF-IDF (ΡΠΏΡΠ°Π²Π°)
Π Π·Π°ΡΠ΅ΠΌ ΡΠ°ΡΡΡ IDF, ΠΊΠΎΡΠΎΡΠ°Ρ Π΄Π°ΠΆΠ΅ Π½Π΅ Π²Π²ΠΎΠ΄ΠΈΡ Π½ΠΈΠΊΠ°ΠΊΠΈΡ Π½ΠΎΠ²ΡΡ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ² β ΠΎΠ½Π° ΠΏΡΠΎΡΡΠΎ ΠΏΠ΅ΡΠ΅ΡΡΠ°Π²Π»ΡΠ΅Ρ IDF ΠΈΠ· TF-IDF.
IDF ΡΠ°ΡΡΡ BM25 (ΡΠ»Π΅Π²Π°) Π² ΡΡΠ°Π²Π½Π΅Π½ΠΈΠΈ Ρ IDF TF-IDF (ΡΠΏΡΠ°Π²Π°)
ΠΡΠ°ΠΊ, ΠΊΠ°ΠΊΠΎΠ² ΡΠ΅Π·ΡΠ»ΡΡΠ°Ρ ΡΡΠΎΠΉ ΠΌΠΎΠ΄ΠΈΡΠΈΠΊΠ°ΡΠΈΠΈ? ΠΡΠ»ΠΈ Π²Π·ΡΡΡ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎΡΡΡ ΠΈΠ· 12 Π»Π΅ΠΊΡΠ΅ΠΌ ΠΈ ΠΏΠΎΡΡΠ΅ΠΏΠ΅Π½Π½ΠΎ ΠΏΠΎΠ΄Π°Π²Π°ΡΡ Π² Π½Π΅Ρ Π²ΡΡ Π±ΠΎΠ»ΡΡΠ΅ ΠΈ Π±ΠΎΠ»ΡΡΠ΅ «ΠΏΠΎΠ΄Ρ ΠΎΠ΄ΡΡΠΈΡ » Π»Π΅ΠΊΡΠ΅ΠΌ, ΡΠΎ ΠΏΠΎΠ»ΡΡΠΈΠΌ ΡΠ»Π΅Π΄ΡΡΡΠΈΠ΅ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΡ:
Π‘ΡΠ°Π²Π½Π΅Π½ΠΈΠ΅ Π°Π»Π³ΠΎΡΠΈΡΠΌΠΎΠ² TF-IDF (Π²Π²Π΅ΡΡ
Ρ) ΠΈ BM25 (Π²Π½ΠΈΠ·Ρ) Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΡ ΠΈΠ· 12 Π»Π΅ΠΊΡΠ΅ΠΌ ΠΈ Π²ΠΎΠ·ΡΠ°ΡΡΠ°ΡΡΠ΅Π³ΠΎ ΡΠΈΡΠ»Π° ΡΠ΅Π»Π΅Π²Π°Π½ΡΠ½ΡΡ
Π»Π΅ΠΊΡΠ΅ΠΌ (ΠΎΡΡ x)
ΠΠΎΠΊΠ°Π·Π°ΡΠ΅Π»Ρ TF-IDF Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎ ΡΠ²Π΅Π»ΠΈΡΠΈΠ²Π°Π΅ΡΡΡ Ρ ΡΠΎΡΡΠΎΠΌ ΡΠΈΡΠ»Π° ΡΠ΅Π»Π΅Π²Π°Π½ΡΠ½ΡΡ Π»Π΅ΠΊΡΠ΅ΠΌ. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±ΡΠ°Π·ΠΎΠΌ, Π΅ΡΠ»ΠΈ ΡΠ°ΡΡΠΎΡΠ° ΡΠ΄Π²Π°ΠΈΠ²Π°Π΅ΡΡΡ β ΡΠ²Π΅Π»ΠΈΡΠΈΠ²Π°Π΅ΡΡΡ ΠΈ ΠΏΠΎΠΊΠ°Π·Π°ΡΠ΅Π»Ρ TF-IDF. ΠΠ²ΡΡΠΈΡ ΠΊΡΡΡΠΎ! ΠΠΎ ΠΊΠ°ΠΊ ΡΠ΅Π°Π»ΠΈΠ·ΠΎΠ²Π°ΡΡ ΡΡΠΎ Π½Π° Python? ΠΠΏΡΡΡ ΠΆΠ΅ Π½Π°ΠΏΠΈΡΠ΅ΠΌ ΠΏΡΠΎΡΡΡΡ ΠΈ ΠΏΠΎΠ½ΡΡΠ½ΡΡ ΡΠ΅Π°Π»ΠΈΠ·Π°ΡΠΈΡ, ΠΊΠ°ΠΊ Ρ TF-IDF.
ΠΡ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π»ΠΈ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΡ ΠΏΠΎ ΡΠΌΠΎΠ»ΡΠ°Π½ΠΈΡ Π΄Π»Ρ k ΠΈ b, ΠΈ Π½Π°ΡΠΈ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΡ Π²ΡΠ³Π»ΡΠ΄ΡΡ ΠΌΠ½ΠΎΠ³ΠΎΠΎΠ±Π΅ΡΠ°ΡΡΠ΅. ΠΠ°ΠΏΡΠΎΡ ‘purple’ ΡΠΎΠΎΡΠ²Π΅ΡΡΡΠ²ΡΠ΅Ρ ΡΠΎΠ»ΡΠΊΠΎ ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΡ a, Π° ‘bananas’ Π½Π°Π±ΠΈΡΠ°Π΅Ρ ΠΏΡΠΈΠ΅ΠΌΠ»Π΅ΠΌΡΠ΅ Π±Π°Π»Π»Ρ ΠΈ Π΄Π»Ρ b, ΠΈ Π΄Π»Ρ c, Π½ΠΎ Π΄Π»Ρ c β Π½Π΅ΠΌΠ½ΠΎΠ³ΠΎ Π²ΡΡΠ΅ Π±Π»Π°Π³ΠΎΠ΄Π°ΡΡ ΠΌΠ΅Π½ΡΡΠ΅ΠΌΡ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²Ρ ΡΠ»ΠΎΠ². Π§ΡΠΎΠ±Ρ ΠΏΠΎΡΡΡΠΎΠΈΡΡ Π²Π΅ΠΊΡΠΎΡΡ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ ΡΡΠΈΡ Π΄Π°Π½Π½ΡΡ , ΡΠ΄Π΅Π»Π°Π΅ΠΌ ΡΠΎ ΠΆΠ΅ ΡΠ°ΠΌΠΎΠ΅, ΡΡΠΎ ΠΈ Ρ TF-IDF.
ΠΠΏΡΡΡ ΠΆΠ΅, ΠΊΠ°ΠΊ ΠΈ Π² ΡΠ»ΡΡΠ°Π΅ Ρ Π²Π΅ΠΊΡΠΎΡΠ°ΠΌΠΈ TF-IDF, ΡΡΠΈ Π²Π΅ΠΊΡΠΎΡΡ ΡΠ°Π·ΡΠ΅ΠΆΠ΅Π½Ρ. ΠΡ Π½Π΅ ΡΠΌΠΎΠΆΠ΅ΠΌ ΠΊΠΎΠ΄ΠΈΡΠΎΠ²Π°ΡΡ ΡΠ΅ΠΌΠ°Π½ΡΠΈΡΠ΅ΡΠΊΠΎΠ΅ [ΡΠΌΡΡΠ»ΠΎΠ²ΠΎΠ΅] Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅, Π²ΠΌΠ΅ΡΡΠΎ ΡΡΠΎΠ³ΠΎ ΡΠΎΡΡΠ΅Π΄ΠΎΡΠΎΡΠΈΠΌΡΡ Π½Π° ΡΠΈΠ½ΡΠ°ΠΊΡΠΈΡΠ΅.
Π’Π΅ΠΏΠ΅ΡΡ Π΄Π°Π²Π°ΠΉΡΠ΅ ΠΏΠΎΡΠΌΠΎΡΡΠΈΠΌ, ΠΊΠ°ΠΊ ΠΌΠΎΠΆΠ½ΠΎ Π½Π°ΡΠ°ΡΡ ΡΠ°ΡΡΠΌΠ°ΡΡΠΈΠ²Π°ΡΡ ΡΠ΅ΠΌΠ°Π½ΡΠΈΠΊΡ.
3. BERT
ΠΠ°ΠΆΠ΄ΡΠΉ ΠΏΠ»ΠΎΡΠ½ΡΠΉ Π²Π΅ΠΊΡΠΎΡ ΠΎΠ±ΡΡΠ½ΠΎ ΡΠΎΠ΄Π΅ΡΠΆΠΈΡ 768 Π·Π½Π°ΡΠ΅Π½ΠΈΠΉ, ΠΈ ΠΌΡ ΠΎΠ±ΡΡΠ½ΠΎ ΠΈΠΌΠ΅Π΅ΠΌ 512 ΡΠ°ΠΊΠΈΡ Π²Π΅ΠΊΡΠΎΡΠΎΠ² Π΄Π»Ρ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Π·Π°ΠΊΠΎΠ΄ΠΈΡΠΎΠ²Π°Π½Π½ΠΎΠ³ΠΎ BERT ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΡ. ΠΡΠΈ Π²Π΅ΠΊΡΠΎΡΡ ΡΠΎΠ΄Π΅ΡΠΆΠ°Ρ ΡΠΎ, ΡΡΠΎ ΠΌΡ ΠΌΠΎΠΆΠ΅ΠΌ ΡΠ°ΡΡΠΌΠ°ΡΡΠΈΠ²Π°ΡΡ ΠΊΠ°ΠΊ ΡΠΈΡΠ»ΠΎΠ²ΡΠ΅ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»Π΅Π½ΠΈΡ ΡΠ·ΡΠΊΠ°. ΠΡΠΈ Π²Π΅ΠΊΡΠΎΡΡ ΡΠ°ΠΊΠΆΠ΅ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ ΠΈΠ·Π²Π»Π΅ΡΡ (Π΅ΡΠ»ΠΈ ΡΡΠΎΠ³ΠΎ Π·Π°Ρ ΠΎΡΠ΅ΡΡΡ) ΠΈΠ· ΡΠ°Π·Π½ΡΡ ΡΠ»ΠΎΡΠ², Π½ΠΎ ΠΎΠ±ΡΡΠ½ΠΎ ΠΈΠ· ΠΏΠΎΡΠ»Π΅Π΄Π½Π΅Π³ΠΎ ΡΠ»ΠΎΡ. Π’Π΅ΠΏΠ΅ΡΡ, ΠΈΠΌΠ΅Ρ Π΄Π²Π° ΠΏΡΠ°Π²ΠΈΠ»ΡΠ½ΠΎ Π·Π°ΠΊΠΎΠ΄ΠΈΡΠΎΠ²Π°Π½Π½ΡΡ ΠΏΠ»ΠΎΡΠ½ΡΡ Π²Π΅ΠΊΡΠΎΡΠ°, ΠΌΡ ΠΌΠΎΠΆΠ΅ΠΌ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ ΠΌΠ΅ΡΡΠΈΠΊΡ ΡΡ ΠΎΠ΄ΡΡΠ²Π°, ΡΠ°ΠΊΡΡ ΠΊΠ°ΠΊ ΠΊΠΎΡΠΈΠ½ΡΡΠ½ΠΎΠ΅ ΡΡ ΠΎΠ΄ΡΡΠ²ΠΎ, ΡΡΠΎΠ±Ρ ΡΠ°ΡΡΡΠΈΡΠ°ΡΡ ΡΠ΅ΠΏΠ΅ΡΡ ΡΠΆΠ΅ ΡΠ΅ΠΌΠ°Π½ΡΠΈΡΠ΅ΡΠΊΠΎΠ΅ ΡΡ ΠΎΠ΄ΡΡΠ²ΠΎ. ΠΠΎΠ»Π΅Π΅ Π²ΡΡΠΎΠ²Π½Π΅Π½Π½ΡΠ΅ Π²Π΅ΠΊΡΠΎΡΡ ΡΠ΅ΠΌΠ°Π½ΡΠΈΡΠ΅ΡΠΊΠΈ ΡΡ ΠΎΠΆΠΈ, ΠΈ Π½Π°ΠΎΠ±ΠΎΡΠΎΡ.
ΠΠ΅Π½ΡΡΠΈΠΉ ΡΠ³ΠΎΠ» ΠΌΠ΅ΠΆΠ΄Ρ Π²Π΅ΠΊΡΠΎΡΠ°ΠΌΠΈ (ΡΠ°ΡΡΡΠΈΡΠ°Π½Π½ΡΠΉ Ρ ΠΏΠΎΠΌΠΎΡΡΡ ΠΊΠΎΡΠΈΠ½ΡΡΠ½ΠΎΠ³ΠΎ ΡΡ
ΠΎΠ΄ΡΡΠ²Π°) ΠΎΠ·Π½Π°ΡΠ°Π΅Ρ, ΡΡΠΎ ΠΎΠ½ΠΈ Π±ΠΎΠ»Π΅Π΅ Π²ΡΡΠΎΠ²Π½Π΅Π½Ρ. ΠΠ»Ρ ΠΏΠ»ΠΎΡΠ½ΡΡ
Π²Π΅ΠΊΡΠΎΡΠΎΠ² ΡΡΠΎ ΠΊΠΎΡΡΠ΅Π»ΠΈΡΡΠ΅Ρ Ρ Π±ΠΎΠ»ΡΡΠΈΠΌ ΡΠ΅ΠΌΠ°Π½ΡΠΈΡΠ΅ΡΠΊΠΈΠΌ ΡΡ
ΠΎΠ΄ΡΡΠ²ΠΎΠΌ
Π Π°ΡΡΠΌΠΎΡΡΠΈΠΌ ΠΎΠ±Π° Π²Π°ΡΠΈΠ°Π½ΡΠ°, Π½Π°ΡΠΈΠ½Π°Ρ Ρ ΠΏΠΎΠ΄Ρ ΠΎΠ΄Π° ΡΠ΅ΡΠ΅Π· transformers ΠΈ PyTorch, ΡΡΠΎΠ±Ρ ΠΏΠΎΠ»ΡΡΠΈΡΡ ΠΈΠ½ΡΡΠΈΡΠΈΠ²Π½ΠΎΠ΅ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»Π΅Π½ΠΈΠ΅ ΠΎ ΠΏΠΎΡΡΡΠΎΠ΅Π½ΠΈΠΈ Π²Π΅ΠΊΡΠΎΡΠΎΠ². ΠΡΠ»ΠΈ Π²Ρ ΡΠΆΠ΅ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π»ΠΈ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΡ ΡΡΠ°Π½ΡΡΠΎΡΠΌΠ°ΡΠΎΡΠΎΠ² HF, ΠΏΠ΅ΡΠ²ΡΠ΅ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΎ ΡΠ°Π³ΠΎΠ² ΠΏΠΎΠΊΠ°ΠΆΡΡΡΡ Π²Π°ΠΌ ΠΎΡΠ΅Π½Ρ Π·Π½Π°ΠΊΠΎΠΌΡΠΌΠΈ: ΠΈΠ½ΠΈΡΠΈΠ°Π»ΠΈΠ·ΠΈΡΡΠ΅ΠΌ SBERT ΠΈ ΡΠΎΠΊΠ΅Π½ΠΈΠ·Π°ΡΠΎΡ, ΡΠΎΠΊΠ΅Π½ΠΈΠ·ΠΈΡΡΠ΅ΠΌ Π½Π°Ρ ΡΠ΅ΠΊΡΡ ΠΈ ΠΎΠ±ΡΠ°Π±ΠΎΡΠ°Π΅ΠΌ ΡΠΎΠΊΠ΅Π½Ρ ΠΌΠΎΠ΄Π΅Π»ΡΡ.
ΠΡ Π΄ΠΎΠ±Π°Π²ΠΈΠ»ΠΈ ΡΡΠ΄Π° Π½ΠΎΠ²ΠΎΠ΅ ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΠ΅, ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΠ΅ g Π½Π΅ΡΡΡ ΡΠΎΡ ΠΆΠ΅ ΡΠ΅ΠΌΠ°Π½ΡΠΈΡΠ΅ΡΠΊΠΈΠΉ ΡΠΌΡΡΠ», ΡΡΠΎ ΠΈ b, β Π±Π΅Π· ΡΠ΅Ρ ΠΆΠ΅ ΠΊΠ»ΡΡΠ΅Π²ΡΡ ΡΠ»ΠΎΠ². ΠΠ·-Π·Π° ΠΎΡΡΡΡΡΡΠ²ΠΈΡ ΠΎΠ±ΡΠΈΡ ΡΠ»ΠΎΠ² Π²ΡΠ΅ Π½Π°ΡΠΈ ΠΏΡΠ΅Π΄ΡΠ΄ΡΡΠΈΠ΅ ΠΌΠ΅ΡΠΎΠ΄Ρ Π½Π΅ ΡΠΌΠΎΠ³Π»ΠΈ Π±Ρ Π½Π°ΠΉΡΠΈ ΡΡ ΠΎΠ΄ΡΡΠ²ΠΎ ΠΌΠ΅ΠΆΠ΄Ρ ΡΡΠΈΠΌΠΈ Π΄Π²ΡΠΌΡ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎΡΡΡΠΌΠΈ β Π·Π°ΠΏΠΎΠΌΠ½ΠΈΡΠ΅ ΡΡΠΎ Π½Π° Π±ΡΠ΄ΡΡΠ΅Π΅.
Π£ Π½Π°Ρ Π΅ΡΡΡ Π²Π΅ΠΊΡΠΎΡΡ Π΄Π»ΠΈΠ½Ρ 768, Π½ΠΎ ΡΡΠΎ Π½Π΅ Π²Π΅ΠΊΡΠΎΡΡ ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΠΉ, ΡΠ°ΠΊ ΠΊΠ°ΠΊ ΠΌΡ ΠΈΠΌΠ΅Π΅ΠΌ Π²Π΅ΠΊΡΠΎΡΠ½ΠΎΠ΅ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»Π΅Π½ΠΈΠ΅ ΠΊΠ°ΠΆΠ΄ΠΎΠΉ Π»Π΅ΠΊΡΠ΅ΠΌΡ Π² ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎΡΡΠΈ (ΠΏΠΎΡΠΊΠΎΠ»ΡΠΊΡ ΠΌΡ ΡΠ°Π±ΠΎΡΠ°Π΅ΠΌ SBERT, ΠΈΡ Π·Π΄Π΅ΡΡ 128, Π° Π² ΡΠ»ΡΡΠ°Π΅ BERT ΠΈΡ 512). ΠΠ»Ρ ΡΠΎΠ·Π΄Π°Π½ΠΈΡ Π²Π΅ΠΊΡΠΎΡΠ° ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΠΉ Π½Π°ΠΌ Π½Π΅ΠΎΠ±Ρ ΠΎΠ΄ΠΈΠΌΠΎ Π²ΡΠΏΠΎΠ»Π½ΠΈΡΡ Π²ΡΡΠΈΡΠ»ΠΈΡΡ ΡΡΠ΅Π΄Π½Π΅Π΅ Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅.
ΠΠ΅ΡΠ²ΠΎΠ΅, ΡΡΠΎ ΠΌΡ Π΄Π΅Π»Π°Π΅ΠΌ, β ΡΠΌΠ½ΠΎΠΆΠ°Π΅ΠΌ ΠΊΠ°ΠΆΠ΄ΠΎΠ΅ Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅ Π² ΡΠ΅Π½Π·ΠΎΡΠ΅ embeddings Π½Π° ΡΠΎΠΎΡΠ²Π΅ΡΡΡΠ²ΡΡΡΠ΅Π΅ Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅ attention_mask. ΠΠ°ΡΠΊΠ° attention_mask ΡΠΎΠ΄Π΅ΡΠΆΠΈΡ Π΅Π΄ΠΈΠ½ΠΈΡΡ ΡΠ°ΠΌ, Π³Π΄Π΅ Ρ Π½Π°Ρ Π΅ΡΡΡ «Π½Π°ΡΡΠΎΡΡΠΈΠ΅ ΡΠΎΠΊΠ΅Π½Ρ» (Π½Π°ΠΏΡΠΈΠΌΠ΅Ρ, Π½Π΅ ΡΠΎΠΊΠ΅Π½ Π·Π°ΠΏΠΎΠ»Π½Π΅Π½ΠΈΡ), ΠΈ Π½ΡΠ»ΠΈ Π² Π΄ΡΡΠ³ΠΈΡ ΠΌΠ΅ΡΡΠ°Ρ β ΡΡΠ° ΠΎΠΏΠ΅ΡΠ°ΡΠΈΡ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ Π½Π°ΠΌ ΠΈΠ³Π½ΠΎΡΠΈΡΠΎΠ²Π°ΡΡ Π½Π΅Π½Π°ΡΡΠΎΡΡΠΈΠ΅ ΡΠΎΠΊΠ΅Π½Ρ.
Π Π²ΠΎΡ Π½Π°ΡΠΈ Π²Π΅ΠΊΡΠΎΡΡ ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΠΉ, ΠΏΡΠΈ ΠΏΠΎΠΌΠΎΡΠΈ ΠΊΠΎΡΠΎΡΡΡ ΠΌΡ ΠΌΠΎΠΆΠ΅ΠΌ ΠΈΠ·ΠΌΠ΅ΡΠΈΡΡ ΡΡ ΠΎΠ΄ΡΡΠ²ΠΎ, Π²ΡΡΠΈΡΠ»ΠΈΠ² ΠΊΠΎΡΠΈΠ½ΡΡΠ½ΠΎΠ΅ ΡΡ ΠΎΠ΄ΡΡΠ²ΠΎ ΠΌΠ΅ΠΆΠ΄Ρ Π²ΡΠ΅ΠΌΠΈ Π²Π΅ΠΊΡΠΎΡΠ°ΠΌΠΈ.
ΠΠΈΠ·ΡΠ°Π»ΠΈΠ·ΠΈΡΠΎΠ²Π°Π² ΠΌΠ°ΡΡΠΈΠ², ΠΌΠΎΠΆΠ½ΠΎ Π»Π΅Π³ΠΊΠΎ ΠΎΠΏΡΠ΅Π΄Π΅Π»ΠΈΡΡ ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΡ Ρ Π±ΠΎΠ»Π΅Π΅ Π²ΡΡΠΎΠΊΠΈΠΌ ΡΡΠΎΠ²Π½Π΅ΠΌ ΡΡ ΠΎΠ΄ΡΡΠ²Π°:
Π’Π΅ΠΏΠ»ΠΎΠ²Π°Ρ ΠΊΠ°ΡΡΠ°, ΠΏΠΎΠΊΠ°Π·ΡΠ²Π°ΡΡΠ°Ρ ΠΊΠΎΡΠΈΠ½ΡΡΠ½ΠΎΠ΅ ΡΡ
ΠΎΠ΄ΡΡΠ²ΠΎ ΠΌΠ΅ΠΆΠ΄Ρ Π½Π°ΡΠΈΠΌΠΈ Π²Π΅ΠΊΡΠΎΡΠ°ΠΌΠΈ ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΠΉ SBERT: ΠΎΠ±Π²Π΅Π΄Π΅Π½Π° ΠΎΡΠ΅Π½ΠΊΠ° ΠΌΠ΅ΠΆΠ΄Ρ ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΡΠΌΠΈ b ΠΈ g
Π’Π΅ΠΏΠ΅ΡΡ Π²ΡΠΏΠΎΠΌΠ½ΠΈΡΠ΅ Π·Π°ΠΌΠ΅ΡΠ°Π½ΠΈΠ΅ ΠΎ ΡΠΎΠΌ, ΡΡΠΎ ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΡ b ΠΈ g ΠΈΠΌΠ΅ΡΡ ΠΏΠΎ ΡΡΡΠΈ ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΡΠΉ ΡΠΌΡΡΠ», Π½ΠΎ Π½Π΅ ΠΈΠΌΠ΅ΡΡ Π½ΠΈ ΠΎΠ΄Π½ΠΎΠ³ΠΎ ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΠΎΠ³ΠΎ ΠΊΠ»ΡΡΠ΅Π²ΠΎΠ³ΠΎ ΡΠ»ΠΎΠ²Π°. ΠΡ Π½Π°Π΄Π΅Π΅ΠΌΡΡ, ΡΡΠΎ SBERT Ρ Π΅Π³ΠΎ ΠΏΡΠ΅Π²ΠΎΡΡ ΠΎΠ΄Π½ΡΠΌΠΈ ΡΠ΅ΠΌΠ°Π½ΡΠΈΡΠ΅ΡΠΊΠΈΠΌΠΈ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»Π΅Π½ΠΈΡΠΌΠΈ ΡΠ·ΡΠΊΠ° ΠΎΠΏΡΠ΅Π΄Π΅Π»ΠΈΡ ΡΡΠΈ Π΄Π²Π° ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΡ ΠΊΠ°ΠΊ ΠΏΠΎΡ ΠΎΠΆΠΈΠ΅ β ΠΈ Π²ΠΎΡ, ΠΏΠΎΠΆΠ°Π»ΡΠΉΡΡΠ°, ΡΡ ΠΎΠ΄ΡΡΠ²ΠΎ ΠΌΠ΅ΠΆΠ΄Ρ Π½ΠΈΠΌΠΈ ΡΠΎΡΡΠ°Π²Π»ΡΠ΅Ρ 0,66 Π±Π°Π»Π»Π° (ΠΎΠ±Π²Π΅Π΄Π΅Π½ΠΎ Π²ΡΡΠ΅). ΠΡΠ°ΠΊ, Π°Π»ΡΡΠ΅ΡΠ½Π°ΡΠΈΠ²Π½ΡΠΉ (ΠΏΡΠΎΡΡΠΎΠΉ) ΠΏΠΎΠ΄Ρ ΠΎΠ΄ Π·Π°ΠΊΠ»ΡΡΠ°Π΅ΡΡΡ Π² ΠΏΡΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠΈ SBERT. Π§ΡΠΎΠ±Ρ ΠΏΠΎΠ»ΡΡΠΈΡΡ ΡΠΎΡΠ½ΠΎ ΡΠ°ΠΊΠΎΠΉ ΠΆΠ΅ ΡΠ΅Π·ΡΠ»ΡΡΠ°Ρ, ΠΊΠ°ΠΊ Π²ΡΡΠ΅, Π½Π°ΠΏΠΈΡΠ΅ΠΌ:
Π§ΡΠΎ, ΠΊΠΎΠ½Π΅ΡΠ½ΠΎ, Π³ΠΎΡΠ°Π·Π΄ΠΎ ΠΏΡΠΎΡΠ΅. ΠΠ° ΡΡΠΎΠΌ Π·Π°Π²Π΅ΡΡΠ°Π΅ΠΌ ΠΏΡΠΎΠ³ΡΠ»ΠΊΡ ΠΏΠΎ ΠΈΡΡΠΎΡΠΈΠΈ Ρ ΠΠ°ΠΊΠΊΠ°ΡΠΎΠΌ, ΠΠ΅Π²Π΅Π½ΡΡΠ΅ΠΉΠ½ΠΎΠΌ ΠΈ Bert!
[1] Market Capitalization of Alphabet (GOOG), Companies Market Cap.
[2] N. Reimers, I. Gurevych, Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks (2019), Proceedings of the 2019 Conference on Empirical Methods in 2019.