์ผ๋จ ์บก์คํค์์ SBERT๋ฅผ ์ฌ์ฉํ์ฌ ๋ฌธ์ฅ ์ฌ์ด์ ์ ์ฌ๋๋ฅผ ํ๊ฐํ๊ธฐ๋ก ํด์ SBERT ๋ ผ๋ฌธ์ ์ฝ๊ณ ์ ๋ฆฌํด ๋ณด์๋ค
Abstract
BERT์ RoBERTa๋ ์๋ฏธ๋ก ์ ํ ์คํธ ์ ์ฌ์ฑ(STS)๊ณผ ๊ฐ์ sentence-pair regression tasks์ ๋ํ ์๋ก์ด ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๊ฐ์ง์ง๋ง, ๋ ๋ฌธ์ฅ์ ๋ชจ๋ ๋คํธ์ํฌ์ ์ ๋ ฅํด์ผ ํ๋ฏ๋ก ๊ณ์ฐ ์ค๋ฒํค๋๊ฐ ๋งค์ฐ ํผ
BERT์ ๊ตฌ์ฑ์ ํด๋ฌ์คํฐ๋ง๊ณผ ๊ฐ์ ๊ฐ๋ ๋์ง ์์ ์์ ๋ฟ๋ง ์๋๋ผ ์๋ฏธ๋ก ์ ์ ์ฌ์ฑ ๊ฒ์์๋ ์ ํฉํ์ง ์์
→ ์ฝ์ฌ์ธ ์ ์ฌ์ฑ์ ์ฌ์ฉํ์ฌ ๋น๊ตํ ์ ์๋ ์๋ฏธ๋ก ์ ์ผ๋ก ์๋ฏธ ์๋ ๋ฌธ์ฅ ์๋ฒ ๋ฉ์ ๋์ถํ๊ธฐ ์ํด siamese and triplet network structures๋ฅผ ์ฌ์ฉํ๋ ์ฌ์ ํ๋ จ๋ BERT ๋คํธ์ํฌ๋ฅผ ์์ ํ SBERT(Sentence-BERT)๋ฅผ ์ ์
⇒ BERT์ ์ ํ๋๋ฅผ ์ ์งํ๋ฉด์ ์์ ์๊ฐ ์ค์
1. Introduction
์๋ฏธ๋ก ์ ์ผ๋ก ์๋ฏธ ์๋ ๋ฌธ์ฅ ์๋ฒ ๋ฉ 2๋ฅผ ๋์ถํ ์ ์๋ siamese and triplet network๋ฅผ ์ฌ์ฉํ์ฌ BERT ๋คํธ์ํฌ๋ฅผ ์์ ํ SBERT(Sentence-BERT)๋ฅผ ์ ์
→ ๋๊ท๋ชจ ์๋ฏธ ์ ์ฌ์ฑ ๋น๊ต, ํด๋ฌ์คํฐ๋ง ๋ฐ ์๋ฏธ ๊ฒ์์ ํตํ ์ ๋ณด ๊ฒ์ ๊ฐ๋ฅ
BERT๋ cross-encoder๋ฅผ ์ฌ์ฉ
๋ ๋ฌธ์ฅ์ด transformer network์ ์ ๋ฌ๋๊ณ ๋ชฉํฏ๊ฐ์ ์์ธก → ๊ฐ๋ฅํ ์กฐํฉ์ด ๋๋ฌด ๋ง๊ธฐ ๋๋ฌธ์ ๋ค์ํ ์ ํ๊ท ์์ ์ ์ ํฉํ์ง ์์
ํด๋ฌ์คํฐ๋ง ๋ฐ ์๋ฏธ ๊ฒ์์ ๋ค๋ฃจ๋ ์ผ๋ฐ์ ์ธ ๋ฐฉ๋ฒ์ ๊ฐ ๋ฌธ์ฅ์ ์๋ฏธ์ ์ผ๋ก ์ ์ฌํ ๋ฌธ์ฅ์ด ๊ทผ์ ํ๋๋ก ๋ฒกํฐ ๊ณต๊ฐ์ ๋งคํํ๋ ๊ฒ
์ฐ๊ตฌ์๋ค์ BERT์ ๊ฐ๋ณ ๋ฌธ์ฅ์ ์ ๋ ฅํ๊ณ ๊ณ ์ ๋ ํฌ๊ธฐ์ ๋ฌธ์ฅ ์๋ฒ ๋ฉ์ ๋์ถํ๊ธฐ ์์
์ฝ์ฌ์ธ ์ ์ฌ์ฑ ๋๋ ๋งจํดํผ/์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ์ ๊ฐ์ ์ ์ฌ์ฑ ์ธก๋๋ฅผ ์ฌ์ฉํ์ฌ ์๋ฏธ๋ก ์ ์ผ๋ก ์ ์ฌํ ๋ฌธ์ฅ์ ์ฐพ์ ์ ์์ → SBERT๋ฅผ ํด๋ฌ์คํฐ๋ง๋ฟ๋ง ์๋๋ผ ์๋ฏธ๋ก ์ ์ ์ฌ์ฑ ๊ฒ์์๋ ์ฌ์ฉํ ์ ์์
(10,000๊ฐ์ ๋ฌธ์ฅ ๋ชจ์์์ ๊ฐ์ฅ ์ ์ฌํ ๋ฌธ์ฅ ์์ ์ฐพ๋ ๋ณต์ก์ฑ์ BERT๋ฅผ ์ฌ์ฉํ 65์๊ฐ์์ 10,000๊ฐ์ ๋ฌธ์ฅ ์๋ฒ ๋ฉ(SBERT๋ฅผ ์ฌ์ฉํ ์ฝ 5์ด) ๋ฐ ์ฝ์ฌ์ธ ์ ์ฌ์ฑ ๊ณ์ฐ(์ฝ 0.01์ด)์ผ๋ก ๊ฐ์)
์น์ 3: SBERT ์ ์
์น์ 4: ์ผ๋ฐ์ ์ธ STS ์์ ๊ณผ ๋์ ์ ์ธ ์ธ์ ์ธก๋ฉด ์ ์ฌ์ฑ(AFS) ๋ง๋ญ์น์ ๋ํด SBERT ํ๊ฐ
์น์ 5: SentEval์์ SBERT๋ฅผ ํ๊ฐ
์น์ 6: SBERT์ ์ผ๋ถ ์ค๊ณ ์ธก๋ฉด์ ํ ์คํธํ๊ธฐ ์ํด ์ ์ ์ฐ๊ตฌ๋ฅผ ์ํ
์น์ 7: ๋ค๋ฅธ ์ต์ฒจ๋จ ๋ฌธ์ฅ ์๋ฒ ๋ฉ ๋ฐฉ๋ฒ๊ณผ ๋์กฐ์ ์ผ๋ก SBERT ๋ฌธ์ฅ ์๋ฒ ๋ฉ์ ๊ณ์ฐ ํจ์จ์ฑ์ ๋น๊ต
2. Related Work
- BERT
์ง๋ฌธ ๋ต๋ณ, ๋ฌธ์ฅ ๋ถ๋ฅ ๋ฐ ๋ฌธ์ฅ ์ ํ๊ท๋ฅผ ํฌํจํ ๋ค์ํ NLP ์์ ์ ์ํ ์๋ก์ด ์ต์ฒจ๋จ ๊ฒฐ๊ณผ๋ฅผ ์ค์ ํ๋ pre-trained transformer network
๋ฌธ์ฅ ์ ํ๊ท ๋ถ์์ ์ํ BERT ์ ๋ ฅ์ ํน์ [SEP] ํ ํฐ์ผ๋ก ๊ตฌ๋ถ๋ ๋ ๋ฌธ์ฅ์ผ๋ก ๊ตฌ์ฑ
BERT ๋คํธ์ํฌ ๊ตฌ์กฐ์ ํฐ ๋จ์ ์ ๋ ๋ฆฝ์ ์ธ ๋ฌธ์ฅ ์๋ฒ ๋ฉ์ด ๊ณ์ฐ๋์ง ์์ BERT์์ ๋ฌธ์ฅ ์๋ฒ ๋ฉ์ ๋์ถํ๊ธฐ ์ด๋ ต๋ค๋ ๊ฒ์
- ์ต์ฒจ๋จ ๋ฌธ์ฅ ์๋ฒ ๋ฉ ๋ฐฉ๋ฒ
๋ค์ํ ๋ฐฉ๋ฒ๋ค์ด ์์
SBERT๋ 20๋ถ ์ด๋ด์ ํ๋๋ ์ ์์ผ๋ฉฐ, ๋น๊ต ๊ฐ๋ฅํ ๋ฌธ์ฅ ์๋ฒ ๋ฉ ๋ฐฉ๋ฒ๋ณด๋ค ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์
3. Model
SBERT๋ BERT/RoBERTa์ ์ถ๋ ฅ์ ํ๋ง ์ฐ์ฐ์ ์ถ๊ฐํ์ฌ ๊ณ ์ ํฌ๊ธฐ์ ๋ฌธ์ฅ ์๋ฒ ๋ฉ์ ๋์ถ
์ธ ๊ฐ์ง ํ๋ง ์ ๋ต์ ์คํ
CLS ํ ํฐ์ ์ถ๋ ฅ์ ์ฌ์ฉํ์ฌ ๋ชจ๋ ์ถ๋ ฅ ๋ฒกํฐ์ ํ๊ท (ํ๊ท ์ ๋ต)์ ๊ณ์ฐํ๊ณ ์ถ๋ ฅ ๋ฒกํฐ์ ์ต๋ ์๊ฐ(MAX-์ ๋ต)์ ๊ณ์ฐ (๊ธฐ๋ณธ ๊ตฌ์ฑ์ ํ๊ท )
- Classification Objective Function
u์ v๋ฅผ ํฌํจํ๋ ๋ฌธ์ฅ์ ์์๋ณ ์ฐจ์ด |u-v|์ ์ฐ๊ฒฐํ๊ณ ํ๋ จ ๊ฐ๋ฅํ ๊ฐ์ค์น Wt ∈ R 3n×k๋ก ๊ณฑํจ
- Regression Objective Function
u์ v๋ฅผ ํฌํจํ๋ ๋ ๋ฌธ์ฅ ์ฌ์ด์ ์ฝ์ฌ์ธ ์ ์ฌ์ฑ์ด ๊ณ์ฐ
ํ๊ท ์ ๊ณฑ ์ค์ฐจ ์์ค(MSE)์ ๋ชฉํ ํจ์๋ก ์ฌ์ฉ
- Triplet Objective Function
์ต์ปค ๋ฌธ์ฅ a, ์์ ๋ฌธ์ฅ p ๋ฐ ์์ ๋ฌธ์ฅ n
์ผ์คํญ ์์ค์ a์ p ์ฌ์ด์ ๊ฑฐ๋ฆฌ๊ฐ a์ n ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ณด๋ค ์์์ง๋๋ก ๋คํธ์ํฌ๋ฅผ ์กฐ์
3.1 Training Details
SNLI, Multi-General NLI ๋ฐ์ดํฐ ์ธํธ์ ์กฐํฉ์ ๋ํด SBERT๋ฅผ ๊ต์ก
ใด ๋ชจ์, ์๋ฐ ๋ฐ ์ค๋ฆฝ ๋ ์ด๋ธ๋ก ์ฃผ์์ด ๋ฌ๋ฆฐ 570,000๊ฐ์ ๋ฌธ์ฅ ์์ ๋ชจ์ / 430,000๊ฐ์ ๋ฌธ์ฅ ์์ ํฌํจํ๋ฉฐ ๋ค์ํ ์ฅ๋ฅด์ ๊ตฌ์ด ๋ฐ ํ๊ธฐ ํ ์คํธ๋ฅผ ํฌํจ
1๊ฐ์ ์ํฌํฌ์ ๋ํด 3๋ฐฉํฅ ์ํํธ๋งฅ์ค ๋ถ๋ฅ๊ธฐ ๋ชฉํ ํจ์๋ก SBERT๋ฅผ ๋ฏธ์ธ ์กฐ์
๋ฐฐ์น ํฌ๊ธฐ 16, ํ์ต ์๋ 2e-5์ Adam Optimizer ๋ฐ ํ๋ จ ๋ฐ์ดํฐ์ 10% ์ด์์ ์ ํ ํ์ต ์๋ ์๋ฐ์ ์ ์ฌ์ฉ
๊ธฐ๋ณธ ํ๋ง ์ ๋ต์ ํ๊ท ํ๋ง
8. Conclusion
BERT๊ฐ ๋ฌธ์ฅ์ ์ฝ์ฌ์ธ ์ ์ฌ์ฑ๊ณผ ๊ฐ์ ๊ณตํต ์ ์ฌ์ฑ ์ธก์ ์ ์ฌ์ฉํ๊ธฐ์๋ ๋ค์ ๋ถ์ ํฉํ ๋ฒกํฐ ๊ณต๊ฐ์ ๋งคํํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค
์ด๋ฌํ ๋จ์ ์ ๊ทน๋ณตํ๊ธฐ ์ํด SBERT(Sentence-BERT)๋ฅผ ์ ์
SBERT๋ ๋์ผํ ๋คํธ์ํฌ ์ํคํ ์ฒ์์ BERT๋ฅผ ๋ฏธ์ธ ์กฐ์
SBERT๋ ๊ณ์ฐ์ ์ผ๋ก ํจ์จ์
SBERT๋ BERT๋ก ๋ชจ๋ธ๋งํ๊ธฐ์๋ ๊ณ์ฐ์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ ์์ ์ ์ฌ์ฉ ๊ฐ๋ฅ
SBERT๋ BERT๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ ๋ฌธ์ฅ ์๋ฒ ๋ฉ์ ์ป์ ์ ์๋ ๋ชจ๋ธ์ด๋ฉฐ, BERT์ ๋ฌธ์ฅ ์๋ฒ ๋ฉ์ ์ฑ๋ฅ์ ์ฐ์ํ๊ฒ ๊ฐ์ ์ํจ ๋ชจ๋ธ๋ก ๋ณผ ์ ์๋ค
์ฐ๋ฆฌ ์บก์คํค์์๋ ๋ฌธ์ฅ ์ฌ์ด์ ์ ์ฌ๋๋ฅผ ํ๊ฐํ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ๋ฌธ์ฅ ์ ํ๊ท ํ์คํฌ๋ก ํ์ธ ํ๋์ ๋ํด์ ๋ ์์๋ณด์๋ค
๊ทธ๋ฆฌ๊ณ ๋ ผ๋ฌธ์์๋ ์ด์ง ์ธ๊ธ๋๊ธด ํ๋๋ฐ ๊ธฐ์กด BERT์ ๊ฒฝ์ฐ Cross-Encoder๋ฅผ ์ฌ์ฉํ์ง๋ง SBERT์ ๊ฒฝ์ฐ์๋ Bi-Encoder๋ฅผ ์ฌ์ฉํ๋ค๋ ์ ๋ ์ถ๊ฐ๋ก ์๊ฒ ๋์๋๋ฐ ์ด๋ฌํ ๋ถ๋ถ๋ค์ ๋ํด์ ๋ค์ ๊ธ์ ๋ ์์ธํ ์จ์ผ์ง !
'l a b . . ๐ซง > ๋ ผ๋ฌธ review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[UrbanScene3D ๋ ผ๋ฌธ๋ฆฌ๋ทฐ] Capturing, Reconstructing, and Simulating: the UrbanScene3D Dataset (0) | 2023.01.17 |
---|