ํ๋ก์ ํธ ๊ตฌ์ฑ์: ์ค๋์, ๋ฐ์๋ฆผ, ์ด์ค์ฑ, ์ ํ์ญ / ๋ฐํ ์ฌ๋ผ์ด๋
์ฌ์ฉ๋ ์คํฌ ์ : NumPy, Pandas, Matplotlib, Beautifulsoup, re, Scikit-learn, xgboost, Mecab, cupy
- ์๋ผ๋ 00๋
1์ 1์ฃผ์ฐจ ~ 24๋
7์ 2์ฃผ์ฐจ์ ๋ฒ ์คํธ์
๋ฌ ๋ชฉ๋ก์ ํฌ๋กค๋งํ์ฌ 141.5๋ง ํ์ DB ๊ตฌ์ถ
- 15.8๋ง ์ฌ์ข ์ ๋์์ ๋ํ์ฌ, ํด๋น ์ฃผ์ฐจ์์์ ์์ ๋ฐ ๋์ ๊ด๋ จ ์ ๋ณด๋ฅผ ํฌํจ
- ์ฃผ๊ฐ ๋ฒ ์คํธ ์
๋ฌ DB๋ฅผ ๋ฐํ์ผ๋ก, 78๋ง ํ์ ์๋ผ๋ ์ค๊ณ ๋งค์ฅ์ ์ค๊ณ ๋์ DB ๊ตฌ์ถ
- 10.3๋ง ์ฌ์ข ์ ์ญ๋ ๋ฒ ์คํธ์ ๋ฌ ๋์์ ๋ํ ์ค๊ณ ๋์ ๋งค๋ฌผ ๋ฐ์ดํฐ
- XGBoost Regressor๋ฅผ ์ด์ฉํ์ฌ ์ค๊ณ ๊ฐ ์์ธก ๋ชจ๋ธ ๊ฐ๋ฐ
- cross validation๊ณผ grid search๋ฅผ ์ด์ฉํ์ฌ 486๊ฐ์ ์กฐํฉ ์ค ์ฐ์ hyperparameter 14๊ฐ๋ฅผ ์ถ๋ฆผ
- ์ฐ์ hyperparameter๋ก ํ์ตํ ๋ชจ๋ธ๋ค์ ๋ํด์ test set์ผ๋ก ๋๋ ๋ฐ์ดํฐ ์ ์ฒด์ ๋ํ ํ๊ฐ์ test set ์ค train set์ ํฌํจ๋ ์ ์๋ ์ข ๋ฅ์ ๋์์ ์ ํํ ํ๊ฐ๋ฅผ ๋ฐ๋ก ์งํ
- best model ์ฑ์
- test 1 : ์ด๊ธฐ์ test set์ผ๋ก ๋๋ ๋ฐ์ดํฐ๋ก ํ๊ฐ
- RMSE : 610.7, R2 Score : 0.973, test set ํฌ๊ธฐ : 156,843
- test 2 : test set ์ค train set์ ํฌํจ๋ ์ ์๋ ์ข
๋ฅ์ ๋์์ ํํด์ ํ๊ฐ
- RMSE : 1,440, R2 Score : 0.914, test set ํฌ๊ธฐ : 5,968
- test 1 : ์ด๊ธฐ์ test set์ผ๋ก ๋๋ ๋ฐ์ดํฐ๋ก ํ๊ฐ
- ์ค๊ณ ๋์์ ์ํ, ์ ์, ์ฅ๋ฅด ๋ฑ ๋ค์ํ ์์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ค๊ณ ๋์์ ํ๋งค ๊ฐ๊ฒฉ์ด ํ์ฑ๋จ
- ์ค๊ณ ๋์ ๊ฐ๊ฒฉ์ ์ํ์ ์ข ๋ฅ ๋ฐ ์ํ ๋ณ๋ก ๊ฐ๊ฒฉ์ ํธ์ฐจ๊ฐ ์์
- ๊ฐ๊ฒฉ์ ์ค์ํ ์์๋ค์ ๋ด์ฉ์ ์ฝ๊ฒ ํ์ธ ๊ฐ๋ฅํ๊ณ , ์ํ ํ์ด์ง์ ์ ๋ฆฌ๊ฐ ์ ๋์ด์๋ ํธ
- ํฌ๋กค๋ง์ ํตํด ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ๊ธฐ์ ์ ๊ทผ์ฑ์ด ์ข์
- ํฌ๋กค๋ง์ ํตํด ์๋ผ๋ ์ค๊ณ ๋์ ๋ฐ์ดํฐ ์ ๊ตฌ์ถ
- ์๋ผ๋ ์ค๊ณ ๋งค์ฅ์์ ํ๋งคํ๋ ์ค๊ณ ๋์ ๊ฐ๊ฒฉ์ ์์ธกํ๋ ํ๊ท ๋ชจ๋ธ ๊ฐ๋ฐ
- ์๋ผ๋ ํํ์ด์ง์์ ํ๋งคํ๋ ์ค๊ณ ๋์ ์ค ์ค๊ณ ๋งค์ฅ์์ ํ๋งคํ๋ ์ํ์ ์ฐ์ ์ ๋์์ผ๋ก ํจ
- Random Forest Regressor, XGBoost ๋ฑ์ ๋ค์ํ ๋ชจ๋ธ์ ์ด์ฉ
- ๊ฐ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ฌ๋ฌ ์ฑ๋ฅ ์งํ ๋ฐ ์คํ์ ํตํ์ฌ ์ ์ ํ ํ๊ฐ
- ์๋ผ๋์ ์ค๊ณ ๋์ ์ํ๊ณผ ์ ์ฑ ์ฌ์ด์ url ๊ตฌ์กฐ ๋ฑ์ผ๋ก๋ ์๋ผ๋์ ์ค๊ณ ๋์์ ์ ์ฑ ์ฌ์ด์ ๊ตฌ๋ณํ ์ ์์
- ์๋ผ๋์์ ๋์๋ณ๋ก ์ค๊ณ ์ํ์ ์ ๋ฆฌํด ๋์ ํ์ด์ง๋ฅผ ์ด์ฉํ์ฌ ๋ฐ์ดํฐ ์ ์ ์ฒด๊ณ์ ์ผ๋ก ๊ตฌ์ถ
- ์๋ผ๋์ ์ฃผ๊ฐ ๋ฒ ์คํธ์ ๋ฌ ํ์ด์ง์์ ์ ๊ณตํ 1~1000์์ ๋ํ xls ํ์ผ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ ๊ตฌ์ฑ
- 2000๋ 1์ 1์ฃผ์ฐจ ~ 2024๋ 7์ 2์ฃผ์ฐจ๊น์ง์ ๋ฐ์ดํฐ๋ฅผ ํฌ๊ดํ๋ฉฐ, 24-07-10 ~ 24-07-12์ ์์ง ์งํ
๋ํ.1 ์๋ผ๋ ์ฃผ๊ฐ ๋ฒ ์คํธ์ ๋ฌ ํ์ด์ง ์์
- ์ด 1,415,586๊ฐ์ row์ ๋ญํน, ๊ตฌ๋ถ, ๋์ ๋ช
, ItemId, ISBN13, ๋ถ๊ฐ๊ธฐํธ, ์ ์, ์ถํ์ฌ, ์ถํ์ผ, ์ ๊ฐ, ํ๋งค๊ฐ, ๋ง์ผ๋ฆฌ์ง, ์ธ์ผ์ฆ ํฌ์ธํธ, ์นดํ
๊ณ ๋ฆฌ, ๋ ์ง 12๊ฐ์ column
- ๊ตฌ๋ถ : ๊ตญ๋ด๋์, ์ธ๊ตญ๋์ ๋ฑ์ผ๋ก ๊ตฌ๋ถ๋์ด ์์
- ItemId : ์๋ผ๋์์ ๋ถ์ฌํ ํด๋น ๋์์ id. ์ซ์๋ก๋ง ๊ตฌ์ฑ
- ์ ์ฑ ๊ธฐ์ค์ id ๊ฐ์ด ๊ธฐ์ฌ๋๊ณ , ํ์ ํ, ๊ฐ์ ํ ๋ฑ์ ๊ฒฝ์ฐ๋ ๋ณ๋์ id๊ฐ ๋ถ์ฌ ๋จ
- raw data์๋ ๋์ ์ธ์๋, ๋น์ ๋ฒ ์คํธ์ ๋ฌ์๋ MD ๊ตฟ์ฆ, ๊ฐ์ฐ ๋ฑ๋ ํฌํจ๋์ด ์์
- ์ด 158,084 ์ข ์ ๋์์ ๋ํ ์ ๋ณด๋ก ๊ตฌ์ฑ๋์ด ์์
- ๋ ์ง, ๋ญํน : ํด๋น ๋์๊ฐ ์ด๋ค ์ฃผ์ฐจ์ ์ฃผ๊ฐ ๋ฒ ์คํธ์
๋ฌ ๋ชฉ๋ก์ ๋ช ์๋ก ์ฌ๋๋์ง
- ํ๋์ ๋์๊ฐ ๋ค์ํ ์ฃผ ์ฐจ์์ ๋ค์ํ ๋ญํน์ ๋ฒ ์คํธ์ ๋ฌ๋ก ๋ฑ์ฅ
- ISBN13, ๋ถ๊ฐ๊ธฐํธ : ISBN13์ ์ ์ธ๊ณ์์ ๊ณตํต์ ์ผ๋ก ์ฌ์ฉํ๋ ๋์์ ๋ํ id. ๋ฐํ์ ๋ฑ์ ์ ๋ณด๊ฐ ํฌํจ๋์ด ์์. ๋ถ๊ฐ๊ธฐํธ๋ ํ๊ตญ ๋ฌธํ ๋ฒํธ ์ผํฐ์์ ๋ถ์ฌํ๋ ๋ฒํธ๋ก, ์์ ๋ ์์ธต์ ๋ํ ์ ๋ณด ๋ฑ์ด ํฌํจ ๋์ด ์์
- ์นดํ ๊ณ ๋ฆฌ : ๋์๊ฐ ์ด๋ค ์ฅ๋ฅด์ ์ํ๋์ง์ ๋ํ ์ ๋ณด. ์ธ๊ตญ์ด, ์ข ๊ต, ์ฌํ๊ณผํ, ๊ฑด๊ฐ/์ทจ๋ฏธ ๋ฑ ์ด 24๊ฐ ์ ํ์ผ๋ก ๋ถ๋ฅ
- ์ธ์ผ์ฆ ํฌ์ธํธ
- ํ๋งค๋๊ณผ ํ๋งค๊ธฐ๊ฐ์ ๊ทผ๊ฑฐํ์ฌ ํด๋น ์ํ์ ํ๋งค๋๋ฅผ ์ฐ์ถํ ์๋ผ๋๋ง์ ํ๋งค์ง์์ด๋ฉฐ, ๋งค์ผ ์ ๋ฐ์ดํธ ๋จ
- ์ต๊ทผ ํ๋งค๋ถ์ ๊ฐ์ค์น๋ฅผ ๋์ด, ํ๋ฆด์๋ก ์ฌ๋ผ๊ฐ๊ณ ๋ ํ๋ฆฌ๋ฉด ๋ด๋ ค๊ฐ
- ์ต๊ทผ ๋ฒ ์คํธ์ ๋ฌ๋ ์ ์๊ฐ ๋์ผ๋ฉฐ, ๊พธ์คํ ํ๋ฆฌ๋ ์คํ ๋์ ๋ฌ๋ค๋ ์ด๋ ์ ๋ ์ ์๋ฅผ ์ ์ง
- ๋ ์ง ๋ฐ ๋ญํน์ ์ ์ธํ๊ณ , ํ๋งค๊ฐ, ์ธ์ผ์ฆ ํฌ์ธํธ ๋ฑ์ ํฌ๋กค๋ง ์์ ์์์ ๊ฐ์ด ์ ์ฅ๋จ
๋ํ.2 ์๋ผ๋ ์ฃผ๊ฐ ๋ฒ ์คํธ ์ ๋ฌ
๋ํ.3 ๋์ ๋ณ ์ค๊ณ ๋งค๋ฌผ ๋ชฉ๋ก ํ์ด์ง ์์
- ์๋ผ๋ ์ค๊ณ ๋์๋ ํ๋งค์ ๋ณ๋ก ์
์ผ๋ก ๋ถ๋ฅ ๋จ
- ์๋ผ๋ ์ง์ ๋ฐฐ์ก : ์ค๊ณ ๋งค์ฅ์์ ํ๋งคํ๊ณ ์์ง ์์ ์ค๊ณ ๋์
- ์๋ผ๋ ์จ๋ผ์ธ ์ค๊ณ ๋งค์ฅ : ์คํ๋ผ์ธ์ ์๋ผ๋ ์ค๊ณ ๋งค์ฅ์์ ํ๋งค๋๊ณ ์๋ ์ค๊ณ ๋์
- ํ๋งค์ ์ค๊ณ : ํ๋งค์๊ฐ ์๋ผ๋์ด ์๋ ์ค๊ณ ๋์
- ์๋ผ๋ ์จ๋ผ์ธ ์ค๊ณ ๋งค์ฅ(๊ดํํ ์ฐ์ฃผ์ )์ ๋ฑ๋ก ๋ ์ค๊ณ ๋์ ๋งค๋ฌผ๋ก ํ์
- ๋์๋ฉธ ์ค๊ณ ๋งค๋ฌผ ๋ชฉ๋ก ํ์ด์ง url ๊ตฌ์กฐ ์, ์ ์ฑ ์ ItemId๋ฅผ ์ด์ฉํ์ฌ ์ ๊ทผํ ์ ์์
- ํ๋งค์ ๋ถ๋ฅ๋ฅผ ๊ธฐ์ค์ผ๋ก ํญ์ด ๋๋ ์ ธ ์์ผ๋ฉฐ, ์๋ผ๋ ์ค๊ณ ๋งค์ฅ๋ ๊ทธ ์ค ํ๋์ ํญ
- ์์ ๋ฒ ์คํธ์ ๋ฌ ๋ฐ์ดํฐ์ ํฌํจ๋ ๋์(ItemId)๋ฅผ ๊ธฐ์ค์ผ๋ก ํฌ๋กค๋งํ ์ค๊ณ ๋์ ๋งค๋ฌผ ์๋ฃ
๋ํ.4 ์๋ผ๋ ์ค๊ณ ๋์ ๋ฐ์ดํฐ
-
์ด 784,213๊ฐ์ row, 7๊ฐ์ column์ผ๋ก ๊ตฌ์ฑ.
- ๊ฐ row ๋น ์ค๊ณ ๋์ ๋งค๋ฌผ ํ๋์ ํด๋น
- 103,055 ์ข ์ ๋์์ ๋ํ ์ค๊ณ ๋์ ๋งค๋ฌผ 784,213๊ฑด
- ItemId (์ ์ฑ ๊ธฐ์ค), ์ค๊ณ ๋ฒํธ, ์ค๊ณ ๋ฑ๊ธ, ํ๋งค์ง์ , ๋ฐฐ๋ฌ๋ฃ, ์ค๊ณ ๊ฐ, ํ๋งค url
- ItemId : ItemId๋ ์ค๊ณ ๋์๋ฅผ ํฌํจํ์ฌ ๋ชจ๋ ์ํ์ ๊ฐ๊ฐ ๋ถ์ฌ๋๊ธฐ ๋๋ฌธ์, ์ฑ ์ข ๋ฅ๋ฅผ ๊ตฌ๋ณํ๋ ค๋ฉด ์ ์ฑ ๊ธฐ์ค ItemId๋ฅผ ์ฌ์ฉํด์ผ ํจ
- ์ค๊ณ ๋ฒํธ : ํด๋น๋์์ ์ค๊ณ ๋์ ๋ชฉ๋ก ํ์ด์ง์ ์์๋ ์์
- ์ค๊ณ ๊ฐ, ํ์ง
- ์ค๊ณ ๊ฐ๋ ํ์ง(์ค๊ณ ๋ฑ๊ธ)์ ํฐ ์ํฅ์ ๋ฐ์ผ๋ฉฐ, '๊ท ์ผ๊ฐ' ๋ฐ 'ํ', '์ค', '์', '์ต์'์ผ๋ก ๊ตฌ๋ถ๋์ด ์์
- ํ์ง์ด ๋์์๋ก ์ค๊ณ ๊ฐ๊ฐ ๋์ ๊ฒฝํฅ์ด ์์
- ๊ฐ์ ํ์ง์ด๋ผ๋ ๊ฐ๊ฒฉ์ด ๋ค๋ฅด๊ฑฐ๋, ๋ฎ์ ํ์ง์ ๋งค๋ฌผ๋ณด๋ค ๋ ๊ฐ๊ฒฉ์ด ์ผ ๊ฒฝ์ฐ๊ฐ ์ข ์ข ์์
- ํ๋งค url : ํด๋น ์ค๊ณ ๋งค๋ฌผ์ ๋ํ ํ๋งค ํ์ด์ง. ํด๋น ์ค๊ณ ๋งค๋ฌผ์ ItemId๊ฐ url์ ํฌํจ๋์ด ์์
- ๊ฐ row ๋น ์ค๊ณ ๋์ ๋งค๋ฌผ ํ๋์ ํด๋น
-
์ 2๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ์ข ํฉํ์ฌ ๋ฐ์ดํฐ์ ์ ๋ง๋ค์ด ํ๋ก์ ํธ๋ฅผ ์งํ
-
์ข ํฉ๋ ๋ฐ์ดํฐ ์ ์์๋ ItemId, ๋์ ๋ช , ์ค๊ณ ๋ฑ๊ธ, ํ๋งค ์ง์ , ์ ์, ์ถํ์ฌ, ์ถํ์ผ, ์ ๊ฐ, ํ๋งค๊ฐ, ์ธ์ผ์ฆํฌ์ธํธ, ์นดํ ๊ณ ๋ฆฌ, ์ค๊ณ ๊ฐ ์ด 12๊ฐ๋ฅผ column์ผ๋ก ์ฌ์ฉ
๋ํ.5 ๋ฐ์ดํฐ ์ ๋ค์ ํฌํจ๋ ์ฃผ์ column ๋ฐ ๊ทธ์ ๋ํ ๊ฐ์
๋ชฉํ: ํ์ง, ํ๋งค ์ง์ , ์ ์, ์ถํ์ฌ, ์ถํ์ผ, ์ ๊ฐ ๋ฑ์ ๊ฐ์ ์ด์ฉํ์ฌ ์๋ผ๋์์ ๊ณต์์ผ๋ก ํ๋งคํ๋ ์ค๊ณ ์์ ๊ฐ๊ฒฉ์ ์์ธก ํ๊ณ ๋ถ์ํ๊ณ ์ ํจ
-
์ข ์ ๋ณ์๋ฅผ ์ ์ธํ ํญ๋ชฉ ์ค์์ ์ด 11๊ฐ์ ๋ ๋ฆฝ๋ณ์ ์ ์
- BName_sub (๋์๋ช ์์ ๊ดํธ ์์ ๋ด์ฉ), Author_mul (์ ์ ๋ฑ์ด ์ฌ๋ฌ ๋ช ์ผ๋ก ํ๊ธฐ๋์๋์ง ์ฌ๋ถ) ๋ฑ ํ์ ํญ๋ชฉ ํฌํจ. ํด๋น ๋ด์ฉ์ ์ ์ฒ๋ฆฌ ํํธ์์ ํ์
์ข ์ ๋ณ์ ๋ ๋ฆฝ ๋ณ์ Price quality, store, BName, BName_sub, Author, Author_mul, Publshr, Pdate, RglPrice, Category, SalesPoint ๋ํ.6 ๋ชจ๋ธ์ ์ข ์ ๋ณ์ ๋ฐ ๋ ๋ฆฝ ๋ณ์
- sklearn์ ์ด์ฉํ์ฌ train 64%, validation 16%, test 20% ๋น์จ๋ก ๋ถ๋ฆฌ
- train : 95,061์ข ์ ๋์์ ๋ํ ์ค๊ณ ๋์ 501,896๊ฑด
- valid : 62,995์ข ์ ๋์์ ๋ํ ์ค๊ณ ๋์ 125,474๊ฑด
- test : 69,385์ข ์ ๋์์ ๋ํ ์ค๊ณ ๋์ 156,843๊ฑด
- XGBoost Regressor(์ดํ XGB)์ ํ์ต์ํฌ ๋ ๋์ ์ฑ๋ฅ์ ๋ด๋ hyperparameter ํ์
- ํฌ๊ฒ ์ธ ๊ฐ์ง ์ธก๋ฉด์ผ๋ก ์คํ ์งํ
- Grid search๋ฅผ ์ด์ฉํด ๊ฐ ์คํ ๋ณ๋ก ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๋ด๋ hyper parameter ํ์
- ์ ๊ฐ์ SalesPoint๋ฅผ ํ์ต์์ ์ ์ธ์์ผ๋ ์์ ์ ์ธ ์ฑ๋ฅ์ด ๋์ค๋์ง ํ์
- train set์ ํฌํจ๋์ง ์์๋ ๋์๋ค์ ๋ํ ์ค๊ณ ๋งค๋ฌผ๋ก test ๋์์ ํ์ ์ง์์ ๋, ์ฑ๋ฅ์ด ์ด๋ป๊ฒ ๋ฌ๋ผ์ง๋์ง ํ์
- RMSE, MAPE, R2 Score ๋ฑ์ ํ๊ท ํ๊ฐ ์งํ๋ฅผ ์ฌ์ฉํ์ฌ ์ฑ๋ฅ์ ๊ฐ ๋ชจ๋ธ ๋ณ๋ก ๋ถ์
4. ์ ์ฒ๋ฆฌ
- ๊ฒฐ์ธก์น ์ฒ๋ฆฌ
- ์ ์ ๋ช
, ๊ตฌ๋ถ, ์ถํ์ฌ, ์นดํ
๊ณ ๋ฆฌ ๋ฑ์ ๊ฒฐ์ธก์น๊ฐ ์๋ ํ์ ๊ฐ์ 1,214๊ฐ
- ์ค์ ๋์๋ ์์ง๋ง, MD ๊ตฟ์ฆ, ๊ฐ์ฐ๋ฑ ๋์๊ฐ ์๋ ๋ฐ์ดํฐ ๋ค์ ์กด์ฌ
- ์ ์ ๋ช
, ๊ตฌ๋ถ, ์ถํ์ฌ, ์นดํ
๊ณ ๋ฆฌ ๋ฑ์ ๊ฒฐ์ธก์น๊ฐ ์๋ ํ์ ๊ฐ์ 1,214๊ฐ
- ์ค๋ณต ๋์ ์ฒ๋ฆฌ : ๋ฒ ์คํธ ์ ๋ฌ ๋ชฉ๋ก์ ์ฌ๋ฌ ๋ฒ ์ค๋ฅธ ๋์๋ ํ๋์ ํ๋ง ๋จ๊น
- ๋์ ๋ช
- ํ์ ์ฒ๋ฆฌ
- hanja์ ์ด์ฉํด ํ์๋ฅผ ํ๊ธ๋ก ๋ณํ. ํ๊ธ ๋ ์์ด ์ด๋ฏธ ์๋ ๊ฒฝ์ฐ ์ค๋ณต๋์ง ์๊ฒ ์ฒ๋ฆฌ
- ์ซ์ ์ฒ๋ฆฌ
- ์ซ์ ์ฌ์ด ๊ตฌ๋ถ์ "," ์ ๋ฆฌ : ex) "1,000" -> "1000"
- ๋ก๋ง ์ซ์๋ฅผ ์๋ ์ซ์๋ก ๋ณํ
- ์ฐ๋ ํ๊ธฐ ์ ๋ฆฌ : "`00"์ ํํ๋ก ํ๊ธฐ๋ ๋
๋๋ฅผ ์ ๋ฆฌ
- ex) "`98 ~ `07 ๊ธฐ์ถ๋ฌธ์ ๋ชจ์" -> "1998 ~ 2007 ๊ธฐ์ถ๋ฌธ์ ๋ชจ์"
- ํน์ํ unicode๋ก ๊ธฐ์
๋ ๋ฌธ์๋ฅผ ํํ ์ฐ์ด๋ ํน์๋ฌธ์๋ก ๋ณํ
- "&#"๊ฐ ๋ค์ด๊ฐ๋ token๋ค์ด ์๋์ง ํ์ธ ํ ๋ณ๋ ์ฒ๋ฆฌ
- ex) "์ธ ๋ช ์ ์ถ ๏ผผ Q. E. D." -> "์ธ ๋ช ์ ์ถ \ Q. E. D."
- ๊ดํธ์ ๋ด์ฉ ์ถ์ถ ํ BName_sub column์ ์ ๋ฆฌ
- ex) "์ ์ง์ ๋ฃจ์ด &ํ์ด ์์ (์์ฅ๋ณธ)" -> "(์์ฅ๋ณธ)"๋ง BName_sub์ ๋ถ๋ฆฌ
- ํ์ ์ฒ๋ฆฌ
- ์ ์ ๋ช
- ์ฌ๋ฌ ๋ช
์ด ์ ์์๋ก ๊ธฐ์ฌ๋ ๊ฒฝ์ฐ, ๋งจ ์์ ์ ์์๋ง ๋จ๊น
- ์ฌ๋ฌ ๋ช
์ด ๊ธฐ์ฌ๋์ด ์์๋์ง ์ฌ๋ถ๋ฅผ Author_mul์ boolํํ๋ก ๊ธฐ๋ก
- ex) "์ ํ์ญ ๊ธ ์ด์ค์ฑ ๊ทธ๋ฆผ" -> "์ ํ์ญ ๊ธ", True
- ์ฌ๋ฌ ๋ช
์ด ๊ธฐ์ฌ๋์ด ์์๋์ง ์ฌ๋ถ๋ฅผ Author_mul์ boolํํ๋ก ๊ธฐ๋ก
- ์ด๋ฆ ๋ค์ ๋ถ์ ๊ธฐํ ๋ฌธ์์ด ์ฒ๋ฆฌ
- ์ญํ ์ ๋ํ ๋จ์ด : "๊ธ", "์", "์ญ", "์ง์", "ํ์ญ" ๋ฑ ์ด 72๊ฐ์ง
- ๋ค์์ ์ฌ๋์ด ์ฐธ์ฌํ๋ค๋ ์๋ฏธ์ ๋จ์ด
- ex) "์ธ 13์ธ", "์ธ 5๋ช ", "์ธ"
- ์ฌ๋ฌ ๋ช
์ด ์ ์์๋ก ๊ธฐ์ฌ๋ ๊ฒฝ์ฐ, ๋งจ ์์ ์ ์์๋ง ๋จ๊น
- ์ถ๊ฐ์ผ : DateTime ํ์ ์ผ๋ก ํ์ฑ
- ItemId, ์ ๊ฐ, ํ๋งค๊ฐ : ์ ์ ํํ๋ก ๋ณํ
- ์ด์์น ์ฒ๋ฆฌ:
- ์๋ผ๋ ํ์ด์ง์์ '์ต์', '์', '์ค' ๋ฑ๊ธ์ด ์๋ ๊ฒ์ผ๋ก ์๋ดํ์ง๋ง, '๊ท ์ผ๊ฐ', 'ํ' ๋ฑ๊ธ๋ ์์ ์กด์ฌ
- '๊ท ์ผ๊ฐ', 'ํ'๋ [ํ]๋ก ํต์ผ
- ๋ฐฐ๋ฌ๋ฃ : 2500์์ผ๋ก ํต์ผ๋์ด ์์ด ์ญ์
-
validation ๋ฐ test set์ ๋ฐ์ดํฐ๊ฐ ์ ์ฒ๋ฆฌ์ ์ํฅ์ ์ฃผ์ง ์๋๋ก ์ฃผ์ํ์ฌ ์งํ
- train set์ ์ ์ฒ๋ฆฌ ํ๋ฉด์ ๊ฒฐ์ ๋ ํจ์ ๋ฐ ๊ด๋ จ ๋ด์ฉ๋ค์ validation ๋ฐ test set์ ์ผ๊ด์ ์ผ๋ก ์ ์ฉ
-
Mecab์ ์ฌ์ฉํด Category, BName,BName_sub ์ปฌ๋ผ์ ํ ํฐํ
- Mecab์ ์๋ฌธ ๋ด ๋์ด์ฐ๊ธฐ์ ์์กดํ๊ธฐ๋ณด๋ค ์ฌ์ ์ ์ฐธ์กฐํด ์ดํ๋ฅผ ๊ตฌ๋ถํ์ฌ ์์ ์ ์ธ ๊ฒฐ๊ณผ๊ฐ์ ๋ณด์ฌ์ค
-
๋์ ๋ช (BName, BName_sub)๊ณผ ์นดํ ๊ณ ๋ฆฌ๋ ํ๋์ ์ฝํผ์ค๋ก ํตํฉํ์ฌ ์ ์ ์ธ์ฝ๋ฉ
- ๊ธ์ ๋ด์ฉ์ด ๋๋ ๋ฌธ์ฅ์ด ์๋ ์ ๋ชฉ์ด๋ฏ๋ก, train set์ ํด๋น ์ด์ ํฌํจ ๋ ์ต๋ํ ๋ชจ๋ ํ ํฐ์ ๋ฐ์ดํฐ ์ ์ ํฌํจ
- TF-IDF๋ฅผ ์ด์ฉํ ํ ํฐ ์ ๋ฆฌ, ํ์ฌ๋ ๊ธธ์ด๋ฅผ ๊ธฐ์ค์ผ๋ก ์ ๋ฆฌํ๋ ๋ฐฉ๋ฒ ๋ฑ์ ์ ์ฉํ์ง ์์
-
์ถํ์ฌ, ํ๋งค ์ง์ , ์ ์ ๋ช ์ ๋ํด์๋ ๋น๋ ์ ํน์ SalesPoint๋ฅผ ๊ณ ๋ คํ ์ธ๊ธฐ๋ฅผ ๋ฐ์ํ์ฌ ์ ์ ์ธ์ฝ๋ฉ
-
๋ ์ง ๊ด๋ จ ๋ฐ์ดํฐ ์ ์ํ์ผ๋ก ์ธ์ฝ๋ฉ
-
MinMaxScaling ์งํ
- ๋์ ๋ช ๊ณผ ์นดํ ๊ณ ๋ฆฌ ๊ด๋ จ ์ด์ ์ผ๊ด์ ์ผ๋ก ์งํ
- ์ด์ธ์ ์ด์ ๊ฐ๋ณ์ ์ผ๋ก ์งํ
๋ํ.7 ์ ์ฒ๋ฆฌ,์ค์ผ์ผ๋งํ ์ต์ข ๋ฐ์ดํฐ ์์
- ๋ชจ๋ธ ์ฑ๋ฅ์ RMSE, MAPE, R2 Score ๋ฑ์ ํ์ฉํ์ฌ ํ๊ฐ
- Random Forest Regressor, XGBoost ๋ชจ๋ธ ๊ฐ์ ์ฑ๋ฅ์ ๋น๊ต
- XGBoost์ ๋ํด์๋ GridSearchCV๋ฅผ ์ด์ฉํด ๊ฐ ๋ชจ๋ธ ๋ณ๋ก ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๋ด๋ hyper parameter ํ์
- ๊ฐ ๋ชจ๋ธ ๋ณ๋ก 4 ์ข
๋ฅ์ ์ํฉ์ ๋ํ ์คํ์ ์งํ
- Expt. 1 : ๋ชจ๋ ๋
๋ฆฝ๋ณ์๋ฅผ ์ด์ฉํด ์ค๊ณ ๋์ ๊ฐ๊ฒฉ ์์ธก
- ๋ ๋ฆฝ๋ณ์ : Category, BName, BName_sub, quality, store, Author, Author_mul, Publshr, Pdate, RglPrice, SalesPoint
- Expt. 2 : ์ธ์ผ์ฆํฌ์ธํธ๋ฅผ ์ ์ธํ ๋ ๋ฆฝ๋ณ์๋ฅผ ์ด์ฉํด ์ค๊ณ ๋์ ๊ฐ๊ฒฉ ์์ธก
- Expt. 3 : ์ธ์ผ์ฆํฌ์ธํธ์ ์ ๊ฐ๋ฅผ ์ ์ธํ ๋ ๋ฆฝ๋ณ์๋ฅผ ์ด์ฉํด ์ค๊ณ ๋์ ๊ฐ๊ฒฉ ์์ธก
- Expt. 4 : ์ธ์ผ์ฆํฌ์ธํธ์ ์ ๊ฐ๋ฅผ ์ ์ธํ ๋ ๋ฆฝ๋ณ์๋ฅผ ์ด์ฉํด ์ค๊ณ ๋์ ํ ์ธ์จ ์์ธก
- Expt. 1 : ๋ชจ๋ ๋
๋ฆฝ๋ณ์๋ฅผ ์ด์ฉํด ์ค๊ณ ๋์ ๊ฐ๊ฒฉ ์์ธก
- ๋ชจ๋ธ ํ๊ฐ๋ ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก ์งํ
- test1 : ์ด๊ธฐ์ test dataset์ผ๋ก ์ค์ ๋ ๋ฐ์ดํฐ์
- 69,385์ข ์ ๋์์ ๋ํ ์ค๊ณ ๋์ 156,843๊ฑด
- test2 : train set์ ํฌํจ๋ ์ ์๋ ๋์์ ๋ํ ์ค๊ณ ๋งค๋ฌผ๋ก ์ ํํ ๋ฐ์ดํฐ์
- test set์์ 4,984์ข ์ ๋์์ ๋ํ ์ค๊ณ ๋์ 5,968๊ฑด
- test1 : ์ด๊ธฐ์ test dataset์ผ๋ก ์ค์ ๋ ๋ฐ์ดํฐ์
- ํ๋งค๊ฐ์ SalesPoint๋ฅผ ํ์ต์์ ์ ์ธ์์ผ๋ ์์ ์ ์ธ ์ฑ๋ฅ์ด ๋์ค๋์ง ํ์
- ๊ฐ ์คํ์ ๋ํด GridSearchCV๋ฅผ ์งํํ ํ, ๊ฐ์ฅ ์ฑ์ ์ด ๋์๋ 7๊ฐ์ hyperparameter๋ค์ ํ๋ณด๋ก ์ผ์
- ์ด 486๊ฐ์ hyperparameter ์ค์ ์ด 14๊ฐ์ ํ๋ณด๋ฅผ ๊ณ ๋ฆ
- hyperparameter
-
๊ณ ์ hyperparameter
-
fold = 3
-
early_stopping_rounds : num_boost_rounds์ ๋ฐ๋ผ logisticํ๊ฒ ๋ณํ๋๋ก ์ค์
num_boost_rounds 100 1500 2500 early_stopping_rounds 30 48 51 ๋ํ.8 early_stopping_rounds ์ค์ ๊ฐ
-
-
๋์ hyperparamter ๋ฐ ๋ฒ์
- num_boost_round : [100, 1500, 2500]
- learning_rate : [0.5, 0.3, 0.1]
- max_depth : [4, 5, 6]
- min_child_weight : [1, 4, 7]
- colsample_bytree : [0.5, 1]
- subsample : [0.4, 0.7, 1]
-
-
์๋์๋ ๊ฐ ์คํ ๋ณ๋ก ๊ฐ์ฅ ์ฑ์ ์ด ๋์๋ 4๊ฐ์ hyperparameter์ ๋ํ ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ์ ๋ฆฌ
-
Expt. 1 : ์ ์ธํ ๋ ๋ฆฝ๋ณ์ ์์ด ์ค๊ณ ๊ฐ ์์ธก
h2 h3 h5 h6 num_boost_round 2500 2500 2500 2500 learning_rate 0.3 0.3 0.3 0.3 max_depth 6 6 6 6 min_child_weight 1 1 4 7 colsample_bytree 0.5 1 1 0.5 subsample 1 1 1 1 mean valid score 0.97207 0.97172 0.97163 0.97145 ๋ํ.9 ์ ์ธํ ๋ ๋ฆฝ๋ณ์ ์๋ ์ํฉ์์ best parameter ๋ฐ R2 score
-
Expt. 2 : SalesPoint ์ ์ธํ๊ณ ์ค๊ณ ๊ฐ ์์ธก
h2 h3 h4 h7 num_boost_round 2500 2500 2500 2500 learning_rate 0.3 0.3 0.3 0.3 max_depth 6 6 6 6 min_child_weight 1 1 1 7 colsample_bytree 0.5 1 1 1 subsample 1 1 1 1 mean valid score 0.97139 0.97110 0.97058 0.97049 ๋ํ.10 SalesPoint ์ ์ธํ ์ํฉ์์ best parameter ๋ฐ R2 score
-
Expt. 3 : SalesPoint, ์ ๊ฐ(RglrPrice) ์ ์ธํ๊ณ ์ค๊ณ ๊ฐ ์์ธก
h9 h10 h12 h13 num_boost_round 2500 2500 2500 2500 learning_rate 0.5 0.5 0.5 0.5 max_depth 6 6 6 6 min_child_weight 1 1 4 7 colsample_bytree 1 0.5 1 1 subsample 1 1 1 1 mean valid score 0.89100 0.89926 0.89525 0.89449 ๋ํ.11 SalesPoint, RglPrice ์ ์ธํ ์ํฉ์์ best parameter ๋ฐ R2 score
-
Expt. 4 : SalesPoint, ์ ๊ฐ(RglPrice) ์ ์ธํ๊ณ ํ ์ธ์จ ์์ธก
h9 h3 h5 h7 num_boost_round 2500 2500 2500 2500 learning_rate 0.5 0.3 0.3 0.3 max_depth 6 6 6 6 min_child_weight 1 1 4 7 colsample_bytree 1 1 1 1 subsample 1 1 1 1 mean valid score 0.79814 0.79872 0.79887 0.79823 ๋ํ.12 SalesPoint, RglPrice ์ ์ธํ๊ณ ํ ์ธ์จ ์์ธกํ ๋ best parameter ๋ฐ R2 score
-
GridSearchCV๋ฅผ ํตํด ๊ณ ๋ฅธ 14๊ฐ์ hyperparmeter์ default ๊ฐ(h0)์ ๋ํด์ ํ ์คํธ ์งํ
h0 h1 h2 h3 h4 h5 h6 num_boost_round 100 1500 2500 2500 2500 2500 2500 learning_rate 0.3 0.3 0.3 0.3 0.3 0.3 0.3 max_depth 6 6 6 6 6 6 6 min_child_weight 1 4 1 1 4 4 7 colsample_bytree 1 1 0.5 1 0.5 1 0.5 subsample 1 1 1 1 1 1 1 h7 h8 h9 h10 h11 h12 h13 h14 num_boost_round 2500 2500 2500 2500 2500 2500 2500 2500 learning_rate 0.3 0.5 0.5 0.5 0.5 0.5 0.5 0.5 max_depth 6 5 6 6 6 6 6 6 min_child_weight 7 1 1 1 4 4 7 7 colsample_bytree 1 1 0.5 1 0.5 1 1 0.5 subsample 1 1 1 1 1 1 1 1 ๋ํ.13 XGB ํ๊ฐ์์ ์ต์ข ์ ์ผ๋ก ์ฌ์ฉํ hyperparmeter ๋ชฉ๋ก
- metric : RMSE, MAPE,
$R^2$ score - ๊ฐ metric์ ๋ํด test1๊ณผ test2์์์ ๊ฐ์ ์กฐํ ํ๊ท ์ ์ทจํ ๊ฐ์ ๊ธฐ์ค์ผ๋ก, ๊ฐ metric ๋ณ ์์๋ฅผ ๋งค๊น
- ์ฐ์ , ๊ธฐํ ํ๊ท ์ ๋นํด ์กฐํ ํ๊ท ์ ๊ฐ๋ค ๊ฐ์ ์ฐจ์ด๊ฐ ํฌ์ง ์์ ๊ฒ์ ์๋์ ์ผ๋ก ๋๊ฒ ํ๊ฐ
- training set์ ํฌํจ๋๋์ง ์ฌ๋ถ์ ํฐ ์ฐจ์ด ์์ด ๊ณ ๋ฅด๊ฒ ์ ์์ธกํ๋ ๋ชจ๋ธ์ ๋ชฉํ๋ก ํ๊ธฐ ๋๋ฌธ์ ์กฐํ ํ๊ท ์ ์ฌ์ฉ
- metric ๋ณ ์ฑ๋ฅ ์์ ๊ฐ์ ์กฐํ ํ๊ท ์ ๊ตฌํ ๋ค ์์๋ฅผ ๋ฉ๊ฒจ, ์คํ ๋ณ๋ก ๊ฐ๊ฐ ๋ชจ๋ธ๋ค์ ์์ ๋ฐ best model์ ๊ฒฐ์
-
๊ฐ๋ ์ฑ์ ๊ณ ๋ คํ์ฌ 15๊ฐ์ hyperparameter ์ค ๊ฐ ์คํ์์ 3์ ์์ ๋ hyperparameter์ ๋ชจ์์ default(h0)๋ฅผ ํฌํจํ 8์ข ์ ๋ํ ๊ฒฐ๊ณผ๋ง ์ถ๋ ค์ ์ ๋ฆฌ
-
Expt.1
- ํ์ต ๊ฒฐ๊ณผ
test1 h0 h1 h2 h3 h5 h7 h10 h12 RMSE 791.45 624.77 610.14 605.39 612.01 611.04 629.77 631.19 MAPE 0.08123 0.06398 0.06264 0.06101 0.06162 0.06168 0.06322 0.06335 R2_SCORE 0.95539 0.9722 0.97349 0.9739 0.97332 0.97341 0.97175 0.97163 ๋ํ.14 Expt.1์์ test set์ผ๋ก ํ๊ฐํ ๊ฒฐ๊ณผ
test2 h0 h1 h2 h3 h5 h7 h10 h12 RMSE 1461.59 1461.72 1463.05 1477.96 1469.03 1499.15 1606.71 1607.75 MAPE 0.13294 0.14177 0.15186 0.14469 0.14524 0.14276 0.1594 0.1551 R2_SCORE 0.91175 0.91174 0.91158 0.90977 0.91085 0.90716 0.89336 0.89322 ๋ํ.15 Expt.1์์ test set ์ค train set์ ํฌํจ๋ ์ ์๋ ์ข ๋ฅ์ ๋์๋ค์ ๋ํด ํ๊ฐํ ๊ฒฐ๊ณผ
ํ๊ท h0 h1 h2 h3 h5 h7 h10 h12 RMSE 1026.86 875.38 861.15 858.95 864.05 868.21 904.87 906.49 MAPE 0.10084 0.08817 0.0887 0.08583 0.08653 0.08614 0.09053 0.08996 R2_SCORE 0.93306 0.941 0.94152 0.94074 0.94105 0.93912 0.93091 0.93078 ์ข ํฉ์์ 11 4 1 0 2 3 9 8 ๋ํ.16 Expt.1์์ ๋ ํ๊ฐ์ ๋ํด ์กฐํํ๊ท ์ ์ทจํ๊ณ ์์๋ฅผ ๋งค๊ธด ๊ฒฐ๊ณผ
-
Expt.2
- ํ์ต ๊ฒฐ๊ณผ
test1 h0 h1 h2 h3 h5 h7 h10 h12 RMSE 811.29 627.17 617.09 622.17 610.71 611.44 651.01 651.38 MAPE 0.08259 0.06514 0.06445 0.06215 0.06243 0.06266 0.06339 0.06427 R2_SCORE 0.95312 0.97199 0.97288 0.97243 0.97344 0.97337 0.96982 0.96978 ๋ํ.19 Expt.2์์ test set์ผ๋ก ํ๊ฐํ ๊ฒฐ๊ณผ
test2 h0 h1 h2 h3 h5 h7 h10 h12 RMSE 1569.41 1438.37 1482.96 1588.16 1440.4 1445.24 1746.74 1718.45 MAPE 0.13521 0.1431 0.15337 0.14704 0.14448 0.14406 0.15631 0.15414 R2_SCORE 0.89826 0.91454 0.90916 0.89581 0.91429 0.91372 0.87396 0.87801 ๋ํ.20 Expt.2์์ test set ์ค train set์ ํฌํจ๋ ์ ์๋ ์ข ๋ฅ์ ๋์๋ค์ ๋ํด ํ๊ฐํ ๊ฒฐ๊ณผ
ํ๊ท h0 h1 h2 h3 h5 h7 h10 h12 RMSE 1069.64 873.48 871.52 894.07 857.75 859.33 948.51 944.67 MAPE 0.10254 0.08953 0.09076 0.08737 0.08718 0.08733 0.0902 0.09072 R2_SCORE 0.92488 0.94239 0.93994 0.93255 0.94294 0.9426 0.9194 0.92162 ์ข ํฉ์์ 14 2 3 4 0 1 8 10 ๋ํ.21 Expt.2์์ ๋ ํ๊ฐ์ ๋ํด ์กฐํํ๊ท ์ ์ทจํ๊ณ ์์๋ฅผ ๋งค๊ธด ๊ฒฐ๊ณผ
-
Expt.3
- ํ์ต ๊ฒฐ๊ณผ
test1 h0 h1 h2 h3 h5 h7 h10 h12 RMSE 1978.75 1173.79 1081.24 1030.94 1040.43 1060.22 981.41 995.98 MAPE 0.1986 0.12 0.10984 0.10306 0.10446 0.10569 0.09728 0.09868 R2_SCORE 0.72113 0.90187 0.91673 0.9243 0.9229 0.91994 0.9314 0.92935 ๋ํ.24 Expt.3์์ test set์ผ๋ก ํ๊ฐํ ๊ฒฐ๊ณผ
test2 h0 h1 h2 h3 h5 h7 h10 h12 RMSE 3324.69 3189.42 3262.41 3298.67 3180.58 3228.48 3428.1 3377.55 MAPE 0.40055 0.38649 0.38991 0.39703 0.3851 0.38697 0.42367 0.42468 R2_SCORE 0.54339 0.57979 0.56034 0.55051 0.58212 0.56944 0.51455 0.52876 ๋ํ.25 Expt.3์์ test set ์ค train set์ ํฌํจ๋ ์ ์๋ ์ข ๋ฅ์ ๋์๋ค์ ๋ํด ํ๊ฐํ ๊ฒฐ๊ณผ
ํ๊ท h0 h1 h2 h3 h5 h7 h10 h12 RMSE 2480.93 1716.03 1624.19 1570.92 1567.95 1596.25 1525.96 1538.33 MAPE 0.26554 0.18313 0.17139 0.16364 0.16434 0.16603 0.15823 0.16015 R2_SCORE 0.61977 0.70583 0.69554 0.69004 0.71393 0.70345 0.66289 0.67403 ์ข ํฉ์์ 14 7 10 5 1 6 0 2 ๋ํ.26 Expt.3์์ ๋ ํ๊ฐ์ ๋ํด ์กฐํํ๊ท ์ ์ทจํ๊ณ ์์๋ฅผ ๋งค๊ธด ๊ฒฐ๊ณผ
| Expt.1 | Expt.2 | Expt.3 | |
|---|---|---|---|
| hyperparameter | h3 | h5 | h10 |
| RMSE | 858.95 | 857.75 | 1525.96 |
| MAPE | 0.08583 | 0.08718 | 0.15823 |
| R2 SCORE | 0.94074 | 0.94294 | 0.66289 |
๋ํ.29 ๊ฐ ์คํ ๋ณ best model๊ณผ ์ฑ๋ฅ
- feature importance ๋ถ์ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก ์ค๊ณ ๊ฐ ์์ธก์ ์ ๊ฐ, ๋์ ๋ช , ์ค๊ณ ๋ฑ๊ธ ๋ฑ์ด ์ฃผ์ํ ์ญํ ์ ํ๋ ๊ฒ์ ํ์ธ
- ์ธ์ผ์ฆ ํฌ์ธํธ๊ฐ ์์ ๋(Expt.1)๊ฐ ์์ ๋(Expt.2, Expt.3)์ ๋นํด, default hyperparameter์ ๋จ์ํ ๋ชจ๋ธ์์๋ ํ์ต์์ ๋ณธ ์ ์๋ ์ข
๋ฅ์ ๋์(test2)์ ๋ํด์๋ ์์ธก ์ฑ๋ฅ์ ์ฐจ์ด๊ฐ ์ ์์
- default hyperparameter๊ฐ ์๋ ๊ฒฝ์ฐ, ์ธ์ผ์ฆ ํฌ์ธํธ๋ฅผ ์ ์ธํด๋ ํ์ต๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฐ ์ฐจ์ด๊ฐ ์์์
- h3์ ๊ฒฝ์ฐ R2 SCORE๊ณผ RMSE๋ก ๋ณด์ด๋ ์ฑ๋ฅ์ด ๋ค๋ฅธ hyperparameter์ ๋นํด ๋จ์ด์ ธ๋, MAPE์์๋ ๋ ๋์์
- test1์์๋ง MAPE์ ์ฑ๋ฅ์ด ๋ค๋ฅธ ๋ชจ๋ธ์ ๋นํด์ ์ข์๋ ๊ฒ์ด ์๋๊ธฐ ๋๋ฌธ์, h1,h5,h7์ ๊ณผ์ ํฉ์ด ๋ฐฉ์ง๋ ๋ชจ๋ธ์ ๋์ฑ ํ๋ํ๋ฉด ์ฑ๋ฅ์ ์ฌ๋ฆด ์ ์์ ๊ฒ์ด๋ผ ์ ์ถํ ์ ์์
- num_boost_round๊ฐ ํฐ ๋ชจ๋ธ์ด ์ ๋ฐ์ ์ผ๋ก ์ฑ๋ฅ์ด ์ข์์ผ๋, min_child_weight, colsample_bytree ๋ฑ์ผ๋ก ๊ณผ์ ํฉ์ ๋ํด ๋ฐฉ์ง๋ ๋ชจ๋ธ๋ค์ด Expt.1, Expt.2์ test2์์ ๋ ์์ ์ ์ธ ๊ฒฐ๊ณผ๊ฐ ๋์จ ๊ฒ์ ํ์ธ
- h1,h5,h7์ ๊ฒฝ์ฐ๋ Expt.2์ Expt.1์์์ ์ฑ์ ์ ํฐ ์ฐจ์ด๊ฐ ์๊ฑฐ๋, Expt.2์์ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์์
- ์ ๊ฐ๊ฐ ํฌํจ๋์ง ์์ ์ํฉ์์ ํ ์ธ์จ์ ์ ๋ง์ถ๋(Expt.4์์ ์ฑ๋ฅ์ ๋ณด์ธ) hyperparameter๊ฐ Expt.1, Expt.2์ test2์์๋ ์ ๋ฐ์ ์ผ๋ก ๊ฐ๊ฑดํ ๊ฒ์ด๋ผ๋ ์์์ด ์์ฃผ ํ๋ฆฌ์ง๋ ์์์
- GridSearchCV ๊ณผ์ ์ค์ ๋ ๋์ validation ์ฑ์ ์ ๋ณด์๋ ๊ฒฝ์ฐ๊ฐ ํญ์ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ ์์์
- ๋ค๋ง ์์๊ถ์ hyperparameter๊ฐ ์์๊ถ์ ์ฑ๋ฅ์ ์ ์งํ๋ ๊ฒ์ ํ์ธํ์
- ๋ํ test2์ ์ฑ๋ฅ์ ๋ง์ถฐ์ ํ๋ํ๊ธฐ ์ํด์๋ test2์ ๋ง๊ฒ ๋ง๋ค์ด์ง validation set์ ์ค์ ํด์ผ ํจ์ ํ์ธ
- ์ ๊ฐ๋ฅผ ํ์ต ๋ฐ์ดํฐ์ ํฌํจํ์ง ์์์ ๋, train set์ ๋ฑ์ฅ ํ ์ ์๋ ์ข
๋ฅ์ ๋์์ ๋ํด์๋ ์ค๊ณ ํ๋งค๊ฐ ์์ธก ์ฑ๋ฅ์ด ๋ง์ด ๋จ์ด์ง๋ ๊ฒ์ ๋ฐ๊ฒฌ
- ์ ๊ฐ๊ฐ ํฌํจ๋์ด ์๋ ๊ฒฝ์ฐ best model์์ total_gain ๊ธฐ์ค feature importance๊ฐ ๋งค์ฐ ํฐ ๊ฒ์ ํ์ธ ํ ์ ์์
- Expt.1, Expt.2์์ learning rate๊ฐ ๋์ hyperparameter๋ ๊ณผ์ ํฉ์ผ๋ก ์ฑ๋ฅ์ด ์ข์ง ์์ผ๋, Expt.3์์๋ ๋ ๋ณต์กํ ๋ชจ๋ธ์ด ํ์ํ์ฌ ์ฑ๋ฅ์ด ๋ ์๋์จ ๊ฒ์ผ๋ก ์ ์ถํ ์ ์์
- default hyperparameter์ XGBoost ๋ฑ ๋จ์ํ ๋ชจ๋ธ๋ก๋ ๋์ ์ฑ๋ฅ์ ๋ชจ๋ธ ๊ฐ๋ฐ ๊ฐ๋ฅํ ๋ฐ์ดํฐ ์
- ๊ฐ๋จํ ๋ชจ๋ธ๊ณผ default hyperparmeter๋ก๋ ๋์ ์ฑ๋ฅ์ด ๋์ค๋ ๊ฒ์ผ๋ก ๋ณด์, ์๋ผ๋ ์ค๊ณ ๋งค์ฅ์์ ์ค๊ณ ๋์ ํ๋งค ๊ฐ๊ฒฉ์ ์ฐ์ ํ๋ ๊ฐ์ด๋๋ผ์ธ์ด ์์ ๊ฒ์ด๋ผ ์ถ์ธก ๊ฐ๋ฅ
- ๋์ ๋ช , ์ค๊ณ ๋ฑ๊ธ, ์ ๊ฐ, ์ถํ์ผ, ์ ์ ๋ฑ ์ค๋ฌผ ์ค๊ณ ๋์์์ ๊ฐ๋จํ ํ์ธ ๊ฐ๋ฅํ ํน์ง๋ง์ผ๋ก๋ ๋์ ์ฑ๋ฅ์ด ์ถฉ๋ถํ ๊ฐ๋ฅ
- ์ธ์ผ์ฆ ํฌ์ธํธ๊ฐ ์ค๊ณ ๊ฐ ์์ธก์ ํฐ ๋์์ ์ค ์ ์์ผ๋, ๋ ๋์ ์ฑ๋ฅ์ ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ํด์๋ ๋ชจ๋ธ์ ๋ณต์ก๋๋ฅผ ๋ํ๋ ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๋ ์ชฝ์ด ๋ ์ ๋ฆฌํ ๊ฒ์ ํ์ธ ํ์
- train set์์ ์ค๊ณ ์์ธ๋ฅผ ํ์ตํ ์ ์๋ ์ข ๋ฅ์ ๋์์ ๋ํ ์ค๊ณ ๊ฐ์ ๋ํด์๋ ์ข์ ์ฑ๋ฅ์ผ๋ก ์์ธกํ ๊ฒ, best model๋ค์ feature importance ๋ฑ์ ๊ณ ๋ คํ๋ฉด, NLPํ ๊ฒฐ๊ณผ๊ฐ ๋ชจ๋ธ์ ์ถฉ๋ถํ ๋ฐ์๋์์์ ์ ์ ์์
- validation set์ ํตํด hyperparameter ํ๋์ ํ๊ธฐ ์ํด์๋, test set์ ์ฑ์ง์ ์ ๋ํํด์ผ ํจ์ ํ์ธํจ
- ๋ค๋ง validation set๊ณผ ๋น์ทํ ์ฑ์ง์ ๊ฐ์ง์ง ์์ test set์ ์ด์ฉํ์ฌ ์ด๋ค ๋ชจ๋ธ์ด ๋ ๊ฐ๊ฑดํ ์ง ์์ธกํ๋ ๊ฒ์ ์๋ฏธ๊ฐ ์์
- Neural Network๋ฅผ ์ด์ฉํ ๋ ๋ณต์กํ ๋ชจ๋ธ์ ์ด์ฉํ๋ฉด, ์ ๊ฐ ์์ด ์ค๊ณ ๋์ ํ ์ธ์จ์ ์์ธกํ๊ฑฐ๋ ๋์ ์ ๋ณด๋ก ์ ๊ฐ๋ฅผ ์์ธกํ๋ ๋ชจ๋ธ์ ๋ง๋ค ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ผ ์ ์์ ๊ฒ์ด๋ผ ์ถ์ธก
- Grid Search๋ณด๋ค Bayesian Search ๋ฑ ๋ณด๋ค ํจ์จ์ ์ธ hyperparameter ํ์๋ฒ์ ์ด์ฉํ์ผ๋ฉด, ์ฐ์ฐ๋์ ๋ณด๋ค ํจ์จ์ ์ผ๋ก ํ์ฉํ ์ ์์์ ๊ฒ์ด๋ผ ๊ธฐ๋
- ์ ๊ฐ๋ฅผ ๋ฐ์ดํฐ ์
์ ํฌํจํ์ง ์๋ ์ํฉ์์๋ ์ฑ๋ฅ์ ๋ํ๋ ๊ฒ์ด ๊ฐ๋ฅํ ๊ฒ ๊ฐ์ผ๋ ์๋ํ์ง ๋ชปํ์
- ์ ๊ฐ๋ฅผ ํฌํจํ์ง ์์์ ๋, train set์ ์๋ ๋ฐ์ดํฐ์ ๋ํด์๋ ์ค๊ณ ํ๋งค๊ฐ ์์ธก ์ฑ๋ฅ์ด ๋ง์ด ๋จ์ด์ง๋ ๊ฒ์ ๋ฐ๊ฒฌ
- XGB๋ก๋ ํ๊ณ๊ฐ ์๊ณ , Neural Network๋ฅผ ์ด์ฉํด์ผ ํ ๊ฒ์ผ๋ก ์์
- ์ ์๋ช
, ์ถํ์ฌ๋ฅผ ์ธ์ฝ๋ฉ ์ค ๊ธฐํ ํญ๋ชฉ์ผ๋ก ์ฒ๋ฆฌํ ๋ threshold ๊ธฐ์ค์ ๊ตฌ์ฒด์ ์ธ ๊ทผ๊ฑฐ๋ฅผ ์ ์ํ์ง ๋ชป ํจ
- ์๋ผ๋์ Sales Point ๋ฐ ๊ฐ์ธ์ ๊ฒฝํ์์์ ์ธ์ง๋๋ฅผ ๋ฐํ์ผ๋ก ๊ฒฐ์
- ์ถ๊ฐ์ ์ธ ์กฐ์ฌ๋ฅผ ํตํด ๋ ๊ฐ๊ด์ ์ด๊ณ ์ ์ ๊ฐ๋ฅํ ๊ทผ๊ฑฐ ํ๋ฆฝ ๊ฐ๋ฅ
- RNN ๋ฑ Neural Network๋ฅผ ์ด์ฉํ ํ๊ท ๋ชจ๋ธ ๊ฐ๋ฐ
- ์ค๊ณ ํ๋งค๊ฐ ์์ธก ๋ชจ๋ธ ์ธ์๋ ๋ค์ํ ๋ชจ๋ธ ๊ฐ๋ฐ ๊ฐ๋ฅ
- ์นดํ ๊ณ ๋ฆฌ์ ๋์ ๋ช , ์ถํ์ฌ, ์ถ๊ฐ ์ฐ๋ ๋ฑ์ ์ ๋ณด๋ก ์ ๊ฐ ์์ธก
- ์นดํ ๊ณ ๋ฆฌ์ ๋์ ๋ช , ์ถํ์ฌ, ์ ๊ฐ ๋ฑ์ ์ ๋ณด๋ก ์ถ๊ฐ ์ฐ๋ ์์ธก
- ๋์ ์ ๋ณด ๋ฐ ์ค๊ณ ์์ฅ์์์ ๊ฐ๊ฒฉ์ ๋ฐํ์ผ๋ก ์๋ผ๋์ SalesPoint ์ฐ์ ๋ฒ ์ถ์
- ๋ฐฐํฌ ๊ฐ๋ฅํ ์๋ผ๋ ์ค๊ณ ๋์ ๋ฐ์ดํฐ ์ ์ผ๋ก ์ ๋ฆฌํ์ฌ ๊ณต๊ฐ
- ๋ฒ ์คํธ ์
๋ฌ ์ด์ธ์ ๋์, ๊ณต์ ๋งค์ ์์ ํ๋งคํ์ง ์๋ ๋์ ๋ฑ์ผ๋ก ๋ฐ์ดํฐ ์
๋ฐ ํ๋ก์ ํธ ํ์ฅ
- ๋ฒ ์คํธ ์ ๋ฌ์ ํฌํจ๋ ์ ์๋ ๋์๋ ๋์์ผ๋ก ํ๊ธฐ ์ํ ํฌ๋กค๋ง ๋ฐฉ๋ฒ ๊ฐ๋ฐ ํ์











