Skip to content

kdt-3-second-Project/aladin_usedbook

Folders and files

NameName
Last commit message
Last commit date

Latest commit

ย 

History

87 Commits
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 

Repository files navigation

์•Œ๋ผ๋”˜ ์ค‘๊ณ  ๋„์„œ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ• ๋ฐ ๊ทธ์— ๊ธฐ๋ฐ˜ํ•œ ์ค‘๊ณ  ์„œ์  ๊ฐ€๊ฒฉ ์˜ˆ์ธก ๋ชจ๋ธ

ํ”„๋กœ์ ํŠธ ๊ตฌ์„ฑ์›: ์˜ค๋„์€, ๋ฐ•์˜ˆ๋ฆผ, ์ด์ค€์„ฑ, ์ •ํ™์„ญ / ๋ฐœํ‘œ ์Šฌ๋ผ์ด๋“œ

์‚ฌ์šฉ๋œ ์Šคํ‚ฌ ์…‹: NumPy, Pandas, Matplotlib, Beautifulsoup, re, Scikit-learn, xgboost, Mecab, cupy

0. ์ดˆ๋ก

  • ์•Œ๋ผ๋”˜ 00๋…„ 1์›” 1์ฃผ์ฐจ ~ 24๋…„ 7์›” 2์ฃผ์ฐจ์˜ ๋ฒ ์ŠคํŠธ์…€๋Ÿฌ ๋ชฉ๋ก์„ ํฌ๋กค๋งํ•˜์—ฌ 141.5๋งŒ ํ–‰์˜ DB ๊ตฌ์ถ•
    • 15.8๋งŒ ์—ฌ์ข…์˜ ๋„์„œ์— ๋Œ€ํ•˜์—ฌ, ํ•ด๋‹น ์ฃผ์ฐจ์—์„œ์˜ ์ˆœ์œ„ ๋ฐ ๋„์„œ ๊ด€๋ จ ์ •๋ณด๋ฅผ ํฌํ•จ
  • ์ฃผ๊ฐ„ ๋ฒ ์ŠคํŠธ ์…€๋Ÿฌ DB๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ, 78๋งŒ ํ–‰์˜ ์•Œ๋ผ๋”˜ ์ค‘๊ณ  ๋งค์žฅ์˜ ์ค‘๊ณ  ๋„์„œ DB ๊ตฌ์ถ•
    • 10.3๋งŒ ์—ฌ์ข…์˜ ์—ญ๋Œ€ ๋ฒ ์ŠคํŠธ์…€๋Ÿฌ ๋„์„œ์— ๋Œ€ํ•œ ์ค‘๊ณ  ๋„์„œ ๋งค๋ฌผ ๋ฐ์ดํ„ฐ
  • XGBoost Regressor๋ฅผ ์ด์šฉํ•˜์—ฌ ์ค‘๊ณ ๊ฐ€ ์˜ˆ์ธก ๋ชจ๋ธ ๊ฐœ๋ฐœ
    • cross validation๊ณผ grid search๋ฅผ ์ด์šฉํ•˜์—ฌ 486๊ฐœ์˜ ์กฐํ•ฉ ์ค‘ ์šฐ์ˆ˜ hyperparameter 14๊ฐœ๋ฅผ ์ถ”๋ฆผ
    • ์šฐ์ˆ˜ hyperparameter๋กœ ํ•™์Šตํ•œ ๋ชจ๋ธ๋“ค์— ๋Œ€ํ•ด์„œ test set์œผ๋กœ ๋‚˜๋ˆˆ ๋ฐ์ดํ„ฐ ์ „์ฒด์— ๋Œ€ํ•œ ํ‰๊ฐ€์™€ test set ์ค‘ train set์— ํฌํ•จ๋œ ์  ์—†๋Š” ์ข…๋ฅ˜์˜ ๋„์„œ์— ์ œํ•œํ•œ ํ‰๊ฐ€๋ฅผ ๋”ฐ๋กœ ์ง„ํ–‰
  • best model ์„ฑ์ 
    • test 1 : ์ดˆ๊ธฐ์— test set์œผ๋กœ ๋‚˜๋ˆˆ ๋ฐ์ดํ„ฐ๋กœ ํ‰๊ฐ€
      • RMSE : 610.7, R2 Score : 0.973, test set ํฌ๊ธฐ : 156,843
    • test 2 : test set ์ค‘ train set์— ํฌํ•จ๋œ ์  ์—†๋Š” ์ข…๋ฅ˜์˜ ๋„์„œ์— ํ•œํ•ด์„œ ํ‰๊ฐ€
      • RMSE : 1,440, R2 Score : 0.914, test set ํฌ๊ธฐ : 5,968

1. ํ”„๋กœ์ ํŠธ ๊ฐœ์š”

๋ฐฐ๊ฒฝ

  • ์ค‘๊ณ  ๋„์„œ์˜ ์ƒํƒœ, ์ €์ž, ์žฅ๋ฅด ๋“ฑ ๋‹ค์–‘ํ•œ ์š”์†Œ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ค‘๊ณ  ๋„์„œ์˜ ํŒ๋งค ๊ฐ€๊ฒฉ์ด ํ˜•์„ฑ๋จ
  • ์ค‘๊ณ  ๋„์„œ ๊ฐ€๊ฒฉ์€ ์ƒํ’ˆ์˜ ์ข…๋ฅ˜ ๋ฐ ์ƒํƒœ ๋ณ„๋กœ ๊ฐ€๊ฒฉ์˜ ํŽธ์ฐจ๊ฐ€ ์žˆ์Œ
  • ๊ฐ€๊ฒฉ์— ์ค‘์š”ํ•œ ์š”์†Œ๋“ค์˜ ๋‚ด์šฉ์€ ์‰ฝ๊ฒŒ ํ™•์ธ ๊ฐ€๋Šฅํ•˜๊ณ , ์ƒํ’ˆ ํŽ˜์ด์ง€์— ์ •๋ฆฌ๊ฐ€ ์ž˜ ๋˜์–ด์žˆ๋Š” ํŽธ
    • ํฌ๋กค๋ง์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜๊ธฐ์— ์ ‘๊ทผ์„ฑ์ด ์ข‹์Œ

๋ชฉํ‘œ

  • ํฌ๋กค๋ง์„ ํ†ตํ•ด ์•Œ๋ผ๋”˜ ์ค‘๊ณ ๋„์„œ ๋ฐ์ดํ„ฐ ์…‹ ๊ตฌ์ถ•
  • ์•Œ๋ผ๋”˜ ์ค‘๊ณ  ๋งค์žฅ์—์„œ ํŒ๋งคํ•˜๋Š” ์ค‘๊ณ  ๋„์„œ ๊ฐ€๊ฒฉ์„ ์˜ˆ์ธกํ•˜๋Š” ํšŒ๊ท€ ๋ชจ๋ธ ๊ฐœ๋ฐœ
    • ์•Œ๋ผ๋”˜ ํ™ˆํŽ˜์ด์ง€์—์„œ ํŒ๋งคํ•˜๋Š” ์ค‘๊ณ ๋„์„œ ์ค‘ ์ค‘๊ณ  ๋งค์žฅ์—์„œ ํŒ๋งคํ•˜๋Š” ์ƒํ’ˆ์„ ์šฐ์„ ์  ๋Œ€์ƒ์œผ๋กœ ํ•จ
    • Random Forest Regressor, XGBoost ๋“ฑ์˜ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ์„ ์ด์šฉ
  • ๊ฐ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์—ฌ๋Ÿฌ ์„ฑ๋Šฅ ์ง€ํ‘œ ๋ฐ ์‹คํ—˜์„ ํ†ตํ•˜์—ฌ ์ ์ ˆํžˆ ํ‰๊ฐ€

2. ๋ฐ์ดํ„ฐ ์…‹

1) ๊ฐœ์š”

  • ์•Œ๋ผ๋”˜์˜ ์ค‘๊ณ  ๋„์„œ ์ƒํ’ˆ๊ณผ ์ƒˆ ์ฑ… ์‚ฌ์ด์— url ๊ตฌ์กฐ ๋“ฑ์œผ๋กœ๋Š” ์•Œ๋ผ๋”˜์˜ ์ค‘๊ณ  ๋„์„œ์™€ ์ƒˆ ์ฑ… ์‚ฌ์ด์— ๊ตฌ๋ณ„ํ•  ์ˆ˜ ์—†์Œ
  • ์•Œ๋ผ๋”˜์—์„œ ๋„์„œ๋ณ„๋กœ ์ค‘๊ณ  ์ƒํ’ˆ์„ ์ •๋ฆฌํ•ด ๋†“์€ ํŽ˜์ด์ง€๋ฅผ ์ด์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ ์…‹์„ ์ฒด๊ณ„์ ์œผ๋กœ ๊ตฌ์ถ•

2) ๊ตฌ์„ฑ

  • ์•Œ๋ผ๋”˜์˜ ์ฃผ๊ฐ„ ๋ฒ ์ŠคํŠธ์…€๋Ÿฌ ํŽ˜์ด์ง€์—์„œ ์ œ๊ณตํ•œ 1~1000์œ„์— ๋Œ€ํ•œ xls ํŒŒ์ผ ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•˜์—ฌ ๊ตฌ์„ฑ
  • 2000๋…„ 1์›” 1์ฃผ์ฐจ ~ 2024๋…„ 7์›” 2์ฃผ์ฐจ๊นŒ์ง€์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํฌ๊ด„ํ•˜๋ฉฐ, 24-07-10 ~ 24-07-12์— ์ˆ˜์ง‘ ์ง„ํ–‰

image

๋„ํ‘œ.1 ์•Œ๋ผ๋”˜ ์ฃผ๊ฐ„ ๋ฒ ์ŠคํŠธ์…€๋Ÿฌ ํŽ˜์ด์ง€ ์˜ˆ์‹œ

  • ์ด 1,415,586๊ฐœ์˜ row์™€ ๋žญํ‚น, ๊ตฌ๋ถ„, ๋„์„œ ๋ช…, ItemId, ISBN13, ๋ถ€๊ฐ€๊ธฐํ˜ธ, ์ €์ž, ์ถœํŒ์‚ฌ, ์ถœํŒ์ผ, ์ •๊ฐ€, ํŒ๋งค๊ฐ€, ๋งˆ์ผ๋ฆฌ์ง€, ์„ธ์ผ์ฆˆ ํฌ์ธํŠธ, ์นดํ…Œ๊ณ ๋ฆฌ, ๋‚ ์งœ 12๊ฐœ์˜ column
    • ๊ตฌ๋ถ„ : ๊ตญ๋‚ด๋„์„œ, ์™ธ๊ตญ๋„์„œ ๋“ฑ์œผ๋กœ ๊ตฌ๋ถ„๋˜์–ด ์žˆ์Œ
    • ItemId : ์•Œ๋ผ๋”˜์—์„œ ๋ถ€์—ฌํ•œ ํ•ด๋‹น ๋„์„œ์˜ id. ์ˆซ์ž๋กœ๋งŒ ๊ตฌ์„ฑ
      • ์ƒˆ ์ฑ… ๊ธฐ์ค€์˜ id ๊ฐ’์ด ๊ธฐ์žฌ๋๊ณ , ํ•œ์ •ํŒ, ๊ฐœ์ •ํŒ ๋“ฑ์˜ ๊ฒฝ์šฐ๋„ ๋ณ„๋„์˜ id๊ฐ€ ๋ถ€์—ฌ ๋จ
      • raw data์—๋Š” ๋„์„œ ์™ธ์—๋„, ๋‹น์‹œ ๋ฒ ์ŠคํŠธ์…€๋Ÿฌ์˜€๋˜ MD ๊ตฟ์ฆˆ, ๊ฐ•์—ฐ ๋“ฑ๋„ ํฌํ•จ๋˜์–ด ์žˆ์Œ
      • ์ด 158,084 ์ข…์˜ ๋„์„œ์— ๋Œ€ํ•œ ์ •๋ณด๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Œ
    • ๋‚ ์งœ, ๋žญํ‚น : ํ•ด๋‹น ๋„์„œ๊ฐ€ ์–ด๋–ค ์ฃผ์ฐจ์˜ ์ฃผ๊ฐ„ ๋ฒ ์ŠคํŠธ์…€๋Ÿฌ ๋ชฉ๋ก์— ๋ช‡ ์œ„๋กœ ์˜ฌ๋ž๋Š”์ง€
      • ํ•˜๋‚˜์˜ ๋„์„œ๊ฐ€ ๋‹ค์–‘ํ•œ ์ฃผ ์ฐจ์—์„œ ๋‹ค์–‘ํ•œ ๋žญํ‚น์˜ ๋ฒ ์ŠคํŠธ์…€๋Ÿฌ๋กœ ๋“ฑ์žฅ
    • ISBN13, ๋ถ€๊ฐ€๊ธฐํ˜ธ : ISBN13์€ ์ „์„ธ๊ณ„์—์„œ ๊ณตํ†ต์ ์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ๋„์„œ์— ๋Œ€ํ•œ id. ๋ฐœํ–‰์ž ๋“ฑ์˜ ์ •๋ณด๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ์Œ. ๋ถ€๊ฐ€๊ธฐํ˜ธ๋Š” ํ•œ๊ตญ ๋ฌธํ—Œ ๋ฒˆํ˜ธ ์„ผํ„ฐ์—์„œ ๋ถ€์—ฌํ•˜๋Š” ๋ฒˆํ˜ธ๋กœ, ์˜ˆ์ƒ ๋…์ž์ธต์— ๋Œ€ํ•œ ์ •๋ณด ๋“ฑ์ด ํฌํ•จ ๋˜์–ด ์žˆ์Œ
    • ์นดํ…Œ๊ณ ๋ฆฌ : ๋„์„œ๊ฐ€ ์–ด๋–ค ์žฅ๋ฅด์— ์†ํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ์ •๋ณด. ์™ธ๊ตญ์–ด, ์ข…๊ต, ์‚ฌํšŒ๊ณผํ•™, ๊ฑด๊ฐ•/์ทจ๋ฏธ ๋“ฑ ์ด 24๊ฐœ ์œ ํ˜•์œผ๋กœ ๋ถ„๋ฅ˜
    • ์„ธ์ผ์ฆˆ ํฌ์ธํŠธ
      • ํŒ๋งค๋Ÿ‰๊ณผ ํŒ๋งค๊ธฐ๊ฐ„์— ๊ทผ๊ฑฐํ•˜์—ฌ ํ•ด๋‹น ์ƒํ’ˆ์˜ ํŒ๋งค๋„๋ฅผ ์‚ฐ์ถœํ•œ ์•Œ๋ผ๋”˜๋งŒ์˜ ํŒ๋งค์ง€์ˆ˜์ด๋ฉฐ, ๋งค์ผ ์—…๋ฐ์ดํŠธ ๋จ
      • ์ตœ๊ทผ ํŒ๋งค๋ถ„์— ๊ฐ€์ค‘์น˜๋ฅผ ๋‘์–ด, ํŒ”๋ฆด์ˆ˜๋ก ์˜ฌ๋ผ๊ฐ€๊ณ  ๋œ ํŒ”๋ฆฌ๋ฉด ๋‚ด๋ ค๊ฐ
      • ์ตœ๊ทผ ๋ฒ ์ŠคํŠธ์…€๋Ÿฌ๋Š” ์ ์ˆ˜๊ฐ€ ๋†’์œผ๋ฉฐ, ๊พธ์ค€ํžˆ ํŒ”๋ฆฌ๋Š” ์Šคํ…Œ๋””์…€๋Ÿฌ๋“ค๋„ ์–ด๋А ์ •๋„ ์ ์ˆ˜๋ฅผ ์œ ์ง€
  • ๋‚ ์งœ ๋ฐ ๋žญํ‚น์„ ์ œ์™ธํ•˜๊ณ , ํŒ๋งค๊ฐ€, ์„ธ์ผ์ฆˆ ํฌ์ธํŠธ ๋“ฑ์€ ํฌ๋กค๋ง ์‹œ์ ์—์„œ์˜ ๊ฐ’์ด ์ €์žฅ๋จ

image

๋„ํ‘œ.2 ์•Œ๋ผ๋”˜ ์ฃผ๊ฐ„ ๋ฒ ์ŠคํŠธ ์…€๋Ÿฌ

image

๋„ํ‘œ.3 ๋„์„œ ๋ณ„ ์ค‘๊ณ  ๋งค๋ฌผ ๋ชฉ๋ก ํŽ˜์ด์ง€ ์˜ˆ์‹œ

  • ์•Œ๋ผ๋”˜ ์ค‘๊ณ  ๋„์„œ๋Š” ํŒ๋งค์ž ๋ณ„๋กœ ์…‹์œผ๋กœ ๋ถ„๋ฅ˜ ๋จ
    1. ์•Œ๋ผ๋”˜ ์ง์ ‘ ๋ฐฐ์†ก : ์ค‘๊ณ ๋งค์žฅ์—์„œ ํŒ๋งคํ•˜๊ณ  ์žˆ์ง€ ์•Š์€ ์ค‘๊ณ  ๋„์„œ
    2. ์•Œ๋ผ๋”˜ ์˜จ๋ผ์ธ ์ค‘๊ณ ๋งค์žฅ : ์˜คํ”„๋ผ์ธ์˜ ์•Œ๋ผ๋”˜ ์ค‘๊ณ  ๋งค์žฅ์—์„œ ํŒ๋งค๋˜๊ณ  ์žˆ๋Š” ์ค‘๊ณ  ๋„์„œ
    3. ํŒ๋งค์ž ์ค‘๊ณ  : ํŒ๋งค์ž๊ฐ€ ์•Œ๋ผ๋”˜์ด ์•„๋‹Œ ์ค‘๊ณ  ๋„์„œ
  • ์•Œ๋ผ๋”˜ ์˜จ๋ผ์ธ ์ค‘๊ณ ๋งค์žฅ(๊ด‘ํ™œํ•œ ์šฐ์ฃผ์ )์— ๋“ฑ๋ก ๋œ ์ค‘๊ณ  ๋„์„œ ๋งค๋ฌผ๋กœ ํ•œ์ •
    • ๋„์„œ๋ฉธ ์ค‘๊ณ  ๋งค๋ฌผ ๋ชฉ๋ก ํŽ˜์ด์ง€ url ๊ตฌ์กฐ ์ƒ, ์ƒˆ ์ฑ…์˜ ItemId๋ฅผ ์ด์šฉํ•˜์—ฌ ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ์Œ
    • ํŒ๋งค์ž ๋ถ„๋ฅ˜๋ฅผ ๊ธฐ์ค€์œผ๋กœ ํƒญ์ด ๋‚˜๋ˆ ์ ธ ์žˆ์œผ๋ฉฐ, ์•Œ๋ผ๋”˜ ์ค‘๊ณ  ๋งค์žฅ๋„ ๊ทธ ์ค‘ ํ•˜๋‚˜์˜ ํƒญ
  • ์œ„์˜ ๋ฒ ์ŠคํŠธ์…€๋Ÿฌ ๋ฐ์ดํ„ฐ์— ํฌํ•จ๋œ ๋„์„œ(ItemId)๋ฅผ ๊ธฐ์ค€์œผ๋กœ ํฌ๋กค๋งํ•œ ์ค‘๊ณ ๋„์„œ ๋งค๋ฌผ ์ž๋ฃŒ

image

๋„ํ‘œ.4 ์•Œ๋ผ๋”˜ ์ค‘๊ณ  ๋„์„œ ๋ฐ์ดํ„ฐ

  • ์ด 784,213๊ฐœ์˜ row, 7๊ฐœ์˜ column์œผ๋กœ ๊ตฌ์„ฑ.

    • ๊ฐ row ๋‹น ์ค‘๊ณ  ๋„์„œ ๋งค๋ฌผ ํ•˜๋‚˜์— ํ•ด๋‹น
      • 103,055 ์ข…์˜ ๋„์„œ์— ๋Œ€ํ•œ ์ค‘๊ณ ๋„์„œ ๋งค๋ฌผ 784,213๊ฑด
    • ItemId (์ƒˆ ์ฑ… ๊ธฐ์ค€), ์ค‘๊ณ  ๋ฒˆํ˜ธ, ์ค‘๊ณ  ๋“ฑ๊ธ‰, ํŒ๋งค์ง€์ , ๋ฐฐ๋‹ฌ๋ฃŒ, ์ค‘๊ณ ๊ฐ€, ํŒ๋งค url
    • ItemId : ItemId๋Š” ์ค‘๊ณ  ๋„์„œ๋ฅผ ํฌํ•จํ•˜์—ฌ ๋ชจ๋“  ์ƒํ’ˆ์— ๊ฐ๊ฐ ๋ถ€์—ฌ๋˜๊ธฐ ๋•Œ๋ฌธ์—, ์ฑ… ์ข…๋ฅ˜๋ฅผ ๊ตฌ๋ณ„ํ•˜๋ ค๋ฉด ์ƒˆ ์ฑ… ๊ธฐ์ค€ ItemId๋ฅผ ์‚ฌ์šฉํ•ด์•ผ ํ•จ
    • ์ค‘๊ณ  ๋ฒˆํ˜ธ : ํ•ด๋‹น๋„์„œ์˜ ์ค‘๊ณ ๋„์„œ ๋ชฉ๋ก ํŽ˜์ด์ง€์— ์žˆ์—ˆ๋˜ ์ˆœ์„œ
    • ์ค‘๊ณ ๊ฐ€, ํ’ˆ์งˆ
      • ์ค‘๊ณ ๊ฐ€๋Š” ํ’ˆ์งˆ(์ค‘๊ณ  ๋“ฑ๊ธ‰)์˜ ํฐ ์˜ํ–ฅ์„ ๋ฐ›์œผ๋ฉฐ, '๊ท ์ผ๊ฐ€' ๋ฐ 'ํ•˜', '์ค‘', '์ƒ', '์ตœ์ƒ'์œผ๋กœ ๊ตฌ๋ถ„๋˜์–ด ์žˆ์Œ
      • ํ’ˆ์งˆ์ด ๋†’์„์ˆ˜๋ก ์ค‘๊ณ ๊ฐ€๊ฐ€ ๋†’์€ ๊ฒฝํ–ฅ์ด ์žˆ์Œ
      • ๊ฐ™์€ ํ’ˆ์งˆ์ด๋ผ๋„ ๊ฐ€๊ฒฉ์ด ๋‹ค๋ฅด๊ฑฐ๋‚˜, ๋‚ฎ์€ ํ’ˆ์งˆ์˜ ๋งค๋ฌผ๋ณด๋‹ค ๋” ๊ฐ€๊ฒฉ์ด ์‹ผ ๊ฒฝ์šฐ๊ฐ€ ์ข…์ข… ์žˆ์Œ
    • ํŒ๋งค url : ํ•ด๋‹น ์ค‘๊ณ  ๋งค๋ฌผ์— ๋Œ€ํ•œ ํŒ๋งค ํŽ˜์ด์ง€. ํ•ด๋‹น ์ค‘๊ณ  ๋งค๋ฌผ์˜ ItemId๊ฐ€ url์— ํฌํ•จ๋˜์–ด ์žˆ์Œ
  • ์œ„ 2๊ฐœ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ข…ํ•ฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ์…‹์„ ๋งŒ๋“ค์–ด ํ”„๋กœ์ ํŠธ๋ฅผ ์ง„ํ–‰

  • ์ข…ํ•ฉ๋œ ๋ฐ์ดํ„ฐ ์…‹์—์„œ๋Š” ItemId, ๋„์„œ ๋ช…, ์ค‘๊ณ  ๋“ฑ๊ธ‰, ํŒ๋งค ์ง€์ , ์ €์ž, ์ถœํŒ์‚ฌ, ์ถœํŒ์ผ, ์ •๊ฐ€, ํŒ๋งค๊ฐ€, ์„ธ์ผ์ฆˆํฌ์ธํŠธ, ์นดํ…Œ๊ณ ๋ฆฌ, ์ค‘๊ณ ๊ฐ€ ์ด 12๊ฐœ๋ฅผ column์œผ๋กœ ์‚ฌ์šฉ

image

๋„ํ‘œ.5 ๋ฐ์ดํ„ฐ ์…‹๋“ค์— ํฌํ•จ๋œ ์ฃผ์š” column ๋ฐ ๊ทธ์— ๋Œ€ํ•œ ๊ฐœ์š”

3. ๋ฌธ์ œ ์„ค์ •

๋ชฉํ‘œ: ํ’ˆ์งˆ, ํŒ๋งค ์ง€์ , ์ €์ž, ์ถœํŒ์‚ฌ, ์ถœํŒ์ผ, ์ •๊ฐ€ ๋“ฑ์˜ ๊ฐ’์„ ์ด์šฉํ•˜์—ฌ ์•Œ๋ผ๋”˜์—์„œ ๊ณต์‹์œผ๋กœ ํŒ๋งคํ•˜๋Š” ์ค‘๊ณ  ์„œ์  ๊ฐ€๊ฒฉ์„ ์˜ˆ์ธก ํ•˜๊ณ  ๋ถ„์„ํ•˜๊ณ ์ž ํ•จ

1) ์ข…์† ๋ณ€์ˆ˜/ ๋…๋ฆฝ ๋ณ€์ˆ˜

  • ์ข…์† ๋ณ€์ˆ˜๋ฅผ ์ œ์™ธํ•œ ํ•ญ๋ชฉ ์ค‘์—์„œ ์ด 11๊ฐœ์˜ ๋…๋ฆฝ๋ณ€์ˆ˜ ์„ ์ •

    • BName_sub (๋„์„œ๋ช…์—์„œ ๊ด„ํ˜ธ ์•ˆ์˜ ๋‚ด์šฉ), Author_mul (์ €์ž ๋“ฑ์ด ์—ฌ๋Ÿฌ ๋ช…์œผ๋กœ ํ‘œ๊ธฐ๋˜์—ˆ๋Š”์ง€ ์—ฌ๋ถ€) ๋“ฑ ํŒŒ์ƒ ํ•ญ๋ชฉ ํฌํ•จ. ํ•ด๋‹น ๋‚ด์šฉ์€ ์ „์ฒ˜๋ฆฌ ํŒŒํŠธ์—์„œ ํ›„์ˆ 
    ์ข…์† ๋ณ€์ˆ˜ ๋…๋ฆฝ ๋ณ€์ˆ˜
    Price quality, store, BName, BName_sub, Author, Author_mul, Publshr, Pdate, RglPrice, Category, SalesPoint

    ๋„ํ‘œ.6 ๋ชจ๋ธ์˜ ์ข…์† ๋ณ€์ˆ˜ ๋ฐ ๋…๋ฆฝ ๋ณ€์ˆ˜

2) ์‹คํ—˜ ์„ค๊ณ„

  • sklearn์„ ์ด์šฉํ•˜์—ฌ train 64%, validation 16%, test 20% ๋น„์œจ๋กœ ๋ถ„๋ฆฌ
    • train : 95,061์ข…์˜ ๋„์„œ์— ๋Œ€ํ•œ ์ค‘๊ณ ๋„์„œ 501,896๊ฑด
    • valid : 62,995์ข…์˜ ๋„์„œ์— ๋Œ€ํ•œ ์ค‘๊ณ ๋„์„œ 125,474๊ฑด
    • test : 69,385์ข…์˜ ๋„์„œ์— ๋Œ€ํ•œ ์ค‘๊ณ ๋„์„œ 156,843๊ฑด
  • XGBoost Regressor(์ดํ•˜ XGB)์„ ํ•™์Šต์‹œํ‚ฌ ๋•Œ ๋†’์€ ์„ฑ๋Šฅ์„ ๋‚ด๋Š” hyperparameter ํƒ์ƒ‰
  • ํฌ๊ฒŒ ์„ธ ๊ฐ€์ง€ ์ธก๋ฉด์œผ๋กœ ์‹คํ—˜ ์ง„ํ–‰
    • Grid search๋ฅผ ์ด์šฉํ•ด ๊ฐ ์‹คํ—˜ ๋ณ„๋กœ ๊ฐ€์žฅ ๋†’์€ ์„ฑ๋Šฅ์„ ๋‚ด๋Š” hyper parameter ํƒ์ƒ‰
    • ์ •๊ฐ€์™€ SalesPoint๋ฅผ ํ•™์Šต์—์„œ ์ œ์™ธ์‹œ์ผœ๋„ ์•ˆ์ •์ ์ธ ์„ฑ๋Šฅ์ด ๋‚˜์˜ค๋Š”์ง€ ํƒ์ƒ‰
    • train set์— ํฌํ•จ๋˜์ง€ ์•Š์•˜๋˜ ๋„์„œ๋“ค์— ๋Œ€ํ•œ ์ค‘๊ณ  ๋งค๋ฌผ๋กœ test ๋Œ€์ƒ์„ ํ•œ์ •์ง€์—ˆ์„ ๋•Œ, ์„ฑ๋Šฅ์ด ์–ด๋–ป๊ฒŒ ๋‹ฌ๋ผ์ง€๋Š”์ง€ ํƒ์ƒ‰
  • RMSE, MAPE, R2 Score ๋“ฑ์˜ ํšŒ๊ท€ ํ‰๊ฐ€ ์ง€ํ‘œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์„ฑ๋Šฅ์„ ๊ฐ ๋ชจ๋ธ ๋ณ„๋กœ ๋ถ„์„

1) ์ „์ฒด ๊ณผ์ •

  • ๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ
    • ์ €์ž ๋ช…, ๊ตฌ๋ถ„, ์ถœํŒ์‚ฌ, ์นดํ…Œ๊ณ ๋ฆฌ ๋“ฑ์— ๊ฒฐ์ธก์น˜๊ฐ€ ์žˆ๋Š” ํ–‰์˜ ๊ฐœ์ˆ˜ 1,214๊ฐœ
      • ์‹ค์ œ ๋„์„œ๋„ ์žˆ์ง€๋งŒ, MD ๊ตฟ์ฆˆ, ๊ฐ•์—ฐ๋“ฑ ๋„์„œ๊ฐ€ ์•„๋‹Œ ๋ฐ์ดํ„ฐ ๋‹ค์ˆ˜ ์กด์žฌ
  • ์ค‘๋ณต ๋„์„œ ์ฒ˜๋ฆฌ : ๋ฒ ์ŠคํŠธ ์…€๋Ÿฌ ๋ชฉ๋ก์— ์—ฌ๋Ÿฌ ๋ฒˆ ์˜ค๋ฅธ ๋„์„œ๋Š” ํ•˜๋‚˜์˜ ํ–‰๋งŒ ๋‚จ๊น€
  • ๋„์„œ ๋ช…
    • ํ•œ์ž ์ฒ˜๋ฆฌ
      • hanja์„ ์ด์šฉํ•ด ํ•œ์ž๋ฅผ ํ•œ๊ธ€๋กœ ๋ณ€ํ™˜. ํ•œ๊ธ€ ๋…์Œ์ด ์ด๋ฏธ ์žˆ๋Š” ๊ฒฝ์šฐ ์ค‘๋ณต๋˜์ง€ ์•Š๊ฒŒ ์ฒ˜๋ฆฌ
    • ์ˆซ์ž ์ฒ˜๋ฆฌ
      • ์ˆซ์ž ์‚ฌ์ด ๊ตฌ๋ถ„์ž "," ์ •๋ฆฌ : ex) "1,000" -> "1000"
      • ๋กœ๋งˆ ์ˆซ์ž๋ฅผ ์•„๋ž ์ˆซ์ž๋กœ ๋ณ€ํ™˜
      • ์—ฐ๋„ ํ‘œ๊ธฐ ์ •๋ฆฌ : "`00"์˜ ํ˜•ํƒœ๋กœ ํ‘œ๊ธฐ๋œ ๋…„๋„๋ฅผ ์ •๋ฆฌ
        • ex) "`98 ~ `07 ๊ธฐ์ถœ๋ฌธ์ œ ๋ชจ์Œ" -> "1998 ~ 2007 ๊ธฐ์ถœ๋ฌธ์ œ ๋ชจ์Œ"
    • ํŠน์ˆ˜ํ•œ unicode๋กœ ๊ธฐ์ž…๋œ ๋ฌธ์ž๋ฅผ ํ”ํžˆ ์“ฐ์ด๋Š” ํŠน์ˆ˜๋ฌธ์ž๋กœ ๋ณ€ํ™˜
      • "&#"๊ฐ€ ๋“ค์–ด๊ฐ€๋Š” token๋“ค์ด ์žˆ๋Š”์ง€ ํ™•์ธ ํ›„ ๋ณ„๋„ ์ฒ˜๋ฆฌ
      • ex) "์„ธ ๋ช…์˜ ์‚ถ ๏ผผ Q. E. D." -> "์„ธ ๋ช…์˜ ์‚ถ \ Q. E. D."
    • ๊ด„ํ˜ธ์† ๋‚ด์šฉ ์ถ”์ถœ ํ›„ BName_sub column์— ์ •๋ฆฌ
      • ex) "์ „์ง€์  ๋ฃจ์ด &ํ›„์ด ์‹œ์ (์–‘์žฅ๋ณธ)" -> "(์–‘์žฅ๋ณธ)"๋งŒ BName_sub์— ๋ถ„๋ฆฌ
  • ์ €์ž ๋ช…
    • ์—ฌ๋Ÿฌ ๋ช…์ด ์ œ์ž‘์ž๋กœ ๊ธฐ์žฌ๋œ ๊ฒฝ์šฐ, ๋งจ ์•ž์˜ ์ œ์ž‘์ž๋งŒ ๋‚จ๊น€
      • ์—ฌ๋Ÿฌ ๋ช…์ด ๊ธฐ์žฌ๋˜์–ด ์žˆ์—ˆ๋Š”์ง€ ์—ฌ๋ถ€๋ฅผ Author_mul์— boolํ˜•ํƒœ๋กœ ๊ธฐ๋ก
        • ex) "์ •ํ™์„ญ ๊ธ€ ์ด์ค€์„ฑ ๊ทธ๋ฆผ" -> "์ •ํ™‰์„ญ ๊ธ€", True
    • ์ด๋ฆ„ ๋’ค์— ๋ถ™์€ ๊ธฐํƒ€ ๋ฌธ์ž์—ด ์ฒ˜๋ฆฌ
      • ์—ญํ• ์— ๋Œ€ํ•œ ๋‹จ์–ด : "๊ธ€", "์‹œ", "์—ญ", "์ง€์Œ", "ํ‰์—ญ" ๋“ฑ ์ด 72๊ฐ€์ง€
      • ๋‹ค์ˆ˜์˜ ์‚ฌ๋žŒ์ด ์ฐธ์—ฌํ–ˆ๋‹ค๋Š” ์˜๋ฏธ์˜ ๋‹จ์–ด
        • ex) "์™ธ 13์ธ", "์™ธ 5๋ช…", "์™ธ"
  • ์ถœ๊ฐ„์ผ : DateTime ํƒ€์ž…์œผ๋กœ ํŒŒ์‹ฑ
  • ItemId, ์ •๊ฐ€, ํŒ๋งค๊ฐ€ : ์ •์ˆ˜ ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜
  • ์ด์ƒ์น˜ ์ฒ˜๋ฆฌ:
    • ์•Œ๋ผ๋”˜ ํŽ˜์ด์ง€์—์„œ '์ตœ์ƒ', '์ƒ', '์ค‘' ๋“ฑ๊ธ‰์ด ์žˆ๋Š” ๊ฒƒ์œผ๋กœ ์•ˆ๋‚ดํ•˜์ง€๋งŒ, '๊ท ์ผ๊ฐ€', 'ํ•˜' ๋“ฑ๊ธ‰๋„ ์†Œ์ˆ˜ ์กด์žฌ
    • '๊ท ์ผ๊ฐ€', 'ํ•˜'๋Š” [ํ•˜]๋กœ ํ†ต์ผ
  • ๋ฐฐ๋‹ฌ๋ฃŒ : 2500์›์œผ๋กœ ํ†ต์ผ๋˜์–ด ์žˆ์–ด ์‚ญ์ œ
  • validation ๋ฐ test set์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์ „์ฒ˜๋ฆฌ์— ์˜ํ–ฅ์„ ์ฃผ์ง€ ์•Š๋„๋ก ์ฃผ์˜ํ•˜์—ฌ ์ง„ํ–‰

    • train set์„ ์ „์ฒ˜๋ฆฌ ํ•˜๋ฉด์„œ ๊ฒฐ์ •๋œ ํ•จ์ˆ˜ ๋ฐ ๊ด€๋ จ ๋‚ด์šฉ๋“ค์„ validation ๋ฐ test set์— ์ผ๊ด„์ ์œผ๋กœ ์ ์šฉ
  • Mecab์„ ์‚ฌ์šฉํ•ด Category, BName,BName_sub ์ปฌ๋Ÿผ์„ ํ† ํฐํ™”

    • Mecab์€ ์›๋ฌธ ๋‚ด ๋„์–ด์“ฐ๊ธฐ์— ์˜์กดํ•˜๊ธฐ๋ณด๋‹ค ์‚ฌ์ „์„ ์ฐธ์กฐํ•ด ์–ดํœ˜๋ฅผ ๊ตฌ๋ถ„ํ•˜์—ฌ ์•ˆ์ •์ ์ธ ๊ฒฐ๊ณผ๊ฐ’์„ ๋ณด์—ฌ์คŒ
  • ๋„์„œ ๋ช…(BName, BName_sub)๊ณผ ์นดํ…Œ๊ณ ๋ฆฌ๋Š” ํ•˜๋‚˜์˜ ์ฝ”ํผ์Šค๋กœ ํ†ตํ•ฉํ•˜์—ฌ ์ •์ˆ˜ ์ธ์ฝ”๋”ฉ

    • ๊ธ€์˜ ๋‚ด์šฉ์ด ๋˜๋Š” ๋ฌธ์žฅ์ด ์•„๋‹Œ ์ œ๋ชฉ์ด๋ฏ€๋กœ, train set์˜ ํ•ด๋‹น ์—ด์— ํฌํ•จ ๋œ ์ตœ๋Œ€ํ•œ ๋ชจ๋“  ํ† ํฐ์„ ๋ฐ์ดํ„ฐ ์…‹์— ํฌํ•จ
    • TF-IDF๋ฅผ ์ด์šฉํ•œ ํ† ํฐ ์ •๋ฆฌ, ํ’ˆ์‚ฌ๋‚˜ ๊ธธ์ด๋ฅผ ๊ธฐ์ค€์œผ๋กœ ์ •๋ฆฌํ•˜๋Š” ๋ฐฉ๋ฒ• ๋“ฑ์€ ์ ์šฉํ•˜์ง€ ์•Š์Œ
  • ์ถœํŒ์‚ฌ, ํŒ๋งค ์ง€์ , ์ €์ž ๋ช…์— ๋Œ€ํ•ด์„œ๋Š” ๋นˆ๋„ ์ˆ˜ ํ˜น์€ SalesPoint๋ฅผ ๊ณ ๋ คํ•œ ์ธ๊ธฐ๋ฅผ ๋ฐ˜์˜ํ•˜์—ฌ ์ •์ˆ˜ ์ธ์ฝ”๋”ฉ

  • ๋‚ ์งœ ๊ด€๋ จ ๋ฐ์ดํ„ฐ ์ •์ˆ˜ํ˜•์œผ๋กœ ์ธ์ฝ”๋”ฉ

  • MinMaxScaling ์ง„ํ–‰

    • ๋„์„œ ๋ช…๊ณผ ์นดํ…Œ๊ณ ๋ฆฌ ๊ด€๋ จ ์—ด์€ ์ผ๊ด„์ ์œผ๋กœ ์ง„ํ–‰
    • ์ด์™ธ์˜ ์—ด์€ ๊ฐœ๋ณ„์ ์œผ๋กœ ์ง„ํ–‰

    image

    ๋„ํ‘œ.7 ์ „์ฒ˜๋ฆฌ,์Šค์ผ€์ผ๋งํ›„ ์ตœ์ข… ๋ฐ์ดํ„ฐ ์˜ˆ์‹œ

5. ๋ชจ๋ธ ํ•™์Šต ๋ฐ ๊ฒฐ๊ณผ

๊ฐœ์š”

  • ๋ชจ๋ธ ์„ฑ๋Šฅ์€ RMSE, MAPE, R2 Score ๋“ฑ์„ ํ™œ์šฉํ•˜์—ฌ ํ‰๊ฐ€
  • Random Forest Regressor, XGBoost ๋ชจ๋ธ ๊ฐ„์˜ ์„ฑ๋Šฅ์„ ๋น„๊ต
    • XGBoost์— ๋Œ€ํ•ด์„œ๋Š” GridSearchCV๋ฅผ ์ด์šฉํ•ด ๊ฐ ๋ชจ๋ธ ๋ณ„๋กœ ๊ฐ€์žฅ ๋†’์€ ์„ฑ๋Šฅ์„ ๋‚ด๋Š” hyper parameter ํƒ์ƒ‰
  • ๊ฐ ๋ชจ๋ธ ๋ณ„๋กœ 4 ์ข…๋ฅ˜์˜ ์ƒํ™ฉ์— ๋Œ€ํ•œ ์‹คํ—˜์„ ์ง„ํ–‰
    • Expt. 1 : ๋ชจ๋“  ๋…๋ฆฝ๋ณ€์ˆ˜๋ฅผ ์ด์šฉํ•ด ์ค‘๊ณ ๋„์„œ ๊ฐ€๊ฒฉ ์˜ˆ์ธก
      • ๋…๋ฆฝ๋ณ€์ˆ˜ : Category, BName, BName_sub, quality, store, Author, Author_mul, Publshr, Pdate, RglPrice, SalesPoint
    • Expt. 2 : ์„ธ์ผ์ฆˆํฌ์ธํŠธ๋ฅผ ์ œ์™ธํ•œ ๋…๋ฆฝ๋ณ€์ˆ˜๋ฅผ ์ด์šฉํ•ด ์ค‘๊ณ ๋„์„œ ๊ฐ€๊ฒฉ ์˜ˆ์ธก
    • Expt. 3 : ์„ธ์ผ์ฆˆํฌ์ธํŠธ์™€ ์ •๊ฐ€๋ฅผ ์ œ์™ธํ•œ ๋…๋ฆฝ๋ณ€์ˆ˜๋ฅผ ์ด์šฉํ•ด ์ค‘๊ณ ๋„์„œ ๊ฐ€๊ฒฉ ์˜ˆ์ธก
    • Expt. 4 : ์„ธ์ผ์ฆˆํฌ์ธํŠธ์™€ ์ •๊ฐ€๋ฅผ ์ œ์™ธํ•œ ๋…๋ฆฝ๋ณ€์ˆ˜๋ฅผ ์ด์šฉํ•ด ์ค‘๊ณ ๋„์„œ ํ• ์ธ์œจ ์˜ˆ์ธก
  • ๋ชจ๋ธ ํ‰๊ฐ€๋Š” ๋‘ ๊ฐ€์ง€ ๋ฐฉ๋ฒ•์œผ๋กœ ์ง„ํ–‰
    • test1 : ์ดˆ๊ธฐ์— test dataset์œผ๋กœ ์„ค์ •๋œ ๋ฐ์ดํ„ฐ์…‹
      • 69,385์ข…์˜ ๋„์„œ์— ๋Œ€ํ•œ ์ค‘๊ณ ๋„์„œ 156,843๊ฑด
    • test2 : train set์— ํฌํ•จ๋œ ์  ์—†๋Š” ๋„์„œ์— ๋Œ€ํ•œ ์ค‘๊ณ  ๋งค๋ฌผ๋กœ ์ œํ•œํ•œ ๋ฐ์ดํ„ฐ์…‹
      • test set์—์„œ 4,984์ข…์˜ ๋„์„œ์— ๋Œ€ํ•œ ์ค‘๊ณ ๋„์„œ 5,968๊ฑด
  • ํŒ๋งค๊ฐ€์™€ SalesPoint๋ฅผ ํ•™์Šต์—์„œ ์ œ์™ธ์‹œ์ผœ๋„ ์•ˆ์ •์ ์ธ ์„ฑ๋Šฅ์ด ๋‚˜์˜ค๋Š”์ง€ ํƒ์ƒ‰

์„ค๊ณ„

  • ๊ฐ ์‹คํ—˜์— ๋Œ€ํ•ด GridSearchCV๋ฅผ ์ง„ํ–‰ํ•œ ํ›„, ๊ฐ€์žฅ ์„ฑ์ ์ด ๋†’์•˜๋˜ 7๊ฐœ์˜ hyperparameter๋“ค์„ ํ›„๋ณด๋กœ ์‚ผ์Œ
    • ์ด 486๊ฐœ์˜ hyperparameter ์ค‘์— ์ด 14๊ฐœ์˜ ํ›„๋ณด๋ฅผ ๊ณ ๋ฆ„
  • hyperparameter
    • ๊ณ ์ • hyperparameter

      • fold = 3

      • early_stopping_rounds : num_boost_rounds์— ๋”ฐ๋ผ logisticํ•˜๊ฒŒ ๋ณ€ํ•˜๋„๋ก ์„ค์ •

        num_boost_rounds 100 1500 2500
        early_stopping_rounds 30 48 51

        ๋„ํ‘œ.8 early_stopping_rounds ์„ค์ •๊ฐ’

    • ๋Œ€์ƒ hyperparamter ๋ฐ ๋ฒ”์œ„

      • num_boost_round : [100, 1500, 2500]
      • learning_rate : [0.5, 0.3, 0.1]
      • max_depth : [4, 5, 6]
      • min_child_weight : [1, 4, 7]
      • colsample_bytree : [0.5, 1]
      • subsample : [0.4, 0.7, 1]

์šฐ์ˆ˜ hyperparameter ๋ฐ ์„ฑ์ 

  • ์•„๋ž˜์—๋Š” ๊ฐ ์‹คํ—˜ ๋ณ„๋กœ ๊ฐ€์žฅ ์„ฑ์ ์ด ๋†’์•˜๋˜ 4๊ฐœ์˜ hyperparameter์— ๋Œ€ํ•œ ํ‰๊ฐ€ ๊ฒฐ๊ณผ๋ฅผ ์ •๋ฆฌ

  • Expt. 1 : ์ œ์™ธํ•œ ๋…๋ฆฝ๋ณ€์ˆ˜ ์—†์ด ์ค‘๊ณ ๊ฐ€ ์˜ˆ์ธก

    h2 h3 h5 h6
    num_boost_round 2500 2500 2500 2500
    learning_rate 0.3 0.3 0.3 0.3
    max_depth 6 6 6 6
    min_child_weight 1 1 4 7
    colsample_bytree 0.5 1 1 0.5
    subsample 1 1 1 1
    mean valid score 0.97207 0.97172 0.97163 0.97145

    ๋„ํ‘œ.9 ์ œ์™ธํ•œ ๋…๋ฆฝ๋ณ€์ˆ˜ ์—†๋Š” ์ƒํ™ฉ์—์„œ best parameter ๋ฐ R2 score

  • Expt. 2 : SalesPoint ์ œ์™ธํ•˜๊ณ  ์ค‘๊ณ ๊ฐ€ ์˜ˆ์ธก

    h2 h3 h4 h7
    num_boost_round 2500 2500 2500 2500
    learning_rate 0.3 0.3 0.3 0.3
    max_depth 6 6 6 6
    min_child_weight 1 1 1 7
    colsample_bytree 0.5 1 1 1
    subsample 1 1 1 1
    mean valid score 0.97139 0.97110 0.97058 0.97049

    ๋„ํ‘œ.10 SalesPoint ์ œ์™ธํ•œ ์ƒํ™ฉ์—์„œ best parameter ๋ฐ R2 score

  • Expt. 3 : SalesPoint, ์ •๊ฐ€(RglrPrice) ์ œ์™ธํ•˜๊ณ  ์ค‘๊ณ ๊ฐ€ ์˜ˆ์ธก

    h9 h10 h12 h13
    num_boost_round 2500 2500 2500 2500
    learning_rate 0.5 0.5 0.5 0.5
    max_depth 6 6 6 6
    min_child_weight 1 1 4 7
    colsample_bytree 1 0.5 1 1
    subsample 1 1 1 1
    mean valid score 0.89100 0.89926 0.89525 0.89449

    ๋„ํ‘œ.11 SalesPoint, RglPrice ์ œ์™ธํ•œ ์ƒํ™ฉ์—์„œ best parameter ๋ฐ R2 score

  • Expt. 4 : SalesPoint, ์ •๊ฐ€(RglPrice) ์ œ์™ธํ•˜๊ณ  ํ• ์ธ์œจ ์˜ˆ์ธก

    h9 h3 h5 h7
    num_boost_round 2500 2500 2500 2500
    learning_rate 0.5 0.3 0.3 0.3
    max_depth 6 6 6 6
    min_child_weight 1 1 4 7
    colsample_bytree 1 1 1 1
    subsample 1 1 1 1
    mean valid score 0.79814 0.79872 0.79887 0.79823

    ๋„ํ‘œ.12 SalesPoint, RglPrice ์ œ์™ธํ•˜๊ณ  ํ• ์ธ์œจ ์˜ˆ์ธกํ•  ๋•Œ best parameter ๋ฐ R2 score

XGB ํ‰๊ฐ€์— ์ตœ์ข…์ ์œผ๋กœ ์‚ฌ์šฉ ๋œ hyperparmeter

  • GridSearchCV๋ฅผ ํ†ตํ•ด ๊ณ ๋ฅธ 14๊ฐœ์˜ hyperparmeter์™€ default ๊ฐ’(h0)์— ๋Œ€ํ•ด์„œ ํ…Œ์ŠคํŠธ ์ง„ํ–‰

    h0 h1 h2 h3 h4 h5 h6
    num_boost_round 100 1500 2500 2500 2500 2500 2500
    learning_rate 0.3 0.3 0.3 0.3 0.3 0.3 0.3
    max_depth 6 6 6 6 6 6 6
    min_child_weight 1 4 1 1 4 4 7
    colsample_bytree 1 1 0.5 1 0.5 1 0.5
    subsample 1 1 1 1 1 1 1
    h7 h8 h9 h10 h11 h12 h13 h14
    num_boost_round 2500 2500 2500 2500 2500 2500 2500 2500
    learning_rate 0.3 0.5 0.5 0.5 0.5 0.5 0.5 0.5
    max_depth 6 5 6 6 6 6 6 6
    min_child_weight 7 1 1 1 4 4 7 7
    colsample_bytree 1 1 0.5 1 0.5 1 1 0.5
    subsample 1 1 1 1 1 1 1 1

    ๋„ํ‘œ.13 XGB ํ‰๊ฐ€์—์„œ ์ตœ์ข…์ ์œผ๋กœ ์‚ฌ์šฉํ•œ hyperparmeter ๋ชฉ๋ก

ํ‰๊ฐ€ ๊ธฐ์ค€

  • metric : RMSE, MAPE, $R^2$ score
  • ๊ฐ metric์— ๋Œ€ํ•ด test1๊ณผ test2์—์„œ์˜ ๊ฐ’์— ์กฐํ™” ํ‰๊ท ์„ ์ทจํ•œ ๊ฐ’์„ ๊ธฐ์ค€์œผ๋กœ, ๊ฐ metric ๋ณ„ ์ˆœ์œ„๋ฅผ ๋งค๊น€
    • ์‚ฐ์ˆ , ๊ธฐํ•˜ ํ‰๊ท ์— ๋น„ํ•ด ์กฐํ™” ํ‰๊ท ์€ ๊ฐ’๋“ค ๊ฐ„์˜ ์ฐจ์ด๊ฐ€ ํฌ์ง€ ์•Š์€ ๊ฒƒ์„ ์ƒ๋Œ€์ ์œผ๋กœ ๋†’๊ฒŒ ํ‰๊ฐ€
    • training set์— ํฌํ•จ๋๋Š”์ง€ ์—ฌ๋ถ€์— ํฐ ์ฐจ์ด ์—†์ด ๊ณ ๋ฅด๊ฒŒ ์ž˜ ์˜ˆ์ธกํ•˜๋Š” ๋ชจ๋ธ์„ ๋ชฉํ‘œ๋กœ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์กฐํ™” ํ‰๊ท ์„ ์‚ฌ์šฉ
  • metric ๋ณ„ ์„ฑ๋Šฅ ์ˆœ์œ„ ๊ฐ„์— ์กฐํ™” ํ‰๊ท ์„ ๊ตฌํ•œ ๋’ค ์ˆœ์œ„๋ฅผ ๋ฉ”๊ฒจ, ์‹คํ—˜ ๋ณ„๋กœ ๊ฐ๊ฐ ๋ชจ๋ธ๋“ค์˜ ์ˆœ์œ„ ๋ฐ best model์„ ๊ฒฐ์ •

๋ชจ๋ธ ํ‰๊ฐ€

  • ๊ฐ€๋…์„ฑ์„ ๊ณ ๋ คํ•˜์—ฌ 15๊ฐœ์˜ hyperparameter ์ค‘ ๊ฐ ์‹คํ—˜์—์„œ 3์œ„ ์•ˆ์— ๋“  hyperparameter์˜ ๋ชจ์Œ์— default(h0)๋ฅผ ํฌํ•จํ•œ 8์ข…์— ๋Œ€ํ•œ ๊ฒฐ๊ณผ๋งŒ ์ถ”๋ ค์„œ ์ •๋ฆฌ

  • Expt.1

    • ํ•™์Šต ๊ฒฐ๊ณผ
    test1 h0 h1 h2 h3 h5 h7 h10 h12
    RMSE 791.45 624.77 610.14 605.39 612.01 611.04 629.77 631.19
    MAPE 0.08123 0.06398 0.06264 0.06101 0.06162 0.06168 0.06322 0.06335
    R2_SCORE 0.95539 0.9722 0.97349 0.9739 0.97332 0.97341 0.97175 0.97163

    ๋„ํ‘œ.14 Expt.1์—์„œ test set์œผ๋กœ ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ

    test2 h0 h1 h2 h3 h5 h7 h10 h12
    RMSE 1461.59 1461.72 1463.05 1477.96 1469.03 1499.15 1606.71 1607.75
    MAPE 0.13294 0.14177 0.15186 0.14469 0.14524 0.14276 0.1594 0.1551
    R2_SCORE 0.91175 0.91174 0.91158 0.90977 0.91085 0.90716 0.89336 0.89322

    ๋„ํ‘œ.15 Expt.1์—์„œ test set ์ค‘ train set์— ํฌํ•จ๋œ ์  ์—†๋Š” ์ข…๋ฅ˜์˜ ๋„์„œ๋“ค์— ๋Œ€ํ•ด ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ

    ํ‰๊ท  h0 h1 h2 h3 h5 h7 h10 h12
    RMSE 1026.86 875.38 861.15 858.95 864.05 868.21 904.87 906.49
    MAPE 0.10084 0.08817 0.0887 0.08583 0.08653 0.08614 0.09053 0.08996
    R2_SCORE 0.93306 0.941 0.94152 0.94074 0.94105 0.93912 0.93091 0.93078
    ์ข…ํ•ฉ์ˆœ์œ„ 11 4 1 0 2 3 9 8

    ๋„ํ‘œ.16 Expt.1์—์„œ ๋‘ ํ‰๊ฐ€์— ๋Œ€ํ•ด ์กฐํ™”ํ‰๊ท ์„ ์ทจํ•˜๊ณ  ์ˆœ์œ„๋ฅผ ๋งค๊ธด ๊ฒฐ๊ณผ

    • Best model

      • hyperparameter : h3
        • num_boost_round : 2500
        • learning_rate : 0.3
        • max_depth : 6
        • min_child_weight : 1
        • colsample_bytree : 1
        • subsample : 1

      h3_rslt ๋„ํ‘œ.17 Expt.1์˜ test1์—์„œ best model์˜ ์˜ˆ์ธก๊ฐ’ ๋ฐ ์˜ค์ฐจ ๋ถ„ํฌ์™€ ์„ฑ๋Šฅ

      h3_fi ๋„ํ‘œ.18 Expt.1์˜ best model์˜ feature importance

  • Expt.2

    • ํ•™์Šต ๊ฒฐ๊ณผ
    test1 h0 h1 h2 h3 h5 h7 h10 h12
    RMSE 811.29 627.17 617.09 622.17 610.71 611.44 651.01 651.38
    MAPE 0.08259 0.06514 0.06445 0.06215 0.06243 0.06266 0.06339 0.06427
    R2_SCORE 0.95312 0.97199 0.97288 0.97243 0.97344 0.97337 0.96982 0.96978

    ๋„ํ‘œ.19 Expt.2์—์„œ test set์œผ๋กœ ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ

    test2 h0 h1 h2 h3 h5 h7 h10 h12
    RMSE 1569.41 1438.37 1482.96 1588.16 1440.4 1445.24 1746.74 1718.45
    MAPE 0.13521 0.1431 0.15337 0.14704 0.14448 0.14406 0.15631 0.15414
    R2_SCORE 0.89826 0.91454 0.90916 0.89581 0.91429 0.91372 0.87396 0.87801

    ๋„ํ‘œ.20 Expt.2์—์„œ test set ์ค‘ train set์— ํฌํ•จ๋œ ์  ์—†๋Š” ์ข…๋ฅ˜์˜ ๋„์„œ๋“ค์— ๋Œ€ํ•ด ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ

    ํ‰๊ท  h0 h1 h2 h3 h5 h7 h10 h12
    RMSE 1069.64 873.48 871.52 894.07 857.75 859.33 948.51 944.67
    MAPE 0.10254 0.08953 0.09076 0.08737 0.08718 0.08733 0.0902 0.09072
    R2_SCORE 0.92488 0.94239 0.93994 0.93255 0.94294 0.9426 0.9194 0.92162
    ์ข…ํ•ฉ์ˆœ์œ„ 14 2 3 4 0 1 8 10

    ๋„ํ‘œ.21 Expt.2์—์„œ ๋‘ ํ‰๊ฐ€์— ๋Œ€ํ•ด ์กฐํ™”ํ‰๊ท ์„ ์ทจํ•˜๊ณ  ์ˆœ์œ„๋ฅผ ๋งค๊ธด ๊ฒฐ๊ณผ

    • Best model

      • hyperparameter : h5
        • num_boost_round : 2500
        • learning_rate : 0.3
        • max_depth : 6
        • min_child_weight : 4
        • colsample_bytree : 1
        • subsample : 1

      h5_rslt ๋„ํ‘œ.22 Expt.2์˜ test1์—์„œ best model์˜ ์˜ˆ์ธก๊ฐ’ ๋ฐ ์˜ค์ฐจ ๋ถ„ํฌ์™€ ์„ฑ๋Šฅ

      h5_fi ๋„ํ‘œ.23 Expt.2 ์˜ best model์˜ feature importance

  • Expt.3

    • ํ•™์Šต ๊ฒฐ๊ณผ
    test1 h0 h1 h2 h3 h5 h7 h10 h12
    RMSE 1978.75 1173.79 1081.24 1030.94 1040.43 1060.22 981.41 995.98
    MAPE 0.1986 0.12 0.10984 0.10306 0.10446 0.10569 0.09728 0.09868
    R2_SCORE 0.72113 0.90187 0.91673 0.9243 0.9229 0.91994 0.9314 0.92935

    ๋„ํ‘œ.24 Expt.3์—์„œ test set์œผ๋กœ ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ

    test2 h0 h1 h2 h3 h5 h7 h10 h12
    RMSE 3324.69 3189.42 3262.41 3298.67 3180.58 3228.48 3428.1 3377.55
    MAPE 0.40055 0.38649 0.38991 0.39703 0.3851 0.38697 0.42367 0.42468
    R2_SCORE 0.54339 0.57979 0.56034 0.55051 0.58212 0.56944 0.51455 0.52876

    ๋„ํ‘œ.25 Expt.3์—์„œ test set ์ค‘ train set์— ํฌํ•จ๋œ ์  ์—†๋Š” ์ข…๋ฅ˜์˜ ๋„์„œ๋“ค์— ๋Œ€ํ•ด ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ

    ํ‰๊ท  h0 h1 h2 h3 h5 h7 h10 h12
    RMSE 2480.93 1716.03 1624.19 1570.92 1567.95 1596.25 1525.96 1538.33
    MAPE 0.26554 0.18313 0.17139 0.16364 0.16434 0.16603 0.15823 0.16015
    R2_SCORE 0.61977 0.70583 0.69554 0.69004 0.71393 0.70345 0.66289 0.67403
    ์ข…ํ•ฉ์ˆœ์œ„ 14 7 10 5 1 6 0 2

    ๋„ํ‘œ.26 Expt.3์—์„œ ๋‘ ํ‰๊ฐ€์— ๋Œ€ํ•ด ์กฐํ™”ํ‰๊ท ์„ ์ทจํ•˜๊ณ  ์ˆœ์œ„๋ฅผ ๋งค๊ธด ๊ฒฐ๊ณผ

    • Best model

      • hyperparameter : h10
        • num_boost_round : 2500
        • learning_rate : 0.5
        • max_depth : 6
        • min_child_weight : 1
        • colsample_bytree : 1
        • subsample : 1

      h10_rslt ๋„ํ‘œ.27 Expt.2์˜ test1์—์„œ best model์˜ ์˜ˆ์ธก๊ฐ’ ๋ฐ ์˜ค์ฐจ ๋ถ„ํฌ์™€ ์„ฑ๋Šฅ

      h10_fi ๋„ํ‘œ.28 Expt.3 ์˜ best model์˜ feature importance

6. ๊ฒฐ๊ณผ ๋ถ„์„

Expt.1 Expt.2 Expt.3
hyperparameter h3 h5 h10
RMSE 858.95 857.75 1525.96
MAPE 0.08583 0.08718 0.15823
R2 SCORE 0.94074 0.94294 0.66289

๋„ํ‘œ.29 ๊ฐ ์‹คํ—˜ ๋ณ„ best model๊ณผ ์„ฑ๋Šฅ

  • feature importance ๋ถ„์„ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ค‘๊ณ ๊ฐ€ ์˜ˆ์ธก์— ์ •๊ฐ€, ๋„์„œ ๋ช…, ์ค‘๊ณ  ๋“ฑ๊ธ‰ ๋“ฑ์ด ์ฃผ์š”ํ•œ ์—ญํ• ์„ ํ•˜๋Š” ๊ฒƒ์„ ํ™•์ธ
  • ์„ธ์ผ์ฆˆ ํฌ์ธํŠธ๊ฐ€ ์žˆ์„ ๋•Œ(Expt.1)๊ฐ€ ์—†์„ ๋•Œ(Expt.2, Expt.3)์— ๋น„ํ•ด, default hyperparameter์˜ ๋‹จ์ˆœํ•œ ๋ชจ๋ธ์—์„œ๋„ ํ•™์Šต์—์„œ ๋ณธ ์  ์—†๋Š” ์ข…๋ฅ˜์˜ ๋„์„œ(test2)์— ๋Œ€ํ•ด์„œ๋„ ์˜ˆ์ธก ์„ฑ๋Šฅ์˜ ์ฐจ์ด๊ฐ€ ์ ์—ˆ์Œ
    • default hyperparameter๊ฐ€ ์•„๋‹Œ ๊ฒฝ์šฐ, ์„ธ์ผ์ฆˆ ํฌ์ธํŠธ๋ฅผ ์ œ์™ธํ•ด๋„ ํ•™์Šต๋œ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์— ํฐ ์ฐจ์ด๊ฐ€ ์—†์—ˆ์Œ
    • h3์˜ ๊ฒฝ์šฐ R2 SCORE๊ณผ RMSE๋กœ ๋ณด์ด๋Š” ์„ฑ๋Šฅ์ด ๋‹ค๋ฅธ hyperparameter์— ๋น„ํ•ด ๋–จ์–ด์ ธ๋„, MAPE์—์„œ๋Š” ๋” ๋†’์•˜์Œ
      • test1์—์„œ๋งŒ MAPE์˜ ์„ฑ๋Šฅ์ด ๋‹ค๋ฅธ ๋ชจ๋ธ์— ๋น„ํ•ด์„œ ์ข‹์•˜๋˜ ๊ฒƒ์ด ์•„๋‹ˆ๊ธฐ ๋•Œ๋ฌธ์—, h1,h5,h7์˜ ๊ณผ์ ํ•ฉ์ด ๋ฐฉ์ง€๋œ ๋ชจ๋ธ์„ ๋”์šฑ ํŠœ๋‹ํ•˜๋ฉด ์„ฑ๋Šฅ์„ ์˜ฌ๋ฆด ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋ผ ์œ ์ถ”ํ•  ์ˆ˜ ์žˆ์Œ
  • num_boost_round๊ฐ€ ํฐ ๋ชจ๋ธ์ด ์ „๋ฐ˜์ ์œผ๋กœ ์„ฑ๋Šฅ์ด ์ข‹์•˜์œผ๋‚˜, min_child_weight, colsample_bytree ๋“ฑ์œผ๋กœ ๊ณผ์ ํ•ฉ์— ๋Œ€ํ•ด ๋ฐฉ์ง€๋œ ๋ชจ๋ธ๋“ค์ด Expt.1, Expt.2์˜ test2์—์„œ ๋” ์•ˆ์ •์ ์ธ ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์˜จ ๊ฒƒ์„ ํ™•์ธ
    • h1,h5,h7์˜ ๊ฒฝ์šฐ๋Š” Expt.2์™€ Expt.1์—์„œ์˜ ์„ฑ์ ์— ํฐ ์ฐจ์ด๊ฐ€ ์—†๊ฑฐ๋‚˜, Expt.2์—์„œ ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Œ
    • ์ •๊ฐ€๊ฐ€ ํฌํ•จ๋˜์ง€ ์•Š์€ ์ƒํ™ฉ์—์„œ ํ• ์ธ์œจ์„ ์ž˜ ๋งž์ถ”๋Š”(Expt.4์—์„œ ์„ฑ๋Šฅ์„ ๋ณด์ธ) hyperparameter๊ฐ€ Expt.1, Expt.2์˜ test2์—์„œ๋„ ์ „๋ฐ˜์ ์œผ๋กœ ๊ฐ•๊ฑดํ•  ๊ฒƒ์ด๋ผ๋Š” ์˜ˆ์ƒ์ด ์•„์ฃผ ํ‹€๋ฆฌ์ง€๋Š” ์•Š์•˜์Œ
  • GridSearchCV ๊ณผ์ • ์ค‘์— ๋” ๋†’์€ validation ์„ฑ์ ์„ ๋ณด์˜€๋˜ ๊ฒฝ์šฐ๊ฐ€ ํ•ญ์ƒ ์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€๋Š” ์•Š์•˜์Œ
    • ๋‹ค๋งŒ ์ƒ์œ„๊ถŒ์˜ hyperparameter๊ฐ€ ์ƒ์œ„๊ถŒ์˜ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋Š” ๊ฒƒ์„ ํ™•์ธํ–ˆ์Œ
    • ๋˜ํ•œ test2์˜ ์„ฑ๋Šฅ์— ๋งž์ถฐ์„œ ํŠœ๋‹ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” test2์— ๋งž๊ฒŒ ๋งŒ๋“ค์–ด์ง„ validation set์„ ์„ค์ •ํ•ด์•ผ ํ•จ์„ ํ™•์ธ
  • ์ •๊ฐ€๋ฅผ ํ•™์Šต ๋ฐ์ดํ„ฐ์— ํฌํ•จํ•˜์ง€ ์•Š์•˜์„ ๋•Œ, train set์— ๋“ฑ์žฅ ํ•œ ์  ์—†๋Š” ์ข…๋ฅ˜์˜ ๋„์„œ์— ๋Œ€ํ•ด์„œ๋Š” ์ค‘๊ณ  ํŒ๋งค๊ฐ€ ์˜ˆ์ธก ์„ฑ๋Šฅ์ด ๋งŽ์ด ๋–จ์–ด์ง€๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌ
    • ์ •๊ฐ€๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ๋Š” ๊ฒฝ์šฐ best model์—์„œ total_gain ๊ธฐ์ค€ feature importance๊ฐ€ ๋งค์šฐ ํฐ ๊ฒƒ์„ ํ™•์ธ ํ•  ์ˆ˜ ์žˆ์Œ
    • Expt.1, Expt.2์—์„œ learning rate๊ฐ€ ๋†’์€ hyperparameter๋Š” ๊ณผ์ ํ•ฉ์œผ๋กœ ์„ฑ๋Šฅ์ด ์ข‹์ง€ ์•Š์œผ๋‚˜, Expt.3์—์„œ๋Š” ๋” ๋ณต์žกํ•œ ๋ชจ๋ธ์ด ํ•„์š”ํ•˜์—ฌ ์„ฑ๋Šฅ์ด ๋” ์ž˜๋‚˜์˜จ ๊ฒƒ์œผ๋กœ ์œ ์ถ”ํ•  ์ˆ˜ ์žˆ์Œ

7. ๊ฒฐ๋ก  ๋ฐ ํ•œ๊ณ„

๊ฒฐ๋ก 

  • default hyperparameter์˜ XGBoost ๋“ฑ ๋‹จ์ˆœํ•œ ๋ชจ๋ธ๋กœ๋„ ๋†’์€ ์„ฑ๋Šฅ์˜ ๋ชจ๋ธ ๊ฐœ๋ฐœ ๊ฐ€๋Šฅํ•œ ๋ฐ์ดํ„ฐ ์…‹
    • ๊ฐ„๋‹จํ•œ ๋ชจ๋ธ๊ณผ default hyperparmeter๋กœ๋„ ๋†’์€ ์„ฑ๋Šฅ์ด ๋‚˜์˜ค๋Š” ๊ฒƒ์œผ๋กœ ๋ณด์•„, ์•Œ๋ผ๋”˜ ์ค‘๊ณ ๋งค์žฅ์—์„œ ์ค‘๊ณ  ๋„์„œ ํŒ๋งค ๊ฐ€๊ฒฉ์„ ์‚ฐ์ •ํ•˜๋Š” ๊ฐ€์ด๋“œ๋ผ์ธ์ด ์žˆ์„ ๊ฒƒ์ด๋ผ ์ถ”์ธก ๊ฐ€๋Šฅ
  • ๋„์„œ ๋ช…, ์ค‘๊ณ  ๋“ฑ๊ธ‰, ์ •๊ฐ€, ์ถœํŒ์ผ, ์ €์ž ๋“ฑ ์‹ค๋ฌผ ์ค‘๊ณ  ๋„์„œ์—์„œ ๊ฐ„๋‹จํžˆ ํ™•์ธ ๊ฐ€๋Šฅํ•œ ํŠน์ง•๋งŒ์œผ๋กœ๋„ ๋†’์€ ์„ฑ๋Šฅ์ด ์ถฉ๋ถ„ํžˆ ๊ฐ€๋Šฅ
  • ์„ธ์ผ์ฆˆ ํฌ์ธํŠธ๊ฐ€ ์ค‘๊ณ ๊ฐ€ ์˜ˆ์ธก์— ํฐ ๋„์›€์„ ์ค„ ์ˆ˜ ์žˆ์œผ๋‚˜, ๋” ๋†’์€ ์„ฑ๋Šฅ์˜ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋ชจ๋ธ์˜ ๋ณต์žก๋„๋ฅผ ๋†’ํžˆ๋˜ ๊ณผ์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•˜๋Š” ์ชฝ์ด ๋” ์œ ๋ฆฌํ•œ ๊ฒƒ์„ ํ™•์ธ ํ–ˆ์Œ
  • train set์—์„œ ์ค‘๊ณ  ์‹œ์„ธ๋ฅผ ํ•™์Šตํ•œ ์  ์—†๋Š” ์ข…๋ฅ˜์˜ ๋„์„œ์— ๋Œ€ํ•œ ์ค‘๊ณ ๊ฐ€์— ๋Œ€ํ•ด์„œ๋„ ์ข‹์€ ์„ฑ๋Šฅ์œผ๋กœ ์˜ˆ์ธกํ•œ ๊ฒƒ, best model๋“ค์˜ feature importance ๋“ฑ์„ ๊ณ ๋ คํ•˜๋ฉด, NLPํ•œ ๊ฒฐ๊ณผ๊ฐ€ ๋ชจ๋ธ์— ์ถฉ๋ถ„ํžˆ ๋ฐ˜์˜๋˜์—ˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ์Œ
  • validation set์„ ํ†ตํ•ด hyperparameter ํŠœ๋‹์„ ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š”, test set์˜ ์„ฑ์งˆ์„ ์ž˜ ๋Œ€ํ‘œํ•ด์•ผ ํ•จ์„ ํ™•์ธํ•จ
    • ๋‹ค๋งŒ validation set๊ณผ ๋น„์Šทํ•œ ์„ฑ์งˆ์„ ๊ฐ€์ง€์ง€ ์•Š์€ test set์„ ์ด์šฉํ•˜์—ฌ ์–ด๋–ค ๋ชจ๋ธ์ด ๋” ๊ฐ•๊ฑดํ• ์ง€ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์€ ์˜๋ฏธ๊ฐ€ ์žˆ์Œ
  • Neural Network๋ฅผ ์ด์šฉํ•œ ๋” ๋ณต์žกํ•œ ๋ชจ๋ธ์„ ์ด์šฉํ•˜๋ฉด, ์ •๊ฐ€ ์—†์ด ์ค‘๊ณ ๋„์„œ ํ• ์ธ์œจ์„ ์˜ˆ์ธกํ•˜๊ฑฐ๋‚˜ ๋„์„œ ์ •๋ณด๋กœ ์ •๊ฐ€๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ชจ๋ธ์„ ๋งŒ๋“ค ๋•Œ ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์ผ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋ผ ์ถ”์ธก

ํ•œ๊ณ„ ํ‰๊ฐ€

  • Grid Search๋ณด๋‹ค Bayesian Search ๋“ฑ ๋ณด๋‹ค ํšจ์œจ์ ์ธ hyperparameter ํƒ์ƒ‰๋ฒ•์„ ์ด์šฉํ–ˆ์œผ๋ฉด, ์—ฐ์‚ฐ๋Ÿ‰์„ ๋ณด๋‹ค ํšจ์œจ์ ์œผ๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์—ˆ์„ ๊ฒƒ์ด๋ผ ๊ธฐ๋Œ€
  • ์ •๊ฐ€๋ฅผ ๋ฐ์ดํ„ฐ ์…‹์— ํฌํ•จํ•˜์ง€ ์•Š๋Š” ์ƒํ™ฉ์—์„œ๋„ ์„ฑ๋Šฅ์„ ๋†’ํžˆ๋Š” ๊ฒƒ์ด ๊ฐ€๋Šฅํ•  ๊ฒƒ ๊ฐ™์œผ๋‚˜ ์‹œ๋„ํ•˜์ง€ ๋ชปํ–ˆ์Œ
    • ์ •๊ฐ€๋ฅผ ํฌํ•จํ•˜์ง€ ์•Š์•˜์„ ๋•Œ, train set์— ์—†๋Š” ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ๋Š” ์ค‘๊ณ  ํŒ๋งค๊ฐ€ ์˜ˆ์ธก ์„ฑ๋Šฅ์ด ๋งŽ์ด ๋–จ์–ด์ง€๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌ
    • XGB๋กœ๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ๊ณ , Neural Network๋ฅผ ์ด์šฉํ•ด์•ผ ํ•  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ
  • ์ €์ž๋ช…, ์ถœํŒ์‚ฌ๋ฅผ ์ธ์ฝ”๋”ฉ ์ค‘ ๊ธฐํƒ€ ํ•ญ๋ชฉ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ๋•Œ threshold ๊ธฐ์ค€์˜ ๊ตฌ์ฒด์ ์ธ ๊ทผ๊ฑฐ๋ฅผ ์ œ์‹œํ•˜์ง€ ๋ชป ํ•จ
    • ์•Œ๋ผ๋”˜์˜ Sales Point ๋ฐ ๊ฐœ์ธ์  ๊ฒฝํ—˜์—์„œ์˜ ์ธ์ง€๋„๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๊ฒฐ์ •
    • ์ถ”๊ฐ€์ ์ธ ์กฐ์‚ฌ๋ฅผ ํ†ตํ•ด ๋” ๊ฐ๊ด€์ ์ด๊ณ  ์ œ์‹œ ๊ฐ€๋Šฅํ•œ ๊ทผ๊ฑฐ ํ™•๋ฆฝ ๊ฐ€๋Šฅ

8. ์ถ”ํ›„ ๊ณผ์ œ

  • RNN ๋“ฑ Neural Network๋ฅผ ์ด์šฉํ•œ ํšŒ๊ท€ ๋ชจ๋ธ ๊ฐœ๋ฐœ
  • ์ค‘๊ณ  ํŒ๋งค๊ฐ€ ์˜ˆ์ธก ๋ชจ๋ธ ์™ธ์—๋„ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ ๊ฐœ๋ฐœ ๊ฐ€๋Šฅ
    • ์นดํ…Œ๊ณ ๋ฆฌ์™€ ๋„์„œ ๋ช…, ์ถœํŒ์‚ฌ, ์ถœ๊ฐ„ ์—ฐ๋„ ๋“ฑ์˜ ์ •๋ณด๋กœ ์ •๊ฐ€ ์˜ˆ์ธก
    • ์นดํ…Œ๊ณ ๋ฆฌ์™€ ๋„์„œ ๋ช…, ์ถœํŒ์‚ฌ, ์ •๊ฐ€ ๋“ฑ์˜ ์ •๋ณด๋กœ ์ถœ๊ฐ„ ์—ฐ๋„ ์˜ˆ์ธก
    • ๋„์„œ ์ •๋ณด ๋ฐ ์ค‘๊ณ  ์‹œ์žฅ์—์„œ์˜ ๊ฐ€๊ฒฉ์„ ๋ฐ”ํƒ•์œผ๋กœ ์•Œ๋ผ๋”˜์˜ SalesPoint ์‚ฐ์ •๋ฒ• ์ถ”์ •
  • ๋ฐฐํฌ ๊ฐ€๋Šฅํ•œ ์•Œ๋ผ๋”˜ ์ค‘๊ณ ๋„์„œ ๋ฐ์ดํ„ฐ ์…‹์œผ๋กœ ์ •๋ฆฌํ•˜์—ฌ ๊ณต๊ฐœ
  • ๋ฒ ์ŠคํŠธ ์…€๋Ÿฌ ์ด์™ธ์˜ ๋„์„œ, ๊ณต์‹ ๋งค์ ์—์„œ ํŒ๋งคํ•˜์ง€ ์•Š๋Š” ๋„์„œ ๋“ฑ์œผ๋กœ ๋ฐ์ดํ„ฐ ์…‹ ๋ฐ ํ”„๋กœ์ ํŠธ ํ™•์žฅ
    • ๋ฒ ์ŠคํŠธ ์…€๋Ÿฌ์— ํฌํ•จ๋œ ์  ์—†๋Š” ๋„์„œ๋„ ๋Œ€์ƒ์œผ๋กœ ํ•˜๊ธฐ ์œ„ํ•œ ํฌ๋กค๋ง ๋ฐฉ๋ฒ• ๊ฐœ๋ฐœ ํ•„์š”

9. ์ฐธ๊ณ  ๋ฌธํ—Œ

About

Built Aladin book datasets and predict price of used-books

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors