준비물
- 데이터, AWS Forecast, AWS S3(파일저장소), AWS Sagemaker(옵션)
1. 데이터 준비하기
https://www.kaggle.com/c/walmart-recruiting-store-sales-forecasting
Walmart Recruiting - Store Sales Forecasting | Kaggle
www.kaggle.com
월마트는 채용목적으로 Kaggle에 Recruiting Competition을 진행한 적이 있습니다. 저는 이때 사용된 월마트 매출 데이터를 준비했습니다. 45개 지점에 대한 2010년 2월 ~ 2011년 12월까지의 매출데이터이며, 건수는 421,571 건입니다.
이제 이 데이터들을 forecast에 업로드할 형식으로 데이터를 정제가 필요합니다. 저는 python으로 정제했지만, DB에 저장되어 있다면, 좀더 간편하게 데이터를 뽑아내고 정제할 수 있겠죠? 또한, 엑셀로 정제가 가능합니다. 각자 편하신 도구를 사용하시면 됩니다.
Forecast에서 사용하는 데이터는 타겟데이터, 메타데이터, 관련(related)데이터 3가지로 나누어져 있습니다.
target데이터는 실제로 forecast를 이용해 예측할 데이터의 과거 데이터이며 필수 데이터입니다.
meta데이터, related데이터는 OptionalData입니다. 공휴일, 색상, 브랜드, 프로모션 여부, 재고 수, 품절여부, 수익 등의 데이터가 해당됩니다. 해당데이터와 타겟데이터를 함께 학습시킬 시 예측 정확도가 향상하게 되니, 여건이 된다면 함께 사용하는 걸 추천드립니다. 하지만 옵션은 옵션일 뿐! 가장 중요한 것은 타겟데이터임을 염두하시기 바랍니다.
데이터 정제하기
데이터의 구성이 어떻게 되어있는지 보겠습니다. 일단 다운 받은 데이터를 하나의 Dataset으로 구성했습니다. 각 지점의 매출과 온도, 유가, 소비자물가지수, 휴일유무, 매장타입과 사이즈가 있습니다. 이제 이 데이터를 목적에 맞게 나눠야 합니다.
Target, Related, Meta Data만들기
전 매출을 예측할 것이기 때문에, 날짜, 점포아이디, 매출을 타겟 데이터로 사용하고 나머지 값은 연관데이터로 사용하겠습니다. 엑셀에서 간단하게 필요 없는 열은 지워주시고, 각 컬럼의 헤더를 영어로 변경한 뒤 csv 확장자로 저장해주시면 됩니다. (csv는 필수입니다)
S3에 데이터 업로드하기
이렇게 준비한 데이터들을 AWS S3에 업로드합니다. S3는 aws에서 쓰는 파일 저장소로 엔드라이브나 구글 클라우드 같은 개념으로 생각하시면 됩니다. S3에 접속 후 버킷을 생성한 뒤 해당 데이터들을 업로드 하시면 됩니다.
Forecast에 데이터 import하기
지금부터 준비된 데이터로 AI가 학습할 수 있도록 Forecast에 데이터셋을 구성하겠습니다. Forecast에 접속 후 첫번째 단계인 Create Dataset Group을 클릭하여 target data와 related data를 import합니다.
데이터 import는 약 10분 정도 소요되며 완료 후 Active 상태가 됩니다. 여기까지 오셨으면 모든 데이터 준비는 완료되었습니다.
다음 포스팅은 이제 데이터를 기반으로 학습하는 과정을 보여드리겠습니다.
'AWS > AWS 정보' 카테고리의 다른 글
AWS Forecast를 활용해 월마트 매출 예측해보기(3) (0) | 2022.11.07 |
---|---|
AWS Forecast를 활용해 월마트 매출 예측해보기(1) (0) | 2022.06.02 |
AWS SageMaker Notebook 사용 이점 (0) | 2022.06.02 |
AWS 요금 계산기 사용방법 - EC2/S3/RDS 비용 추산 (0) | 2022.01.20 |