전체 글 11

[하둡완벽가이드] ch.1 하둡과의 만남

"하둡 완벽 가이드"를 기반으로 공부하는 글입니다. 하둡 완벽 가이드 - YES24 ★ 곁에 두고 찾아보는 하둡 최고의 바이블 개정 4판 전격 출간! 하둡 프로젝트의 커미터이자 핵심 설계자인 톰 화이트가 집필한 이 책은 하둡 창시자인 더그 커팅을 비롯한 프로젝트별 전문가 www.yes24.com 분산, 병렬 처리의 개요 쓰기와 읽기의 처리시간을 줄이는 확실한 방법은 여러개의 디스크에서 동시에 데이터를 읽고 쓰는 것이다. = 병렬 처리 문제점 하드웨어 장애 많은 하드웨어를 쓸 수록 장애 포인트는 늘어난다. 데이터 손실 방지를 위해 데이터를 여러곳에 복재해야 한다. = RAID 분할 데이터의 결합 데이터의 정합성을 지키면서, 많은 분할 데이터를 합치는 것은 쉬운일이 아니다. 하둡의 맵리듀스는 Key-valu..

공부/Hadoop 2022.11.07

하둡 완벽 가이드

"하둡 완벽 가이드" 책으로 하둡 공부를 시작하려고 한다. http://www.yes24.com/Product/Goods/36151445 하둡 완벽 가이드 - YES24 ★ 곁에 두고 찾아보는 하둡 최고의 바이블 개정 4판 전격 출간! 하둡 프로젝트의 커미터이자 핵심 설계자인 톰 화이트가 집필한 이 책은 하둡 창시자인 더그 커팅을 비롯한 프로젝트별 전문가 www.yes24.com 정말 운 좋게 당근에서 새책을 15,000원에 가져올 수 있었다. 스타트가 좋구먼. 공부는 하루에 1~2 챕터씩 해서 2주동안 끝내는 것이 목표다. hang in there, It's gonna be okay

공부/Hadoop 2022.11.07

AWS Forecast를 활용해 월마트 매출 예측해보기(3)

2. 준비한 데이터로 AI학습시키기 데이터가 준비되었으니 이제 데이터를 학습해 미래를 예측할 수 있는 ‘모델’을 만들어낼 차례입니다. 아마존닷컴에서 사용하는 DeepAR알고리즘 외에 ARIMA, mqrnn, prophet등11가지의 학습 알고리즘을 제공해주지만 저는 AutoML을 사용하겠습니다. AutoML은 학습 시간도 가장 오래 걸리고, 어떤 알고리즘을 사용해 학습했는지 알 수는 없습니다. 하지만 언제나 가장 높은 정확도를 가지기 때문에 의심 없이 사용하도록 하겠습니다. (automl 선택시 훈련시간 약 8시간, 배포시간 약 4시간이 소요됩니다. 나머지모델은 훈련과 배포가 약 2~4시간 소요됩니다.) 3. 결과 확인하기 (예측값 확인하기) 학습과 배포가 완료되면 다음과 같이 Active 상태가 됩니다..

AWS/AWS 정보 2022.11.07

AWS Forecast를 활용해 월마트 매출 예측해보기(2)

준비물 - 데이터, AWS Forecast, AWS S3(파일저장소), AWS Sagemaker(옵션) 1. 데이터 준비하기 https://www.kaggle.com/c/walmart-recruiting-store-sales-forecasting Walmart Recruiting - Store Sales Forecasting | Kaggle www.kaggle.com 월마트는 채용목적으로 Kaggle에 Recruiting Competition을 진행한 적이 있습니다. 저는 이때 사용된 월마트 매출 데이터를 준비했습니다. 45개 지점에 대한 2010년 2월 ~ 2011년 12월까지의 매출데이터이며, 건수는 421,571 건입니다. 이제 이 데이터들을 forecast에 업로드할 형식으로 데이터를 정제가 필요..

AWS/AWS 정보 2022.06.02

AWS Forecast를 활용해 월마트 매출 예측해보기(1)

오늘 저는 Kaggle에서 진행했던 월마트의 Sales Forecasting 챌린지 데이터로 월마트의 매출을 예측해보도록 하겠습니다. AWS Forecast란? 라스베가스에서 열린 AWS re:Invent 2018에서 발표된 서비스입니다. 컨셉은 “머신러닝 지식이 없어도 누구나 프로그래밍 없이 미래 데이터를 예측할 수 있다”입니다. 또한, amazon.com에서 실제로 사용하고 있는 검증된 알고리즘을 사용할 수 있다는 장점이 있습니다. Forecast의 사용방법은 아주 간단합니다. 아래 3단계만 수행하시면 됩니다 저희는 문제와 답안이 적힌 문제집을 준비하고, AI가 이 문제집을 보면서 문제만 넣으면 답을 알려주는 model을 생성합니다. 저희는 이 모델로 새로운 문제를 넣었을 때 답안이 맞는지 확인하면 ..

AWS/AWS 정보 2022.06.02

AWS SageMaker Notebook 사용 이점

1. 개발시간(업무시간)만 사용 - 24시간 비용을 내야하는 개발서버 대신, 사용시간에만 비용지불하는 sagemaker 인스턴스 활용 AI 개발 특성상 큰 리소스가 필요하므로, 비용적인 측면에서 개발서버보다 sagemaker가 우세 2. 빠른 개발환경 구축 가능 - R, Python, spark 등의 여러 환경을 aws에서 구축하여 제공하기 때문에 초기 개발환경 구축시간 및 구축인력 단축 가능 - 단기 poc task가 많아 개발자의 in/out이 잦은데, 그때마다 새롭게 개발환경을 구성할 필요 없이 notebook instance를 신규 생성하면 끝. 이를통해 인력 투입이 빠르게 가능해짐 3. scale in/out의 편의성 - 개발서버의 경우 자원 증설 및 단축시 downtime 발생하여, 자원 증설..

AWS/AWS 정보 2022.06.02

AWS Solution Architect Professional 벼락치기 후기(22년 06월)

벼르고벼르던 AWS Solution Architect Pro를 땄다. SAA따고 바로 보려했는데 1년뒤에 따다니.... 22년 6월1일에 합격한 따끈따끈한 후기를 남긴다. AWS SAP 공부방법 준비기간은 1주.. 덤프를 기준으로 집중 암기했다. ^^ 하루 5-6시간정도 공부했다. 내가 공부한 덤프는 BrainCert에서 $30에 판매중인 덤프다. 해당 덤프가 최신화도 잘 돼있고 적중률도 높다고해서 구매했다~~~ AWS Certified Solutions Architect Professional Practice Exams The AWS Certified Solutions Architect – Professional SAP-C01 exam validates advanced technical skills a..

JupyterNotebook dataframe Column/row 전체 출력하기 + 개발 화면 넓게 쓰는 방법

Jupyternotebook의 경우 부하를 줄이기 위해 default로 일부 컬럼만 출력되고 나머지 컬럼은 출력되지 않는다. 그래서, 이를 해결하기 위해 Pandas에는 Dataframe의 모든 열과 모든 행을 출력할 수 있는 명령어가 있다. 1. 전체 열 출력 명령어 pd.set_option('display.max_columns', 출력할 열 수) pd.set_option('display.max_columns', 200) 명령어 적용 전 명령어 적용 후 2. 모든 행 출력 명령어 pd.set_option('display.max_row', 출력할 행 수) pd.set_option('display.max_row', 200) 명령어 적용 전 명령어 적용 후 3. 개발화면 넓게 늘리기 명령어를 사용하여 행과 ..

정보/Python 2022.01.21

AWS 요금 계산기 사용방법 - EC2/S3/RDS 비용 추산

AWS는 비용을 사전에 쉽게 계산해볼 수 있도록 월별 비용 계산기 서비스를 제공하고 있다. 계산기는 신, 구 두가지가 있는데, 신계산기는 조금 빠르지만 UI가 직관적이지는 않아서 나는 구 계산기를 사용하고 있다. 신규 서비스는 없는경우도 있지만, 가장 흔하게 사용하는 서비스는 거의 다 있으니 사전에 비용검토하기에 아주 편하다. 신 계산기 AWS Pricing Calculator calculator.aws 구 계산기 Amazon Web Services Simple Monthly Calculator This Calculator provides an estimate of usage charges for AWS services based on certain information you provide. Month..

AWS/AWS 정보 2022.01.20