Data-Science
-
[1week] machine learning overall scenario & end to end codeData-Science/ml&dl lecture 2021. 4. 9. 20:22
0. Goal of this lecture 1. Overall scenario of data analysis (ml/dl) 1.1 what is Machine Learning & Deep learning 1.2 kinds of ml supervised learning / unsupervised / reinforcement 1.3 problems in ml (point of Data) not enough data doesn't have enough Representativeness . bad quality data (error ,noisy , outlier) not related features (Feature engineering can solve this problem) (point of Mod..
-
Data Analysis process; Feature selection methods (in Feature Engineering)]Data-Science 2020. 11. 18. 00:38
Data Analysis process Project Scoping(Define Problem) Data Collection EDA Data processing Cleaning (Drop, Drop duplicated row, Handling Missing value ) Transforming (Rename, Autoencoding) Normalization (Min-Max, detect outlier) Feature Engineering Modeling Evaluation Project Delivery / Insights Handling Missing values Deletion Pair-wise deletion List-wise deletion Drop entire column deletion Imp..
-
모수적 방법 비 모수적 방법 (베이지안 방법)Data-Science/Statistics 2020. 5. 15. 08:52
모수적 방법 모집단의 통계 모델을 가정 표본의 개수가 많아 표본 모델을 가정 사용 기법 표본 평균의 분포 정규분포도 따라(by clt) 비모수적 방법 통계 모델을 가정할수 없음 표본의 개수가 너무 작음. 다른 통계량을 알고싶을때 사용기법 re-sampling (뽑은 표본에서 복원추출로 여러번 다시 표본을 만듦) http://www.hellodatascience.com/?p=366 데이터과학 프로세스(5): 통계적 추론 “통계로 거짓말을 하기는 쉽지만 진실을 말하기는 어렵다.” – 안드레아 덩켈스(Andrejs Dunkels) 지난 글에서 살펴본 탐험적 데이터 분석을 통해서 주어진 데이터의 다양한 측면을 관찰할 수 있�� www.hellodatascience.com ====추론 방법 비모수 추론 모수 추론..
-
Poisson Distribution // 일전 구간내에 x 번 일어날 확률 분포 (포아송)Data-Science/Statistics 2020. 5. 8. 18:03
단위구간 내에 이벤트가 x 번 일어날 확률. 이산확률 분포이다. 상황 : 커피숍의 아메리카 하루 구매수에 대해서 10개이상 팔릴 확률은? Q1 포아송 분포가 맞는가 정규분포가 맞는가? 나의 의견 : 하루 구매는 이산적이니 포아송의 적용이 맞는거 같다.(그리고 정규분포는 포아송과 완전 이질적인 분포는 아니니깐....) Q2 포아송의 모수를 구하기 위해서는 어떻게 해야하는가.? 나의 의견 : 큰수의 법칙에 의해 표본을 모아서 평균을 내면 되지않을까...? Q3 : 큰수의 법칙에 대해서 어느정도의 표본이 적당한가? ????!?!?! Q4. 하루 ,이틀 3일 단위로는 평균이 비례한데 하루 보다더 작게 짤랐을때 모수가 비례하지 않는다면? https://ko.wikipedia.org/wiki/%ED%91%B8%EC..
-
Data Analysis TypesData-Science/Statistics 2020. 4. 9. 03:22
1. Descriptive Analysis 2. Exploratory Analysis 3. Inferential Analysis 4. Predictive Analysis 5. Causal Analysis 6. Mechanistic Analysis http://www.dodomira.com/2016/01/12/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D%EC%9D%98-%EC%9C%A0%ED%98%95/ 데이터 분석의 유형 6가지 - 목적에 따라 달라지는 분석 방법 - DODOMIRA 데이터 분석의 첫 단계는 “문제 정의”이다. 데이터 분석을 시작하기 전 단계에서 분석을 통해 알고 싶은 것이 “무엇”인지를 구체적으로 명확히 정의하지 않으면 “어떻게” 분석해야 할 지도..
-
대푯값 연산 규칙 (분산, 평균 ,공분산)Data-Science/Statistics 2020. 4. 9. 02:35
http://www.walterz.net/2017/08/09/%ED%86%B5%EA%B3%84%ED%95%99-%EB%B6%84%EC%82%B0-%ED%91%9C%EC%A4%80%ED%8E%B8%EC%B0%A8-%EA%B3%B5%EB%B6%84%EC%82%B0/ 통계학 기댓값, 분산, 표준편차, 공분산 연산법칙 정리 통계학은 응용 수학의 한 분야로 관찰, 조사로 얻을 수 있는 불균형적인 데이터로부터 응용 수학의 기법을 이용하여 수치상의 성질, 규칙성 또는 불규칙성을 찾아내는 학문입니다. 통계적 기법은 실험 계획, 데이터의 요약이나 해석을 실시하는데 있어서의 근거를 제공하는 학문이며, 폭넓은 분야에서 응용되어 실생활에 적용되고 있습니다. 재무관리 분야에서는 기댓값,… www.walterz.net