R 심근 경색 합병증 데이터 분석
#R
#데이터분석
-자료-
Myocardial infarction complications Data Set (심근경색 합병증 데이터 세트)
https://archive.ics.uci.edu/ml/datasets/Myocardial+infarction+complications
UCI Machine Learning Repository: Myocardial infarction complications Data Set
Myocardial infarction complications Data Set Download: Data Folder, Data Set Description Abstract: Prediction of myocardial infarction complications Data Set Characteristics: Multivariate Number of Instances: 1700 Area: Life Attribute Characteristics:
archive.ics.uci.edu
반응변수
1) 113 column : Atrial fibrillation
2) 121 column : Chronic heart failure
예측변수(설명은 사이트 참고)
: all input columns (2-112) except 93, 94, 95, 100, 101, 102, 103, 104, 105
--데이터 전처리--
반복문을 활용해서 NA값이 열의 30%가 넘으면 출력이 되도록한다.
8,35,36,89,96,97,98의 열을 엑셀에서 지워주었다.
--앙상블모형 (Bagging)--
X113 반응변수
0에 가중 되어있다.
X121 반응변수
1을 예측할 확률도 낮고
0을 1로 오분류 하는 경우가 많다.
--훈련--
1의 표본이 적은 것 같아 전체 데이터로 훈련시킨 후 다시 진행했다.
X113, X121
비슷한 결과를 보인다. 그러나 1을 정분류 하는 것이 조금 늘었다.
--앙상블모형(Boosting)--
X113 반응변수
X121 반응변수
--랜덤포레스트--
변수 X113의 랜덤포레스트
못 쓸만큼의 분류율이다.
변수 121의 랜덤포레스트
이것도 못 쓸만큼의 분류율이다.
--인공신경망--
X113 반응변수
X121 반응변수
------------------------결론------------------------
심근 경색의 합병증을 예측하여 인명을 구하는 것이 우선이라고 판단했기 때문에 0을 1로 오분류할 확률이 있더라도 정분류율이 높은 모델을 채용하는게 좋다고 생각한다.
그러므로 1의 정분류율과 0의 오분류율을 계산하여 정리했다.
-------------------------------------------------------------
부스팅 X113
20/(31+20)=39.22% 의 정분류율
0을 1로 오분류할 확률 459건중 0개 = 0%
-------------------------------------------------------------
-------------------------------------------------------------
부스팅 X121
65/(53+65)=55.08% 의 정분류율
0을 1로 오분류할 확률 391건중 14개 =3.6%
-------------------------------------------------------------
-------------------------------------------------------------
인공신경망 X113
11/(16+11) = 40.74% 의 정분류율
0을 1로 오분류할 확률 148건중 2개 = 1.35%
-------------------------------------------------------------
-------------------------------------------------------------
인공신경망 X121
24/(30+24) = 44.45% 의 정분류율
0을 1로 오분류할 확률 111건중 20건 = 18.02%
-------------------------------------------------------------
합병증 X113은 인공신경망 모델로 예측하고, X121은 부스팅으로 예측하는 것이 가장 합리적인 선택이라고 볼 수 있다.
다음의 파일은 데이터와 결과물이다.