분석 프로젝트

R 심근 경색 합병증 데이터 분석

TalleQQ 2021. 7. 21. 13:57

#R

#데이터분석

 

-자료-

Myocardial infarction complications Data Set (심근경색 합병증 데이터 세트)

https://archive.ics.uci.edu/ml/datasets/Myocardial+infarction+complications

 

UCI Machine Learning Repository: Myocardial infarction complications Data Set

Myocardial infarction complications Data Set Download: Data Folder, Data Set Description Abstract: Prediction of myocardial infarction complications Data Set Characteristics:   Multivariate Number of Instances: 1700 Area: Life Attribute Characteristics:

archive.ics.uci.edu

반응변수

1) 113 column : Atrial fibrillation

2) 121 column : Chronic heart failure

 

예측변수설명은 사이트 참고)

 : all input columns (2-112) except 93, 94, 95, 100, 101, 102, 103, 104, 105

 

--데이터 전처리--

?를 NA값으로 바꿔주었다.

반복문을 활용해서 NA값이 열의 30%가 넘으면 출력이 되도록한다.

8,35,36,89,96,97,98의 열을 엑셀에서 지워주었다.

 

훈련, 검증용 데이터 분리를 해주었다.

--앙상블모형 (Bagging)--

X113 반응변수

 

0에 가중 되어있다.

 

X121 반응변수

 

1을 예측할 확률도 낮고

01로 오분류 하는 경우가 많다.

 

 

--훈련--

1의 표본이 적은 것 같아 전체 데이터로 훈련시킨 후 다시 진행했다.

X113, X121

코드에 X121을 X113으로 잘못적었다.

비슷한 결과를 보인다. 그러나 1을 정분류 하는 것이 조금 늘었다.

 

--앙상블모형(Boosting)--

X113 반응변수

Bagging에 비하면 놀라운 결과가 보인다.

X121 반응변수

Boosting도 정분류율이 50%이상인 놀라운 결과를 보여주고있다.

--랜덤포레스트--

변수 X113의 랜덤포레스트

못 쓸만큼의 분류율이다. 

 

변수 121의 랜덤포레스트

이것도 못 쓸만큼의 분류율이다.

 

--인공신경망--

X113 반응변수

 

X121 반응변수

------------------------결론------------------------

 

심근 경색의 합병증을 예측하여 인명을 구하는 것이 우선이라고 판단했기 때문에 01로 오분류할 확률이 있더라도 정분류율이 높은 모델을 채용하는게 좋다고 생각한다.

그러므로 1의 정분류율과 0의 오분류율을 계산하여 정리했다.

 

-------------------------------------------------------------

부스팅 X113

20/(31+20)=39.22% 의 정분류율

 

01로 오분류할 확률 459건중 0= 0%

-------------------------------------------------------------

 

-------------------------------------------------------------

부스팅 X121

65/(53+65)=55.08% 의 정분류율

 

01로 오분류할 확률 391건중 14=3.6%

-------------------------------------------------------------

 

-------------------------------------------------------------

인공신경망 X113

11/(16+11) = 40.74% 의 정분류율

 

01로 오분류할 확률 148건중 2= 1.35%

-------------------------------------------------------------

 

-------------------------------------------------------------

인공신경망 X121

24/(30+24) = 44.45% 의 정분류율

 

01로 오분류할 확률 111건중 20= 18.02%

-------------------------------------------------------------

 

합병증 X113은 인공신경망 모델로 예측하고, X121은 부스팅으로 예측하는 것이 가장 합리적인 선택이라고 볼 수 있다.

 

 

다음의 파일은 데이터와 결과물이다.

MI.data
0.43MB
data3.csv
0.41MB
데이터마이닝_R_팀_프로젝트.hwp
0.50MB