lm(단순회귀) | 단순회귀: 원인이 되는 변수가 1개인 경우, 위의 경우 bal:y축, 종속변수 beers:x축, 독립변수 변수를 추가하고싶을 때는 +로 추가함 (ex. res <-lm(bal~beers+asd,data=tbl)) (전체 변수를 넣을 때는 ~.을 사용) Y = a(=기울기, 계수, 가중치)x(=매개변수) + b (=상수) |
데이터를 받으면 꼭 해야하는 것 = 전처리
Iris의 경우 NA 값이 있음 | |
더미변수(범주형 변수에서, 종류가 너무 많을 때 나누는 거)
-> 범주형은 0이나 1로 나타내야, 더 많으면 명목변수임
만약 A,B,C 이렇게 3종류가 있다면 더미변수는 2개가 되어야 함
- 그러면 무엇을 0으로, 무엇을 1로 설정해야하는가?
- 중요한 순서(가정)대로 1, 나머지는 0으로 설정
ex1 <-iris ex1$dum1 <- ifelse(ex1$Species=="virginica",1,0) ex1$dum2 <- ifelse(ex1$Species=="versicolor",1,0) res_iris <-lm(ex1$Sepal.Length~.,data=ex1) |
|
단, 이상태에서는 NA값이 나타남 <-다중공선성 때문, 범주형 자료를 사용하였으면 그 변수는 제외해야 |
|
res_iris <-lm(ex1$Sepal.Length~.,data=ex1[-5]) |
|
위 경우 5번 열이 iris$Species 를 더미변수로 나눴으므로 Species는 사용하지 않아야 NA(결측값)값이 안 뜬다 | |
데이터 해석
iris$길이 = (Intercept) 2.1713 + 0.4959*Sepal.Width(꽃 폭) + 0.8292* Petal.Length(꽃받이길이) - 0.3152 * Petal.Width(꽃받이폭) - 1.0235*더미1-0.7236 | |
폭이 1cm 증가하면, 길이는 0.4959cm 증가 꽃받이길이가 1cm증가하면, 길이는 0.8292센치 증가한다. |
|
품종이 더미1의 1이면(=어떤 품종일수록) 꽃잎의 길이가 -1.0235cm 작다. 더미2의 1이면 꽃잎의 길이가 -0.7236cm이다. |
예를 들어, 소득 = 금리 + 성별이면 | 금리의 단위는 %, 금리가 1% 상승하면, 소득이 어떻게 된다~ 는 식일 것 그러나 성별은? "증가" 할 수 없음. 0,1로 나뉘기 때문. 상대적 개념으로 해석해야함 0(남성)일수록 ~하다 또는 1(여성)일수록 ~하다 식으로 해야함 |
'1학년 > R언어' 카테고리의 다른 글
전처리 패키지 dplyr 정리 (1) | 2023.12.24 |
---|---|
데이터의 이해, 그래프/산점도 그리기와 다중공선성 (3) | 2023.12.22 |
데이터의 이해, 반복문 (1) | 2023.12.22 |
데이터의 이해 중간고사 정리 (1) | 2023.12.21 |
모두를 위한 R 데이터 분석 입문 CH3. 매트릭스와 데이터프레임 다루기, 파일 데이터 읽기쓰기 정리 (2) | 2023.12.21 |