1학년/R언어

데이터의 이해, 단순회귀와 데이터 전처리/해석

피까츄 2023. 12. 23. 18:00

 

lm(단순회귀) 단순회귀: 원인이 되는 변수가 1개인 경우,
위의 경우
bal:y축, 종속변수
beers:x축, 독립변수  변수를 추가하고싶을 때는 +로 추가
(ex. res <-lm(bal~beers+asd,data=tbl))
(전체 변수를 넣을 때는 ~.을 사용)


Y = a(=기울기, 계수, 가중치)x(=매개변수) + b (=상수)

 

 

데이터를 받으면 꼭 해야하는 것 = 전처리

   Iris의 경우 NA 값이 있음
   
   

 

더미변수(범주형 변수에서, 종류가 너무 많을 때 나누는 거)

-> 범주형은 0이나 1로 나타내야, 더 많으면 명목변수임

만약 A,B,C 이렇게 3종류가 있다면 더미변수는 2개가 되어야 함

 

  1. 그러면 무엇을 0으로, 무엇을 1로 설정해야하는가?
  1. 중요한 순서(가정)대로 1, 나머지는 0으로 설정

 

  ex1 <-iris
ex1$dum1 <- ifelse(ex1$Species=="virginica",1,0)
ex1$dum2 <- ifelse(ex1$Species=="versicolor",1,0)
res_iris <-lm(ex1$Sepal.Length~.,data=ex1)
  단, 이상태에서는 NA값이 나타남 <-다중공선성 때문,
범주형 자료를 사용하였으면 그 변수는 제외해야
  res_iris <-lm(ex1$Sepal.Length~.,data=ex1[-5])
 
  위 경우 5번 열이 iris$Species 를 더미변수로 나눴으므로 Species는 사용하지 않아야 NA(결측값)값이 안 뜬다
   

 

데이터 해석

 

iris$길이 = (Intercept) 2.1713 + 0.4959*Sepal.Width(꽃 폭) + 0.8292* Petal.Length(꽃받이길이) - 0.3152 * Petal.Width(꽃받이폭) - 1.0235*더미1-0.7236  
폭이 1cm 증가하면, 길이는 0.4959cm 증가
꽃받이길이가 1cm증가하면, 길이는 0.8292센치 증가한다.
 
품종이 더미1의 1이면(=어떤 품종일수록) 꽃잎의 길이가 -1.0235cm 작다.
더미2의 1이면 꽃잎의 길이가 -0.7236cm이다.
 

 

예를 들어, 소득 = 금리 + 성별이면 금리의 단위는 %,
금리가 1% 상승하면, 소득이 어떻게 된다~ 는 식일 것

그러나 성별은?
"증가" 할 수 없음. 0,1로 나뉘기 때문.
상대적 개념으로 해석해야함
0(남성)일수록 ~하다 또는
1(여성)일수록 ~하다 식으로 해야함