전처리 패키지 dplyr 정리
·
1학년/R언어
전처리 패키지 dplyr 1. 설치 install.packages("dplyr") library(dplyr) 2. 이름변경 rename #변경이름 = 기존이름 방식으로 iris1% rename(a1=Sepal.Length, a2=Sepal.Width) 3. 변수 생성 mutate #1부터 150까지 입력되어있는 id 변수를 새로 생성 iris2% mutate(label=c(1:150)) #petal.length로 label 넣기 iris2% mutate(label=ifelse(Petal.Length=5.1,"H","M"))) #transmute의 사용(사용 시 새로 생긴 변수 빼고 없어짐) iris2% transmute(label=ifelse(Petal.Length=5.1,"H","M"))) 4. 행 추..
데이터의 이해, 단순회귀와 데이터 전처리/해석
·
1학년/R언어
lm(단순회귀) 단순회귀: 원인이 되는 변수가 1개인 경우, 위의 경우 bal:y축, 종속변수 beers:x축, 독립변수 변수를 추가하고싶을 때는 +로 추가함 (ex. res 범주형은 0이나 1로 나타내야, 더 많으면 명목변수임 만약 A,B,C 이렇게 3종류가 있다면 더미변수는 2개가 되어야 함 그러면 무엇을 0으로, 무엇을 1로 설정해야하는가? 중요한 순서(가정)대로 1, 나머지는 0으로 설정 ex1
데이터의 이해, 그래프/산점도 그리기와 다중공선성
·
1학년/R언어
dist를 변수로 가정, barplot 막대그래프 barplot(,main=그래프 이름) 범주형 자료에서 사용 barplot(ds,main='favorite season') trim 절삭평균 연속형 자료에서 사용 히스토그램 hist Hist(dist, main="제목" xlab="x축" ylab="y축: 빈도" boxplot 박스 boxplot(데이터,main="제목") boxplot의 이상값 Boxplot.stats(데이터)$out boxplot.stats(dist)$out 산점도, 상관분석과 상관계수 산점도 plot plot(x축 변수,y축 변수, main="이름", xlab="x축", ylab="y축") (무조건 변수가 2개 필요함) wt
데이터의 이해, 반복문
·
1학년/R언어
if 문(중요) job.type
데이터의 이해 중간고사 정리
·
1학년/R언어
기본 과정 정리 install.packages("readxl") #패키지 설치 library(readxl) #패키지 불러오기 ex1
모두를 위한 R 데이터 분석 입문 CH3. 매트릭스와 데이터프레임 다루기, 파일 데이터 읽기쓰기 정리
·
1학년/R언어
3. 매트릭스와 데이터프레임 다루기 데이터셋의 기본 내용 행과 열의 개수 출력 dim(iris) 행 개수 출력 nrow(iris) 열 개수 출력 ncol(iris) 열 이름 출력 colnames(iris) 데이터셋 앞부분 일부 출력 head(iris) 데이터셋 뒷부분 일부 출력 tail(iris) 데이터셋 앞 10개의 행만 출력 head(iris,10) 데이터셋 뒤 10개의 행만 출력 tail(iris,10) 데이터셋의 추가적인 내용 확인 데이터셋 요약 정보 보기 str(iris) 중복을 제거하고 종류 보기 unique(iris[,5]) 종류별 행의 개수 세기 (=각 변수가 몇 개 있는지) table(iris[,"Species"]) 매트릭스와 데이터프레임에서 사용하는 함수 행별,열별 합계와 평균 계산(5..
모두를 위한 R 데이터 분석 입문 CH3. 매트릭스, 데이터프레임 정리
·
1학년/R언어
1. 매트릭스 2차원데이터는 매트릭스(matrix)와 데이터프레임(data frame) 이라는 두 가지 형태의 자료구조를 사용한다. 매트릭스: 모든 셀 값이 동일한 자료형인 경우 사용 데이터프레임: 자료형이 다른 셀 값들로 구성된 경우 매트릭스 만들기 z
모두를 위한 R 데이터 분석 입문 CH2. 벡터의 연산, 리스트와 팩터 정리
·
1학년/R언어
4. 벡터의 연산 벡터에 대해 산술연산이 가능하다 벡터와 숫자값 연산 d 5인 인덱스를 구한다 d[d>5]를 구한다 sum(d[d>5])를 구한다 5. 리스트와 팩터 리스트(list): 서로 다른 자료형의 값들을 저장하고 다룰 수 있도록 해주는 수단 list()함수를 이용해 생성한다. my.info 리스트에 4가지 정보를 저장 ds
모두를 위한 R 데이터 분석 입문. CH2 변수, 벡터의 연산 정리
·
1학년/R언어
2. 변수 변수명에 영문자, 숫자, 마침표(.), 밑줄(_)을 사용할 수 있다. 화살표 모양의 '