swirl package를 이용한 R로 통계학습하기
카테고리: R for data science
swirl 패키지
정말 좋아하고 추천하는 패키지입니다. R프로그램 사용법과 통계 기본 개념을 동시에 탄탄히 다져주는 패키지거든요! 한글이 아니라는 단점이 있었지만 영어 공부까지 일타삼피(…) 또는 구글번역이나 chatGPT 등의 훌륭한 리소스들을 활용하시면 되겠습니다.
컴퓨터, 수학, 통계, 시각화 등 각각의 전공자가 아니라면 보편적인 toolkit으로서 접근해야 하는 많은 전문분야들이 있습니다. data scientist에게는 이 모두에 대한 일정수준 이해의 이해가 필요합니다.
단순히 숙련만 올릴 수도 있고, 이해가 깊어질 수도 있는데 둘 다 순환적인 과정이라 일단 입문자에게는 “뭐라도 쉬지 않고 하는 것”이 중요하고 막막해서 가만 있기보다는 막막하니까 뭐라도 하는게 빠릅니다. 물론, 그 뭐라도가 효과적이고, 효율적이면 좋겠죠. 짧은 인생에 데이터사이언스의 접점을 다 탐색하면서 숙련도 올리면서 나만의 경쟁력 있는 도메인까지 갖는다는 것은 시간과 노력을 퍼붓는 일입니다. “멀리” 갈 때, 기초는 정말 중요하고 뒤로 갈 수록 속도를 올려줘서 장기전에 강한 경쟁력을 줍니다. 그래서 나만의 시각과 방향설정이 가능할 때 까지는 아무 생각 없이 해 볼 수 있는, 근데 지나고 나서 봐도 아 지름길이었다, 두고두고 좋다 할만한 커리큘럼을 제공해 줄 수 있다면 정말 좋겠죠. 여기에 data science로 무장하기를 꿈꾸는 입문자들께 정말 강력히 추천드리고 싶은 것이 R package ‘swirl’입니다.
일단, 다 따라하고 나면 R 프로그래밍 기본과 함께 중급 통계 초입(회귀분석)까지 분명히 마스터할 수 있는 고마운 패키지입니다.
package 깔기
다음 명령어로 패키지를 깝니다. “패키지를 깐다(install package)”라는 것은 1) 내가 지정한 이름의 패키지를 서버로부터 찾아서 2) 내 PC에 다운로드를 받고 (인터넷 연결이 되어있어야겠죠!) 3) 설치한다 까지 포함되어 있습니다.
저희가 MS office나 알약 등을 설치할 때, 한 번 설치하면 업데이트가 없다면 다시 설치하지 않죠? 그러니까 PC당 한 번만 하면 됩니다.
우리가 깔 package는 swirl이라고 했으니, 다음 명령어를 실행해볼게요.
R 스튜디오 실행
지난 글에서 R프로그램과 R을 쉽게 쓰기 위한 GUI인 R studio를 설치했습니다. 이제 바탕화면 아이콘이나 바로가기, 검색 등 각자 편한 방식으로 R studio를 실행해주세요.
이렇게 4개로 분할된 빈 화면이 뜰거에요.
그럼 이제 명령어를 쳐볼까요!
R studio에서 R명령어를 입력하는 방법
R studio에서 R명령어를 입력하는 방법은 두 가지 입니다.
1. console창에 직접 입력
먼저, 좌측 아래칸에 직접 명령어를 입력하고 엔터를 치는 겁니다.
print(“Hello world!”) 를 입력해 볼까요?
여기를 콘솔(console)창이라고 하고, R studio를 실행하지 않고 R 프로그램을 바로 실행시키면 나오는 창과 같습니다. (배경이 R에서 바로 띄우면 까맣고, R studio에서는 하얗고 정도 차이가 있어요)
2. text file 창에 코드 입력 & ctrl+enter로 실행
우측 상단에 빈 공간에 같은 명령어를 쳐봅시다.
print(“Hello world!”) 아무 일도 일어나지 않죠?
좌측 상단은 메모장처럼 내가 할 일들과 일련의 작업들, 메모, 주석들을 모아놓는 공간이라고 생각하시면 좋을 것 같습니다. print(“Hellow world!”) 라고 쓰인 줄 아무데나 커서를 놓고, ctrl+enter를 쳐볼게요.
ctrl+enter는 내가 지정한 행(커서가 놓인 한 줄), 또는 내가 지정한 영역(드래그한 영역, 여러줄 가능)을 console창으로 보내서 실행시켜주는 역할을 합니다.
swirl package 설치
그러면 이제 swirl package를 설치해 볼게요. R에서 ‘~~’라는 패키치를 설치해! 라는 명령어는 다음과 같습니다.
install.packages(“설치할 패키지 이름”)
install.packages("swirl")
명령어를 콘솔창에 바로 쓰느냐, text file로 관리하느냐는 그때그때 개인의 호불호에 따라 진행하시면 되는데, 장기적으로는 text file로 관리하는 것이 좋습니다. 같은 작업을 데이터셋만 바꿔서 작업한다든지, 내가 일련의 여러 작업을 한 다음 그 과정을 되짚어 본다든지, 공동작업을 할 때 코드를 공유한다든지 할 떄 도움이 됩니다.
저는 좌측 상단 text file창을 주로 사용하지만 swirl 패키지는 대화형으로 학습이 진행되어서, 왼쪽 하단에 바로바로 치면서 진행하는 것을 선호합니다.
install.packages(“swirl”)을 하면 주루룩 console창에 text가 올라갑니다.
참조와 종속성
하나의 package가 다른 여러 패키지를 활용해서 개발될 수 있는데, 이것도 프로그래밍에서는 “참조”라고 합니다. 패키지 Z가 A, B, C 패키지의 기능을 활용해서 작성되었다면 패키지 Z를 설치하려면 A, B, C도 필요하겠죠? 이걸 “종속성”이라고 합니다. 패키지 Z가 종속성을 가지고 있는 다른 패키지들을 install.packages 명령어에서는 검색하고 현재 PC에 설치되지 않은 패키지들을 자동으로 같이 설치해줍니다. 그래서 나는 swirl 하나의 패키지를 깔라고 했어도, 여러 개의 패키지를 다운받고 줄줄줄 설치가 완료되었다고 뜨는 경우를 자주 볼 수 있습니다.
swirl 실행
현재 열어둔 R 세션에서 이 라이브러리를 쓰겠다! 고 불러오기(load)하는 명령어로 library()가 있습니다. 한 번 설치한 패키지는 매번 install.packages를 하지 않고 (이미 다운받아 설치를 해 놨으므로) 쓸 때 아이콘을 더블클릭해서 실행하듯이, 내가 현재 작업할 R세션에서 이것을 쓰겠다는 의미로 library()명령어로 불러온다고 생각하시면 좋을 것 같아요.
library(swirl)
swirl은 R 프로그래밍 입문자도 쉽게 쓸 수 있는 대화형 교육 패키지이기때문에, 바로 우리에게 말을 걸어줍니다.
이제 대화하면서 swirl과 함께 튼튼한 통계기초 + R 프로그래밍을 함께 경험해보세요! 시키는 대로 먼저 해볼까요?
swirl()
간단한 사용법 안내
먼저 이름을 물어보고 (예의 바름), 진행/멈춤 등의 진행에 필요한 명령어를 알려줍니다.
이후에 어떤 것들을 할 수 있는지 큰 목차를 보여주는데요, R 사용법도 익힐 겸 1. 부터 시작하시면 되겠지요?
하다가 중단하고 다시 이어서 R studio실행부터 다시 하실 때에는
library(swirl)
swirl()
으로 시작해서 이 화면에서부터 다시 내가 배울 곳으로 목차 찾아가듯이 숫자를 입력해서 진행하시면 됩니다.
새해에는 코딩도 하고, 통계도 하고, 데이터 공부도 하고 싶었어… 하고 어디부터 무엇을 할까 망설이는 분들이 계시다면 바로 여기! 이 패키지부터 끝내시면 됩니다. :)
타이트하게 하면 2-3일, 틈틈히 진행하면 1-2주, 통계개념 노트 필기 등을 병행한다면 3-4주까지도 할 수 있는 분량으로, 소요시간은 통계 공부를 얼마나 병행해야 하는지 각자의 진입점에 따라 달라진다고 보시면 될 것 같습니다.
R로 통계하기 기초-기본 책 한 권을 떼는 분량을 학습하실 수 있으며, 자연스럽게 코딩 환경(패키지, 라이브러리, GUI 활용 등)에 노출되어서 아주 부드러우면서 탄탄한 출발이 되어 줄 것입니다!
마치며
예전에는 data science를 하는데 R이냐 python이냐 SQL이냐를 물으면 SQL을 깔고 R과 Python중에 하나라고 말씀을 드렸었는데, 그 사이 세상이 또 빠르게 발전해서 셋 다(…!) 해야 한다고 보입니다.
다행인 점은 모든 모듈에 익숙할 필요는 없다는 것인데요, 이 점이 참 도전적인 것 같습니다. “현업(professional)”수준이 되어야 뭐뭐가 가장 필요한지를 알 수 있는데, 입문자 입장에서는 그래서 스스로 커리큘럼을 짤 수가 없거든요.
그래서 이 글타래에서는 앞서 말씀드린 것 처럼 methodoloty로서의 data science를 하나의 역량으로 키우기 위해서 기초가 전혀 없는 분들이 무작정 따라하기로 프로그래밍 스킬과 개념의 학습을 스스로 감을 잡고 학습할 수 있는 수준까지 할 수 있도록 글을 적어나가 보려고 합니다.
댓글 남기기