데이터 분석을 가르치는 미국 어떤 교수님이 써놓은 글을 참고해서 써 놓은 글이다.
아래 링크에서 중요하다고 생각하는 부분을 번역 했다.
http://www.dataschool.io/python-or-r-for-data-science/
Python을 할 것인가 R을 할 것인가
프로그래밍을 해본 경험이 있는가?
프로그래밍을 해본 경험이 있다면 파이썬을 하는게 좋은 것 같다. 왜냐하면 파이썬 문법은 다른 프로그래밍 문법하고 비슷하므로 적응하기가 더 좋다. 프로그래밍을 해본 경험이 없으면 둘 다 비슷한 것 같다.
연구를 할 용도인지 실무를 할 용도인지?
기준이 좀 애매하긴 하다. 연구인지 실무인지를 떠나서 통계적인 분석을 하려면 R이 좋고 뭘 만들어 내야 하는 경우라면 Python이 좋다.
R이 매력적인가 Python이 매력적인가?
R의 사이트 디자인은 별로다. 아니 뭐가 없다. 반면에 Python은 R에 비해서 사이트도 예쁘게 잘 해놓았고 문서도 깔끔하게 정리 해놓았다. 접근성은 Python이 더 좋은 것 같다.
데이터 클리닝(data cleaning)할 때 좋은 언어는?
데이터 클리닝은 raw data(가공 하지 않은 널려 있는 데이터들)를 정리해서 사용할 수 있을 정도로 가공하는 작업을 말한다. 이거 할 때는 Python이 좋다. 왜냐하면 Python은 데이터 타입이 여러가지 이고(R은 숫자랑 문자 정도만 있는 듯) 정규식(문자에서 패턴 찾아내는 것)을 지운 하기 때문이다.
데이터 탐색(data exploration) 할 때 좋은 언어는?
데이터 탐색이란 데이터를 읽어와서 시각화 하는 작업이라고 볼 수 있다.
이 작업을 하는데에는 파이썬이 좀 더 좋은 것 같다. python의 pandas라는 패키지가 있는데 이 패키지가 참 좋기 때문이다. R에도 dplyr이라는 패키지가 있는데 panada에 비해서는 할 수 있는게 적다. 대신 dplyr은 배우기 쉬운 장점이 있지만 그만큼 단순해서 불편한 것도 있다.
'Database > Theory' 카테고리의 다른 글
빅데이터 환경의 특징 (0) | 2017.01.26 |
---|---|
[빅 데이터] 자연 언어 처리 ( 자연어 처리 ) (0) | 2017.01.26 |
[빅데이터] 정의 및 분석 기법 (0) | 2017.01.26 |