데이터 추출과 가공 Archives - Page 4 of 4 - 코딩, 데이터, 머신러닝

curl 의 기본 사용법 데이터를 구할 수 있는 대표적인 곳은 인터넷입니다. 주로 웹페이지 형식의 자료에서 데이터를 구합니다. 이때 사용할 수 있는 커맨드가 curl 입니다. curl커맨드를 사용하면 웹페이지의 html소스를 내려받아 화면에 출력하거나 파일에 저장할 수 있습니다. curl과 비슷한 커맨드로 wget 이 있습니다. 두 커맨드 사이에는 약간의 차이가 있지만 인터넷에서 html소스와 같은 자료를 내려받는다는 면에서는 거의 같다고 봐도 무방합니다. 여기에서는 라이브러리로 만들어져 있어 다른 소프트웨어에서도 사용하는 curl을 선택해서 설명하겠습니다. 지난번 글에서 언급한 네 가지 커맨드중에 sed, grep, awk 는 처음 만들어진 때가 40년도 더 된 커맨드들입니다. 반면 curl은 비교적 최근인 1997년에 처음 만들어졌습니다. 이때는 월드 와이드 웹 (www)이 본격적으로 대중화되기 시작한 시기입니다. curl이 인터넷에서 웹페이지나 파일을 내려받는 기능이 주된 기능이라는 것을 감안하면, 왜 curl이 이 시기에 나왔는지를 짐작해 볼 수 있습니다. 이제 본격적으로 curl에 대해 알아보겠습니다. 먼저 curl이 설치가 되어있는지를 확인해야합니다. terminal을…

커맨드 실행 환경 만들기 앞으로 파이썬 프로그래밍의 기본을 다지고 나면 본격적으로 머신러닝이나 딥러닝 같은 인공지능과 관련된 프로그래밍도 시도할 수 있습니다. (이하 머신러닝과 딥러닝을 인공지능이라는 단어로 대신 쓰겠습니다) 인공지능은 알고리듬도 중요하지만, 데이터가 없으면 인공지능 알고리듬은 그냥 껍네기나 마찬가지인 경우가 많습니다. 그만큼 데이터가 중요합니다. 그러면 데이터를 어디서 구할 수 있을까요? 처음에 인공지능을 배우고 프로그래밍을 시작하는 단계라면 다행히도 인터넷에는 인공지는 알고리듬에 바로 사용할 수 있게 잘 가공된 데이터들이 아주 많습니다. 이런 데이터들올 다운로드 받아 프로그래밍한 인공지는 알고리듬에 테스트해 볼 수 있습니다. 하지만 뭔가 새로운 걸 인공지능으로 해볼려고 하면 문제가 생깁니다. 남들이 다뤄보지 않은 새로운 데이터는 찾기도 어렵지만, 찾아도 인공지능 알고리듬에 바로 쓸 수 있을 만큼 깔끔하지도 않습니다. 본인이 직접 만든 데이터가 아니면, 당장 필요없는 내용들이 많고 원하는 데이터도 한 곳에 몰려있지 않고 이곳저곳에 흩어져 있기도 합니다. 본인이 기록한 데이터라도 애초에 인공지능에 적용하는 것을…

Category: 데이터 추출과 가공

[데이터 추출 및 가공 02] curl 의 기본 사용법

[데이터 추출 및 가공 01] 커맨드 실행 환경 만들기