[데이터 추출 및 가공 11] awk 사용법 1

데이터 추출과 가공
지금까지 다룬 주요 커맨드들은 다음과 같습니다. curl : 웹페이지 소스를 내려받는데 주로 쓰이는 커맨드 sed : 주로 텍스트 라인별로 패턴을 찾거나 찾은 패턴을 다른 텍스트로 바꾸는데 쓰는 커맨드 grep : 텍스트에서 원하는 텍스트를 포함하는 라인만 출력하는 커맨드 sed로도 grep의 일부 기능을 수행할 수도 있기는 합니다만, 두 커맨드의 장단점이 있기 때문에 둘다 다 많이 쓰는 커맨드입니다. 이번에 다룰 커맨드는 awk입니다. 1977년에 처음 개발한 사람들의 이름의 첫자를 따서 (Alfred Aho, Peter Weinberger, and Brian Kernighan) 커맨드의 이름이 만들어졌습니다. sed와 grep과는 달리 awk는 좀 더 프로그래밍 언어에 가깝습니다. 프로그래밍 문법은 거의 C언어와 비슷하지만, 어려운 문법은 별로 없는 편입니다. 따라서 이미 C언어나, java, javascript, 또는 php와 같은 프로그래밍 언어를 이미 할 줄 아는 사람은 awk 커맨드를 비교적 쉽게 배울 수 있습니다. 반대로 C, java, javascript, 또는 php를 배울 생각이 있는 사람은 awk를 먼저 배우는…
Read More

[데이터 추출 및 가공 10] grep 사용법 2: 수십만줄의 텍스트 데이터에서 grep을 이용해 원하는 데이터를 뽑아내는 방법

데이터 추출과 가공
grep 사용법 2 수십만줄의 텍스트 데이터에서 grep을 이용해 원하는 데이터를 뽑아내는 방법 먼저 아래의 링크로 가서 데이터를 내려받습니다. kaggle에 회원가입을 안하신분들은 회원가입을 한후 로그인을 해야 데이터를 내려받을 수 있습니다. 이미 설명했듯이 kaggle에서는 데이터사이언스와 관련된 데에터와 코드들이 많이 있는 사이트입니다. 상금이 걸린 데이어 사이언스 시합도 열리고는 합니다. https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results 내려받을 데이터는 zip파일 형식으로 압축되어 있습니다. 일단 unzip커맨드를 사용해서 압축을 풀어야하겠습니다. 아래의 코맨드를 실행하면 120-years-of-olympic-history-athletes-and-results.zip 파일안에 압툭되어 있는 athlete_events.csv 와 noc_regions.csv 파일을 빼냅니다. unzip 120-years-of-olympic-history-athletes-and-results.zip Archive: 120-years-of-olympic-history-athletes-and-results.zip inflating: noc_regions.csv inflating: athlete_events.csv 우리가 다룰 athlete_events.csv에는 120년간 올림픽에 참가한 선수의 정보를 담고 있습니다. 중복된 선수들고 있겠지만 무려 27만여개의 정보가 저장되어 있습니다. Excel로 열어서 이만큼 많은 정보를 포함하고 있다는 것을 확인랗 수도 있지만, 지난 글에서 설명했듯이 wc 커맨드를 -l 옵션과 함께 사용하면 파일안에 얼마나 많은 줄이 포함되어 있는지를 확일할 수 있습니다. wc -l athlete_events.csv 271117 athlete_events.csv…
Read More

[데이터 추출 및 가공 09] grep 사용법 – FIFA 월드컵 데이터로 실전 연습

데이터 추출과 가공
grep 사용법 - FIFA 월드컵 데이터로 실전 연습 unzip, wc -l, head 커맨드 사용정보 포함 grep 커맨드는 텍스트 파일에서 원하는 텍스트를 포함하는 줄을 찾는데 씁니다. 일정부분 sed 커맨드와 중복되는 부분이 있습니다. 그래도 텍스트 데이터를 다룰때 아주 유용하게 쓸 수 있는 커맨드입니다. grep 커맨드를 사용법을 알아보기 전에 grep 커맨드를 적용할 텍스트 데이터를 내려받겠습니다. 웹브라우저를 열고, 아래 주소의 웹페이지로 갑니다. www.kaggle.com 데이터 사이언스와 관련된 데이터와 코드를 찾아볼 수 있는 사이트입니다. 상금이 걸린 데이터 사이언스 시합도 종종 열립니다. 이곳에 회원가입을 한 후 로그인을 하던가 페이스북 아이디로 로그인을 합니다. 그런 다음 아래의 링크로 갑니다. https://www.kaggle.com/abecklas/fifa-world-cup/ 상단 오른쪽 부근에 Download (348KB) 라는 링크를 클릭합니다. 그러 fifa-world-cup.zip파일을 내려받을 수 있습니다. zip 파일안에 csv형식의 데이터 파일 세개가 압축해 들어가 있습니다. 다음 커맨드를 쓰면 csv파일들은 꺼낼 수 있습니다. unzip fifa-world-cup.zip 세개의 csv파일중에 WorldCupMatches.csv에는 역대 피파 월드컵 경기 결과가…
Read More