tab 으로 구분되어지는 문자열로 된 데이터에서

중간 데이터를 제거하는 코드

 

이를 테면 아래와 같은 데이터가 있다고 하자.

 

a        b        c        d        e
aa       bb      xx      cc       dd       ee
aaa      bbb    ccc    ddd      eee

 

각 column 사이는 tab "\t" 으로 구분됨.

여기서 두 번째 줄에 실수로 포함되어 있는 xx를 제거하고 싶다고 하자.

 

아래 코드를 실행하면 된다.

 

import sys

r = open("/home/eyeballs/"+sys.argv[1], "r")
w = open("/home/eyeballs/"+sys.argv[1], "w")
while True:
    line = r.readline()
    if not line: break
    s = line.split("\t")
    if len(s)==6:
        w.write(s[0]+"\t"+s[1]+"\t"+s[3]+"\t"+s[4]+"\t"+s[5])
    else:
        w.write(line)
r.close()
w.close()

 

파라미터는 데이터 파일의 이름

 

실행 후 다음과 같이 될 것임.

a        b        c        d        e
aa       bb      cc      dd       ee
aaa      bbb    ccc    ddd      eee

 

 

 

+ Recent posts