tab 으로 구분되어지는 문자열로 된 데이터에서
중간 데이터를 제거하는 코드
이를 테면 아래와 같은 데이터가 있다고 하자.
a b c d e aa bb xx cc dd ee aaa bbb ccc ddd eee |
각 column 사이는 tab "\t" 으로 구분됨.
여기서 두 번째 줄에 실수로 포함되어 있는 xx를 제거하고 싶다고 하자.
아래 코드를 실행하면 된다.
import sys r = open("/home/eyeballs/"+sys.argv[1], "r") w = open("/home/eyeballs/"+sys.argv[1], "w") while True: line = r.readline() if not line: break s = line.split("\t") if len(s)==6: w.write(s[0]+"\t"+s[1]+"\t"+s[3]+"\t"+s[4]+"\t"+s[5]) else: w.write(line) r.close() w.close() |
파라미터는 데이터 파일의 이름
실행 후 다음과 같이 될 것임.
a b c d e aa bb cc dd ee aaa bbb ccc ddd eee |
'Python3' 카테고리의 다른 글
[Python] pyenv 설치 방법 (0) | 2022.08.10 |
---|---|
[Python] 내장함수, 외장함수 공식 문서 (0) | 2022.06.16 |
[Python] 공부할 때 참고한 곳 (0) | 2021.05.16 |
[PySpark] 문법 예제 : expr (0) | 2021.05.05 |
[PySpark] 문법 예제 : 날짜 다루기 (미완성) (0) | 2021.05.05 |