IT/기타

한글 텍스트 문장정리

smores 2013. 1. 15. 17:38

스마트폰을 쓰게 된 이후 가장 유용하게 쓰는 곳 중 하나는 책이나 글 읽기이다. 물론 전자책 (iBook - ePub 형식이나 Amazon Kindle 서적들) 읽기도 좋지만 인터넷에서 흔히 구하는 텍스트로 된 소설들이나 (인소) 각종 article 들 중 갈무리해 두었다가 나중에 읽고 싶을때 유용하게 쓰고 있다. 


윈도우7과 아이폰 사용자로서 방법은 


1) 텍스트를 윈도우 노트패드로 읽은 뒤 UTF-8 형식으로 저장

2) 저장된 파일을 DropBox 에 넣어놓음

3) 아이폰에서 DropBox 로 파일 연 후 Open In 기능으로 GoodReader 로 전송

4) GoodReader 앱에서 읽음


헌데 인터넷에서 갈무리하거나 다운로드하는 글들중 상당수는 줄들이 제멋대로 잘려있다. 때문에 문단으로 다시 합치는 등의 기능을 가진 유틸리티가 필요하다. 예전에는 Excel VBA 로 간단히 작성해서 쓰곤 했는데 사실 형식들이 지각각이다 보니 하나의 소스로 다 처리하기가 쉽지 않았다.


때문에 인터넷에 이런 프로그램들이 있으리라 싶어서 조금 찾아보았고 다음과 같은 유틸리티들이 있음을 알았다.


http://blog.daum.net/hanikin/8


BookMate

ToEBook

Text 변환기

TxtTrim XP

TxtTrim

LuxuryTrim



http://blog.naver.com/PostView.nhn?blogId=j5sny&logNo=70146492473


Sorceress2


하지만 내 입맞에 꼭 맞아보이는 것도 없고 해서 나름대로 다시한번 Python으로 작성해 보았다. 항상 골치거리중 하나가 제목/소제목 줄 같은 경우와 잘려있는 라인 끝이 단어와 단어사이가 아니고 단어중간인 경우가 섞여서 공백문자를 붙여서 라인을 합칠 필요가 있거나 없거나 한 경우가 섞인 경우다. 이 경우는 문장 lexical analysis 까지 할 능력이 안되기에 그냥 둘 중 하나를 선택하는 것으로 타협하기로... (그냥 내 편한 대로가 나 자신에게 글 읽기에도 편하다 !)



다음은 파이썬 소스와 실행 예...





원본문서


변환시 라인끝 공문자 삽입


변환시 라인끝 공문자 없이 붙임








'IT > 기타' 카테고리의 다른 글

AMD vs Intel  (0) 2013.02.11
Enable Windows 7's Hidden "God Mode"  (0) 2013.01.26
World Smallest Website  (0) 2012.12.18
컴팁 - 유용한 프로그램은 옛버전도 잘 모아둘 것  (0) 2012.08.13
폴더 감추기/해제  (0) 2012.07.04