반응형

IT/컴퓨터와 한글 13

컴퓨터에서의 한글 처리 (5) 에디터별 차이점

앞서의 공부를 통해서 이제는 조금 코드 인코딩 관련 역사와 상황을 조금 이해한 듯 하다. 이제는 내가 직면한 파이썬 프로그램과 관련한 한글 문제들이다. 우선 구글링을 해서 조금 알게 된 내용은 파이썬 3 대 부터는 기본적으로 내부 라이브러리의 인코딩 체계가 유니코드로 통일되었다 한다 (맞나?) 나는 아직도 2.7.3 을 사용하는 사용자... 간혹 블로그등을 돌다 보면 맥 OSX 에서 파이썬 간단한 코드 작성하고 결과를 터미널에 보여주는 글들이 있는데 이건 뭐 특별히 인코딩 지시 없이도 한글 잘 나오는가보다. 그럼 나는? 똑같은 프로그램을 테스트하는데 이건 우분투에서 할때랑 윈도우즈에서 하는것 역시 달라 보인다. 게다가 사용하는 에디터 (주력으로 오랫동안 EditPlus 써 왔고 요즘 Geany 자주 쓰고..

컴퓨터에서의 한글 처리 (4) 유니코드, UTF-8, 글자수 vs 바이트수

유니코드 체계로 넘어가면서도 초기에는 다소 혼란스런 체계가 만들어졌나보다. UCS-2 라는 방식인 것 같은데 유니코드 체계의 기본개념인 코드포인트라는 것을 도입한다. 그리고 컴 시스템마다 다른 하드웨어 내부에서의 2바이트(16비트)의 처리 순서(endian? 예를 들면 X86 계열은 하위바이트 먼저, 68000 계열은 그냥 상위바이트부터 순차적으로 처리) 를 그대로 인정하겠다는 취지에 따라 문자열 선두에 BOM 이라는 것을 붙여서 유니코드임을 알리는데 이 부분이 엔디언 처리에 따라 FF FE 혹은 FE FF 순으로 나타내었다. 앞서의 포스트에서 보았던 unicode (little endian), unicode big endian 코딩에 따른 첫 두바이트가 이에 매칭한다. 이는 상당히 혼란을 가져오기 쉽다..

컴퓨터에서의 한글 처리 (3) 한글 문자 처리의 역사

이제는 정말로 공부를 해야 할 순간이다. 일단 다음의 사이트 내용을 천천히 정독하면서 최대한 개념을 이해하려 노력했다. http://ieee-bmsb2012.org/blog/?p=191 공부한 내용을 간략히 정리하자면 문자 처리는 유니코드 이전과 이후 세대로 나누어 생각하는 것이 쉽다. 나는 유니코드 이전까지만 알던 인간... -_- 유니코드 이전 세대에는 초기 8비트 컴퓨터가 처음 등장할 때는 당연히 영어권에서 개발되었으므로 아스키 0-127, 7비트만으로도 왠만한 것을 다 처리했었다. 8비트 컴이 동양으로 들어오면서 동양권 문자 (이후 한글에 한정하여 생각하자) 를 표기하기 위해 다양한 방법이 시도되었다. 예를 들어 애플의 초기 3327 한글 같은 경우 2벌식 (약간 다른 글자가 있기는 하지만) 자판..

컴퓨터에서의 한글 처리 (2) 인코딩 차이의 이해

앞의 포스트에서 언급한 링크를 찾아가서 잘 읽어본 결과 나의 혼란의 많은 부분이 해결되었다. 첫번째로 나는 아직도 영어는 1바이트, 한글은 2바이트 라고 오해하고 있었다는 사실. IT 계에서 밥먹고 사는 것이 아니니까 문제는 없었지만... -_- 자세한 정리 이전에 먼저 간단한 테스트를 조금 해 보았다. 윈도우 노트패드를 열고 다음의 세가지 파일을 노트패드에서 지원하는 네가지 코드체계로 저장해 보았다. ABC (내 old 지식대로라면 3바이트)한글 (내 old 지식대로라면 4바이트)ABC한글 (내 old 지식대로라면 7바이트) 노트패드는 ANSI, Unicode, Unicode big endian, UTF-8 네가지 인코딩을 지원한다. 처음 하나는 알겠는데 나머지 4가지는 뭐야? 3종류의 파일을 (e),..

컴퓨터에서의 한글 처리 (1) 왜 이런짓을 시작하나

최근 몇가지 장난을 하다가 한글 처리와 관련해서 너무도 혼란스런 상황이 되었다. 옛날 조합형 시절에 조금 공부한 것 외에는 최근의 경향도 모르고 해서 이제와서 뭐 조금 코딩하다보면, 특히 파이썬을 윈도우 환경에서 사용하다 보니까 그냥 욕이 저절로 나올 지경으로 헷갈리고 있다. 이에 조금 체계적인 공부와 이해가 필요하다고 생각해서 열심히 구글을 찾고, 테스트도 해 보면서 여기 새로 만든 카테고리 (PC와 한글) 에 나 자신을 위한 정리를 해 보려 한다. (다 아는 사람들이라면 별걸 다 포스팅 한다 할지라도 제대로 모르는 상태에서 얼마나 혼란스러운 상황이 많았었던지...) 먼저 다음의 사이트의 포스트가 나의 혼란을 많이 덜어준 가장 잘 정리된 글인 것 같다. http://ieee-bmsb2012.org/bl..

728x90