Coding/Python Matlab

한글 포함된 웹사이트 스크래핑시

smores 2016. 3. 17. 10:20

기본으로 python 2.7 대를 쓰고 있기에 한글 코딩과 관련한 어려움이 많다.

간단히 이를 우회하기 위한 방법으로 


1) OS는 윈도우즈가 아닌 리눅스(우분투) 사용

2) 에디터는 geany

3) 코드 첫줄에 UTF-8 선언  

4) 그리곤 그냥 한글 단어를 일반 스트링처럼...


예제

---------------------

#-*- coding: utf-8 -*-

import urllib as ur


link='http://www.subkorea.com/xe/index.php?mid=baduk_changho&page=1'

f=ur.urlopen(link)

s=f.read()

f.close()

#print (s)

#exit()

p1=s.find('추천')

p2=s.find('전체',p1)

#print p1, p2

s1=s[p1:p2]

s2=s1.split('\n')

for ss in s2:

print(ss.strip())



'Coding > Python Matlab' 카테고리의 다른 글

Python Algorithmic Trading  (0) 2016.08.14
webdown GetItemNextPos() 수정할 사항  (0) 2016.08.11
파이썬을 쓰게 되는 이유  (0) 2013.07.10
linux distro summary  (0) 2013.06.24
파이썬 - pyglet & avbin  (0) 2013.05.09