html 모듈

ufp.html.clean(html, inputEncoding=u'utf8')

html 문서를 보다 규격화된 xhtml로 변환합니다.

매개 변수:
  • html (unicode, bytes) – html 내용
  • inputEncoding (unicode) – 입력 문자열의 인코딩
반환:

xhtml 문서

반환 형식:

unicode

ufp.html.toText(html, converter=u'pattern.web', linebreaks=10, strip=False, replace=None)

html 문서를 텍스트 문서로 변환합니다.

이 함수는 다음과 같이 사용합니다.

>>> import ufp.html
>>> import requests
>>> html = requests.get('http://www.gnu.org/licenses/').content
>>> ufp.html.toText(html.decode('utf8'))
u"Licenses\n- GNU Project - Free Software Foundation\n\n\n ...
매개 변수:
  • html (unicode) – 원본 html 텍스트
  • converter (unicode) –

    변환에 사용할 변환기

    w3m : w3m 외부 프로그램을 불러와 작업을 하기 때문에 속도가 상당히 느립니다.

    pattern.web : pattern(http://www.clips.ua.ac.be/pattern) 라이브러리를 사용합니다.

  • replace ({unicode:(unicode, unicode)}, None) – 태그를 특정 문자로 치환합니다. 다음과 같은 형식을 따릅니다. {태그 이름: (태그의 앞, 태그의 뒤)}. 예컨데, replace를 {‘h1’:(‘>’, ‘<’)}로 지정하면, “<h1>안녕하세요!<h1>”란 태그는 “>안녕하세요!<”로 치환됩니다. None으로 지정될 경우, 작동하지 않습니다. (pattern.web 변환기 전용)
  • linebreaks (int, None) – 줄바꿈 문자가 이어질 최대 라인 수. ‘\n’가 linebreaks이상 연속되지 않도록 합니다. 그 이상의 ‘\n’은 자동으로 제거됩니다. 만약 None으로 설정될 경우 이 옵션은 비활성됩니다. None 또는 1 이상의 값이어야 합니다.
  • strip (bool) – 문서의 앞 뒤에 존재하는 공백문자를 제거합니다.
예외 ValueError:

지원하지 않는 변환기를 입력 한 경우

반환:

text

반환 형식:

unicode