일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 코세라강의
- coursera
- orderby
- Andrew NG
- groupby
- 코세라
- map
- sql
- 머신러닝강의
- SQL공부
- sorted
- mysql
- sql오답노트
- 코세라머신러닝강의
- 알고리즘
- DATE_FORMAT
- 경제공부
- PYTHON
- 프로그래머스
- WHERE
- Machine Learning
- Algorithm
- programmers
- 인프런sql강의
- 코세라머신러닝
- 파이썬
- 안드류응
- 프로그래머스SQL
- POP
- 머신러닝
Archives
- Today
- Total
미래를 예측하는 데이터분석가
[python] Unicodedata 라이브러리를 이용해 구두점 문자 제거 본문
구두점 삭제
# 구두점 삭제
import unicodedata
import sys
# 텍스트를 만듬
text_data = ['Hi!!!! I. Love. This. Song....',
'10000% Agree!!!! #LoveIT',
'Right?!?!?!']
# 구두점 문자로 이룯어진 딕셔너리 생성
punctuation = dict.fromkeys(i for i in range(sys.maxunicode) if unicodedata.category(chr(i)).startswith('P'))
# 문자열의 구두점을 삭제
[string.translate(punctuation) for string in text_data]
[Output] ['Hi I Love This Song', '10000 Agree LoveIT', 'Right']
translate는 속도가 매우 빠른 함수로 유용하게 사용할 수 있는 인기 많은 함수입니다.
유니코드 구두점을 키로 하고 값은 None인 딕셔너리를 생성 후에 모든 Punctuation에 있는 모든 문자를 None으로 바꾸어 구두점을 삭제합니다.
'PYTHON > Data Handling' 카테고리의 다른 글
[python] 문자를 날짜로 datetime이용해 변환/그룹별 특정 칼럼의 비율, 누적합, 누적비율계산 (0) | 2021.01.23 |
---|---|
[python] 중복된 행 조회/삭제, 특정값 대체, 특정값을 포함한 행만 추출 (0) | 2021.01.20 |