Notice

Recent Posts

Recent Comments

Link

« 2025/12 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

미래를 예측하는 데이터분석가

[python] Unicodedata 라이브러리를 이용해 구두점 문자 제거 본문

PYTHON/Data Handling

[python] Unicodedata 라이브러리를 이용해 구두점 문자 제거

잘하다연 2021. 1. 20. 09:29

구두점 삭제

# 구두점 삭제 
import unicodedata
import sys

# 텍스트를 만듬
text_data = ['Hi!!!! I. Love. This. Song....',
            '10000% Agree!!!! #LoveIT',
            'Right?!?!?!']
            
# 구두점 문자로 이룯어진 딕셔너리 생성
punctuation = dict.fromkeys(i for i in range(sys.maxunicode) if unicodedata.category(chr(i)).startswith('P'))

# 문자열의 구두점을 삭제 
[string.translate(punctuation) for string in text_data]

[Output] ['Hi I Love This Song', '10000 Agree LoveIT', 'Right']

translate는 속도가 매우 빠른 함수로 유용하게 사용할 수 있는 인기 많은 함수입니다.

유니코드 구두점을 키로 하고 값은 None인 딕셔너리를 생성 후에 모든 Punctuation에 있는 모든 문자를 None으로 바꾸어 구두점을 삭제합니다.

'PYTHON > Data Handling' 카테고리의 다른 글

[python] 문자를 날짜로 datetime이용해 변환/그룹별 특정 칼럼의 비율, 누적합, 누적비율계산 (0)	2021.01.23
[python] 중복된 행 조회/삭제, 특정값 대체, 특정값을 포함한 행만 추출 (0)	2021.01.20

'PYTHON/Data Handling' Related Articles

미래를 예측하는 데이터분석가

[python] Unicodedata 라이브러리를 이용해 구두점 문자 제거 본문

[python] Unicodedata 라이브러리를 이용해 구두점 문자 제거

구두점 삭제

'PYTHON > Data Handling' 카테고리의 다른 글

티스토리툴바