정규식

[ 정규식 ] emoji 이모티콘 제거하기

쟈누이 2021. 3. 18. 17:39
반응형

 

 

1. 제거 방법


이모티콘을 제거하는 방법은 간단하다.

이모티콘은 utf-8 또는 ascii 코드로 인코딩되어 있기 때문에 

이모티콘을 한번 인코딩하는 과정을 거쳐준 후에 디코딩으로 제거하면 된다.

인코딩 할때 'ignore' 를 써주는 것을 까먹지 말자

 

 

 

2.  예시


1) 일반적인 사용방법

def rm_emoji(Data):
    return Data.encode('utf-8', 'ignore').decode('utf-8')

 

 

2) 1번으로도 이모지가 제거가 안될 때는 아래와 같은 방법을 사용

- utf8 --> ascii 로 바꾼다

# remove emoji
def rm_emoji(data):
    return data.encode('ascii', 'ignore').decode('ascii')

 

3) 1, 2 번이 모두 통하지 않고 euc-kr 등에서 쓰이는 이모지 등이 포함되었을 경우에 추후 아래의 링크를 참고하여, 이모티콘을 제거해볼 것

 

studyprogram.tistory.com/1

 

Python에서 텍스트 안의 이모지(emoji)제거하기

파이썬으로 텍스트를 처리하던 도중 안에 이모지가 있으면 처리를 못해서 에러가 나는 일이 있었습니다. 셀레니움 find_element_by_*****.send_key(text) 에서 text에 이모지가 있을 때 WebDriverException: unkno..

studyprogram.tistory.com

 

반응형