반응형

정규식 4

[ 정규식 ] 트윗의 해시 태크, 링크 제거하기

1. 방법 정규식을 통해서 완벽하게 제거하는 방법은 없지만, 최대한 많이 제거할 수 있는 방법은 아래와 같다. 아래의 정규식을 사용하면 많은 해시태그 및 링크를 제거할 수 있다. re.sub("(@[A-Za-z0-9]+)|([^0-9A-Za-z \t])|(\w+:\/\/\S+)"," ",x).split() 정상적으로 실행되면 아래와 같이 된다. 2. 참고 링크 pythonq.com/so/python/363065 python - 정규식을 사용하여 트윗의 해시 태그, @user, 링크를 제거하는 방법 - IT 툴 넷 python - 정규식을 사용하여 트윗의 해시 태그, @user, 링크를 제거하는 방법 출처 python regex twitter Python을 사용하여 트윗을 사전 처리해야합니다. 이제 트윗의..

정규식 2021.03.22

[ 정규식 ] 괄호 안에 문자, 문장 제거하기

괄호 혹은 특수 문자를 포함하여 사이에 있는 글자 까지 모두 지울 수 있는 방법을 기록한다. 괄호 안의 경우 아래와 같이 정규식을 작성해주면 된다. 추후 참고하여 정규식을 작성할 것 import re re_text = 'haha(haha)' print(re.sub(r'\([^)]*\)', '', re_text)) # 출력 결과 : 'haha' 위의 \( \) 값 대신에 다른 특수문자를 사용해서 지우는 것도 가능하다 ( ) 괄호 대신에 다른 특수문자 ( ^, $, {, [ ) 등을 괄호가 들어가는 곳에 넣으면 된다. 예를들어 안의 글자를 지울때는 아래와 같이 하면 된다 re.sub(r'\', '', re_text)

정규식 2021.03.18

[ 정규식 ] emoji 이모티콘 제거하기

1. 제거 방법 이모티콘을 제거하는 방법은 간단하다. 이모티콘은 utf-8 또는 ascii 코드로 인코딩되어 있기 때문에 이모티콘을 한번 인코딩하는 과정을 거쳐준 후에 디코딩으로 제거하면 된다. 인코딩 할때 'ignore' 를 써주는 것을 까먹지 말자 2. 예시 1) 일반적인 사용방법 def rm_emoji(Data): return Data.encode('utf-8', 'ignore').decode('utf-8') 2) 1번으로도 이모지가 제거가 안될 때는 아래와 같은 방법을 사용 - utf8 --> ascii 로 바꾼다 # remove emoji def rm_emoji(data): return data.encode('ascii', 'ignore').decode('ascii') 3) 1, 2 번이 모두 ..

정규식 2021.03.18
반응형