반응형

정규식 5

[ 정규식 ] 트윗의 해시 태크, 링크 제거하기

1. 방법 정규식을 통해서 완벽하게 제거하는 방법은 없지만, 최대한 많이 제거할 수 있는 방법은 아래와 같다. 아래의 정규식을 사용하면 많은 해시태그 및 링크를 제거할 수 있다. re.sub("(@[A-Za-z0-9]+)|([^0-9A-Za-z \t])|(\w+:\/\/\S+)"," ",x).split() 정상적으로 실행되면 아래와 같이 된다. 2. 참고 링크 pythonq.com/so/python/363065 python - 정규식을 사용하여 트윗의 해시 태그, @user, 링크를 제거하는 방법 - IT 툴 넷 python - 정규식을 사용하여 트윗의 해시 태그, @user, 링크를 제거하는 방법 출처 python regex twitter Python을 사용하여 트윗을 사전 처리해야합니다. 이제 트윗의..

정규식 2021.03.22

[ 정규식 ] 괄호 안에 문자, 문장 제거하기

괄호 혹은 특수 문자를 포함하여 사이에 있는 글자 까지 모두 지울 수 있는 방법을 기록한다. 괄호 안의 경우 아래와 같이 정규식을 작성해주면 된다. 추후 참고하여 정규식을 작성할 것 import re re_text = 'haha(haha)' print(re.sub(r'\([^)]*\)', '', re_text)) # 출력 결과 : 'haha' 위의 \( \) 값 대신에 다른 특수문자를 사용해서 지우는 것도 가능하다 ( ) 괄호 대신에 다른 특수문자 ( ^, $, {, [ ) 등을 괄호가 들어가는 곳에 넣으면 된다. 예를들어 안의 글자를 지울때는 아래와 같이 하면 된다 re.sub(r'\', '', re_text)

정규식 2021.03.18

[ 정규식 ] emoji 이모티콘 제거하기

1. 제거 방법 이모티콘을 제거하는 방법은 간단하다. 이모티콘은 utf-8 또는 ascii 코드로 인코딩되어 있기 때문에 이모티콘을 한번 인코딩하는 과정을 거쳐준 후에 디코딩으로 제거하면 된다. 인코딩 할때 'ignore' 를 써주는 것을 까먹지 말자 2. 예시 1) 일반적인 사용방법 def rm_emoji(Data): return Data.encode('utf-8', 'ignore').decode('utf-8') 2) 1번으로도 이모지가 제거가 안될 때는 아래와 같은 방법을 사용 - utf8 --> ascii 로 바꾼다 # remove emoji def rm_emoji(data): return data.encode('ascii', 'ignore').decode('ascii') 3) 1, 2 번이 모두 ..

정규식 2021.03.18

[Python Error] TypeError: expected string or bytes-like object

1. 에러 원인 정규식을 사용했을 때 타입(type)이 맞지 않으면 해당 에러 발생 2. 해결방법 올바른 형태로 형변환을 해준다. 나의 경우에는 str 을 넣어야 되는데 list 를 계속 넣어주고 있어서 에러가 발생.. words = re.sub('[-=+,#/\?:^$.@*\"※~&%ㆍ!』\\‘|\(\)\[\]\`\'…》]', '', str(texts)) 3. 참고 링크 soraji.github.io/python/2019/07/21/rex/ [python] 파이썬 TypeError: expected string or bytes-like object TypeError: expected string or bytes-like object soraji.github.io

반응형