정규식

[ 정규식 ] 트윗의 해시 태크, 링크 제거하기

쟈누이 2021. 3. 22. 22:05
반응형

 

1. 방법


정규식을 통해서 완벽하게 제거하는 방법은 없지만, 최대한 많이 제거할 수 있는 방법은 아래와 같다.

 

 

아래의 정규식을 사용하면 많은 해시태그 및 링크를 제거할 수 있다.

re.sub("(@[A-Za-z0-9]+)|([^0-9A-Za-z \t])|(\w+:\/\/\S+)"," ",x).split()

 

정상적으로 실행되면 아래와 같이 된다.

 

 

2. 참고 링크


pythonq.com/so/python/363065

 

python - 정규식을 사용하여 트윗의 해시 태그, @user, 링크를 제거하는 방법 - IT 툴 넷

python - 정규식을 사용하여 트윗의 해시 태그, @user, 링크를 제거하는 방법 출처 python regex twitter Python을 사용하여 트윗을 사전 처리해야합니다. 이제 트윗의 모든 해시 태그, @ 사용자 및 링크를 각

pythonq.com

 

반응형