Sentiment-Analysis / data_clean.py
msi
first commit
dd38019
raw
history blame contribute delete
754 Bytes
import re
import emoji
import unicodedata
def clean_text(text):
# 1. Supprimer les URLs
text = re.sub(r"http\S+|www\S+|https\S+", "", text)
# 2. Supprimer les mentions @
text = re.sub(r"@\w+", "", text)
# 3. Supprimer les hashtags (garder le mot ou tout enlever ? ici on garde le mot)
text = re.sub(r"#(\w+)", r"\1", text)
# 4. Supprimer les emojis
text = emoji.replace_emoji(text, replace="")
# 5. Supprimer les caractères spéciaux (sauf lettres, chiffres et ponctuation de base)
text = re.sub(r"[^a-zA-ZÀ-ÿ0-9\s.,!?;:()\"'-]", " ", text)
# 6. Normaliser en minuscules
text = text.lower()
# 7. Supprimer les espaces multiples
text = re.sub(r"\s+", " ", text).strip()
return text