Spaces:
Sleeping
Sleeping
| import re | |
| import emoji | |
| import unicodedata | |
| def clean_text(text): | |
| # 1. Supprimer les URLs | |
| text = re.sub(r"http\S+|www\S+|https\S+", "", text) | |
| # 2. Supprimer les mentions @ | |
| text = re.sub(r"@\w+", "", text) | |
| # 3. Supprimer les hashtags (garder le mot ou tout enlever ? ici on garde le mot) | |
| text = re.sub(r"#(\w+)", r"\1", text) | |
| # 4. Supprimer les emojis | |
| text = emoji.replace_emoji(text, replace="") | |
| # 5. Supprimer les caractères spéciaux (sauf lettres, chiffres et ponctuation de base) | |
| text = re.sub(r"[^a-zA-ZÀ-ÿ0-9\s.,!?;:()\"'-]", " ", text) | |
| # 6. Normaliser en minuscules | |
| text = text.lower() | |
| # 7. Supprimer les espaces multiples | |
| text = re.sub(r"\s+", " ", text).strip() | |
| return text | |