Initial commit with local files

Browse files

Files changed (9) hide show

.gitattributes +1 -0
LICENSE +19 -0
README.md +362 -0
config.json +185 -0
melhor_modelo.pkl +3 -0
model_card.md +337 -0
requirements.txt +4 -0
scaler.pkl +3 -0
tfidf_vectorizer.pkl +3 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1 @@


1	+ *.pkl filter=lfs diff=lfs merge=lfs -text

LICENSE ADDED Viewed

	@@ -0,0 +1,19 @@

+Copyright (c) 2018 The Python Packaging Authority
+Permission is hereby granted, free of charge, to any person obtaining a copy
+of this software and associated documentation files (the "Software"), to deal
+in the Software without restriction, including without limitation the rights
+to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+copies of the Software, and to permit persons to whom the Software is
+furnished to do so, subject to the following conditions:
+The above copyright notice and this permission notice shall be included in all
+copies or substantial portions of the Software.
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+SOFTWARE.

README.md ADDED Viewed

	@@ -0,0 +1,362 @@

+---
+language: pt
+license: mit
+tags:
+  - text-classification
+  - clickbait-detection
+  - portuguese
+  - sklearn
+  - random-forest
+datasets:
+  - custom
+metrics:
+  - accuracy
+  - f1
+  - precision
+  - recall
+model-index:
+- name: Detector de Clickbait BR
+  results:
+  - task:
+      type: text-classification
+      name: Text Classification
+    metrics:
+    - type: accuracy
+      value: 0.970
+      name: Accuracy
+    - type: f1
+      value: 0.972
+      name: F1 Score
+    - type: precision
+      value: 0.982
+      name: Precision
+    - type: recall
+      value: 0.961
+      name: Recall
+---
+# 🔍 Detector de Clickbait BR - Model
+Modelo de Machine Learning para detecção de manchetes clickbait em português brasileiro.
+## 📊 Descrição
+Este modelo foi treinado para classificar manchetes de notícias em duas categorias:
+- **Não-Clickbait** (0): Manchetes informativas e objetivas
+- **Clickbait** (1): Manchetes sensacionalistas e enganosas
+## 🎯 Performance
+| Métrica | Valor |
+|---------|-------|
+| **Acurácia** | 97.1% |
+| **Precisão** | 98.3% |
+| **Recall** | 96.2% |
+| **F1-Score** | 97.2% |
+### 📈 Comparação de Modelos
+Durante o desenvolvimento, foram treinados e comparados 9 modelos diferentes:
+|Ranking | Modelo             | Acurácia | F1-Score |
+|--------|--------------------|----------|----------|
+| 🥇 |**RF Otimizado** 🏆    | 0.970635 | 0.972112 |
+| 🥈 |Random Forest       | 0.970110 | 0.971543 |
+| 🥉 |Stacking            | 0.968013 | 0.969757 |
+| 4º |SVM                 | 0.966964 | 0.968453 |
+| 5º |Voting (Soft)       | 0.966439 | 0.967936 |
+| 6º |Voting (Hard)       | 0.965915 | 0.967287 |
+| 7º |Regressão Logística | 0.959622 | 0.961131 |
+| 8º |Naive Bayes         | 0.907708 | 0.915870 |
+| 9º |Baseline            | 0.467750 | 0.000000 |
+*🏆 = Modelo final publicado*
+## 🧠 Arquitetura
+### Modelo Final: Random Forest Otimizado
+**Características:**
+- **Tipo:** RandomForestClassifier (Scikit-learn)
+- **Otimização:** RandomizedSearchCV
+- **Iterações de busca:** 50 combinações testadas
+- **Validação cruzada:** 5-fold StratifiedKFold
+- **Métrica de otimização:** F1-Score
+**Hiperparâmetros Otimizados:**
+O modelo testou combinações de:
+- `n_estimators`: [100, 200, 300, 500]
+- `max_depth`: [None, 10, 20, 30, 50]
+- `min_samples_split`: [2, 5, 10]
+- `min_samples_leaf`: [1, 2, 4]
+- `max_features`: ['sqrt', 'log2', None]
+- `bootstrap`: [True, False]
+**Features de Entrada:** 204 dimensões
+**1. TF-IDF Features (200 dimensões):**
+- Vocabulário: 5.000 termos mais frequentes
+- N-grams: unigramas e bigramas (1-2)
+- Min Document Frequency: 2
+- Analyzer: word-level
+**2. Features Numéricas (4 dimensões):**
+- `word_count`: Número de palavras na manchete
+- `char_count`: Número de caracteres total
+- `exclamation_count`: Quantidade de pontos de exclamação (!)
+- `question_count`: Quantidade de pontos de interrogação (?)
+**Pré-processamento:**
+- Normalização: StandardScaler (features numéricas)
+- Text processing: lowercase, stopwords removal (português), tokenização
+- TF-IDF vectorization aplicada ao texto processado
+## 📚 Dataset
+- **Total**: 9.532 manchetes
+- **Fonte**: Portais de notícias brasileiros (diversos domínios)
+- **Distribuição de Classes**:
+  - Não-Clickbait: 4.457 (46.76%)
+  - Clickbait: 5.075 (53.24%)
+- **Split**: 80% treino (7.625) / 20% teste (1.907)
+- **Estratégia de Validação**: 5-fold cross-validation
+- **Random State**: 42 (reprodutibilidade garantida)
+### Exemplos do Dataset
+**Não-Clickbait:**
+- "Banco Central mantém a taxa Selic em 13,75% ao ano"
+- "Governo aprova reforma tributária no Congresso"
+- "Estudo da USP revela novos dados sobre mudanças climáticas"
+**Clickbait:**
+- "O pesadelo dos investidores: a decisão do Banco Central que vai destruir seus lucros!"
+- "Descubra o segredo para emagrecer 10kg em 7 dias!!!"
+- "Este truque simples vai MUDAR sua vida para sempre"
+## 🚀 Como Usar
+### Instalação
+```bash
+pip install scikit-learn nltk pandas numpy huggingface_hub
+```
+### Carregar Modelo
+```python
+from huggingface_hub import hf_hub_download
+import pickle
+# Download dos arquivos
+modelo_path = hf_hub_download(
+    repo_id="rodrigoaraujorosa/detector-clickbait-br-model",
+    filename="melhor_modelo.pkl"
+)
+tfidf_path = hf_hub_download(
+    repo_id="rodrigoaraujorosa/detector-clickbait-br-model",
+    filename="tfidf_vectorizer.pkl"
+)
+scaler_path = hf_hub_download(
+    repo_id="rodrigoaraujorosa/detector-clickbait-br-model",
+    filename="scaler.pkl"
+)
+# Carregar
+with open(modelo_path, 'rb') as f:
+    modelo = pickle.load(f)
+with open(tfidf_path, 'rb') as f:
+    tfidf = pickle.load(f)
+with open(scaler_path, 'rb') as f:
+    scaler = pickle.load(f)
+```
+### Fazer Predição
+```python
+import re
+import numpy as np
+import pandas as pd
+from nltk.corpus import stopwords
+# Configurar
+stop_words = set(stopwords.words('portuguese'))
+def preprocessar_texto(texto):
+    texto = texto.lower()
+    texto_limpo = re.sub(r'[^\w\s]', ' ', texto)
+    palavras = [p for p in texto_limpo.split() if p not in stop_words and p.strip()]
+    return ' '.join(palavras)
+def extrair_features_numericas(texto):
+    return [len(texto.split()), len(texto), texto.count('!'), texto.count('?')]
+def prever(texto):
+    # Features numéricas
+    features_num = extrair_features_numericas(texto)
+    # TF-IDF
+    texto_proc = preprocessar_texto(texto)
+    tfidf_feat = tfidf.transform([texto_proc]).toarray()
+    # Normalizar
+    features_scaled = scaler.transform([features_num])
+    # Combinar
+    features_final = np.hstack([tfidf_feat, features_scaled])
+    # Criar DataFrame com nomes de features
+    feature_names = list(tfidf.get_feature_names_out()) + ['word_count', 'char_count', 'exclamation_count', 'question_count']
+    features_df = pd.DataFrame(features_final, columns=feature_names)
+    # Predição
+    pred = modelo.predict(features_df)[0]
+    prob = modelo.predict_proba(features_df)[0]
+    return {
+        'classe': 'Clickbait' if pred == 1 else 'Não-Clickbait',
+        'confianca': float(prob[pred]),
+        'probabilidades': {
+            'nao_clickbait': float(prob[0]),
+            'clickbait': float(prob[1])
+        }
+    }
+# Exemplo
+resultado = prever("Você não vai acreditar no que aconteceu!")
+print(resultado)
+# {'classe': 'Clickbait', 'confianca': 0.97, 'probabilidades': {'nao_clickbait': 0.03, 'clickbait': 0.97}}
+```
+## 📝 Exemplos de Uso
+```python
+# Não-Clickbait
+prever("Banco Central mantém a taxa Selic em 13,75% ao ano")
+# {'classe': 'Não-Clickbait', 'confianca': 0.98}
+prever("Governo aprova reforma tributária no Congresso")
+# {'classe': 'Não-Clickbait', 'confianca': 0.96}
+# Clickbait
+prever("Descubra o segredo que ninguém te conta!!!")
+# {'classe': 'Clickbait', 'confianca': 0.99}
+prever("Este truque simples vai MUDAR sua vida para sempre")
+# {'classe': 'Clickbait', 'confianca': 0.95}
+```
+## 🔬 Metodologia
+### 1. Coleta de Dados
+- Raw Dataset: 10.565 manchetes iniciais coletadas
+- 634 duplicatas removidas (6.0%)
+- Dataset final: 9.532 manchetes únicas
+- Balanceamento ~50/50 entre classes
+### 2. Pré-processamento
+- **Limpeza:** Remoção de duplicatas
+- **Text processing:**
+  - Conversão para lowercase
+  - Remoção de pontuação (após extração de features)
+  - Remoção de stopwords em português (NLTK)
+  - Tokenização
+  - Stemming: não aplicado (testes mostraram performance similar)
+### 3. Engenharia de Features
+- **TF-IDF Vectorization:**
+  - Max features: 5.000 termos
+  - N-grams: 1-2 (unigramas e bigramas)
+  - Min DF: 2 (termo aparece em ≥2 documentos)
+  - Result: 200 features mais relevantes selecionadas
+- **Features Numéricas:**
+  - Contagem de palavras, caracteres, pontuação
+  - Normalização com StandardScaler
+  - Total: 4 features numéricas
+### 4. Treinamento
+- **Modelos testados:** 9 (baseline + 4 individuais + RF otimizado + 3 ensembles)
+- **Otimização:** RandomizedSearchCV
+  - 50 iterações
+  - 5-fold cross-validation
+  - Busca em espaço de 576 combinações possíveis
+- **Hardware:** CPU (tempo de treinamento: ~22 minutos)
+- **Best model selection:** Baseado em F1-Score
+### 5. Avaliação
+- **Métricas:** Accuracy, Precision, Recall, F1-Score
+- **Test set:** 1.907 exemplos (20% do dataset)
+- **Validation:** 5-fold Stratified Cross-Validation
+- **Análise de erros:** Identificação de falsos positivos/negativos
+## 🏆 Por que Random Forest Otimizado?
+### ✅ Vantagens:
+1. **Performance Superior:** 97.2% F1-Score (melhor entre 9 modelos)
+2. **Alta Precisão:** 98.3% - minimiza falsos positivos
+3. **Bom Recall:** 96.2% - captura maioria dos clickbaits
+4. **Robusto:** Ensemble de 100-500 árvores (reduz overfitting)
+5. **Feature Importance:** Identifica features mais relevantes
+6. **Generalização:** Cross-validation confirma estabilidade
+7. **Não-linear:** Captura interações complexas entre features
+8. **Menos sensível a outliers:** Natureza ensemble do RF
+### 📊 Comparação com Alternativas:
+- **vs. Stacking (3º lugar):** +0.2% F1, mais simples de interpretar
+- **vs. SVM (4º):** +0.4% F1, mais rápido para treinar
+- **vs. Voting Soft (5º):** +0.4% F1, modelo único (mais fácil deploy)
+- **vs. Regressão Logística (7º):** +1.1% F1, captura não-linearidades
+-
+## ⚠️ Limitações
+- ✅ **Idioma:** Apenas português brasileiro
+- ✅ **Domínio:** Otimizado para manchetes de notícias
+- ⚠️ **Generalização:** Pode ter performance reduzida em outros domínios (e-commerce, redes sociais, etc.)
+- ⚠️ **Contexto:** Não considera contexto temporal ou autoria
+- ⚠️ **Sarcasmo/Ironia:** Pode ter dificuldade com textos irônicos
+## 📈 Melhorias Futuras
+- [ ] Aumentar dataset (→10k+ exemplos)
+- [ ] Testar modelos Transformer (BERTimbau, mBERT)
+- [ ] Adicionar features contextuais (fonte, timestamp, autor)
+- [ ] Expandir para outros idiomas (espanhol, inglês)
+- [ ] Fine-tuning com dados mais recentes
+- [ ] Deploy em produção com monitoramento de drift
+- [ ] A/B testing de modelos em produção
+## 📄 Licença
+MIT License - Uso livre para fins acadêmicos e comerciais.
+## 🤝 Citação
+```bibtex
+@misc{detector-clickbait-br-model,
+  author = {Rodrigo de Araujo Rosa},
+  title = {Detector de Clickbait BR: Modelo de ML para Detecção de Clickbait em Português},
+  year = {2025},
+  publisher = {Hugging Face},
+  journal = {Hugging Face Model Hub},
+  howpublished = {\url{https://huggingface.co/rodrigoaraujorosa/detector-clickbait-br-model}}
+}
+```
+### APA
+```
+ROSA, Rodrigo de Araujo. (2025). Detector de Clickbait BR: Random Forest Classifier for Brazilian Portuguese Clickbait Detection. Hugging Face Model Hub. https://huggingface.co/rodrigoaraujorosa/detector-clickbait-br-model
+```
+## 🔗 Links
+- **🚀 Demo Interativa:** [Hugging Face Space](https://huggingface.co/spaces/rodrigoaraujorosa/detector-clickbait-br)
+- **💻 Código Fonte:** [GitHub Repository](https://github.com/rodrigoaraujorosa/detector-clickbait-br)
+- **📊 Notebooks:** [Análise Exploratória + Treinamento](https://github.com/rodrigoaraujorosa/detector-clickbait-br/notebooks)
+- **📚 Raw Dataset:**
+- **📧 Contato:** rodrigoaraujo.r@gmail.com
+- **🔗LinkedIn:** [Rodrigo de Araujo Rosa](https://www.linkedin.com/in/rodrigoaraujorosa/)
+---

config.json ADDED Viewed

	@@ -0,0 +1,185 @@

+{
+  "model_name": "detector-clickbait-br-model",
+  "version": "1.0.0",
+  "model_type": "sklearn",
+  "task": "text-classification",
+  "framework": "scikit-learn",
+  "sklearn_version": "1.7.2",
+  "language": "pt",
+  "license": "mit",
+  "pipeline": {
+    "preprocessor": "tfidf_vectorizer.pkl",
+    "scaler": "scaler.pkl",
+    "model": "melhor_modelo.pkl"
+  },
+  "model_architecture": {
+    "type": "Random Forest Classifier (Optimized)",
+    "base_model": "RandomForestClassifier",
+    "optimization": {
+      "method": "RandomizedSearchCV",
+      "n_iter": 50,
+      "cv_folds": 5,
+      "scoring": "f1",
+      "random_state": 42
+    },
+    "hyperparameters": {
+      "note": "Optimized via RandomizedSearchCV",
+      "search_space": {
+        "n_estimators": [100, 200, 300, 500],
+        "max_depth": ["None", 10, 20, 30, 50],
+        "min_samples_split": [2, 5, 10],
+        "min_samples_leaf": [1, 2, 4],
+        "max_features": ["sqrt", "log2", "None"],
+        "bootstrap": [true, false]
+      }
+    },
+    "best_params": "See model object for details"
+  },
+  "features": {
+    "tfidf": {
+      "max_features": 5000,
+      "ngram_range": [1, 2],
+      "min_df": 2,
+      "vocabulary_size": 200,
+      "analyzer": "word"
+    },
+    "numeric": [
+      "word_count",
+      "char_count",
+      "exclamation_count",
+      "question_count"
+    ],
+    "total_features": 204
+  },
+  "dataset": {
+    "total_samples": 9532,
+    "train_samples": 7625,
+    "test_samples": 1907,
+    "train_test_split": 0.8,
+    "random_state": 42,
+    "stratified": true,
+    "class_distribution": {
+      "non_clickbait": {
+        "count": 4457,
+        "percentage": 46.76
+      },
+      "clickbait": {
+        "count": 5075,
+        "percentage": 53.24
+      }
+    }
+  },
+  "performance": {
+    "test_set": {
+      "accuracy": 0.9706,
+      "precision": 0.9829,
+      "recall": 0.9616,
+      "f1_score": 0.9721,
+      "note": "Best performing model among 9 tested"
+    },
+    "cross_validation": {
+      "cv_folds": 5,
+      "cv_strategy": "StratifiedKFold",
+      "note": "Used during RandomizedSearchCV"
+    }
+  },
+  "classes": {
+    "0": "Não-Clickbait",
+    "1": "Clickbait"
+  },
+  "preprocessing": {
+    "text": {
+      "lowercase": true,
+      "remove_stopwords": true,
+      "stopwords_language": "portuguese",
+      "stemming": false,
+      "remove_punctuation": false,
+      "note": "Punctuation preserved for feature extraction"
+    },
+    "numeric_features": {
+      "scaler": "StandardScaler",
+      "features_scaled": [
+        "word_count",
+        "char_count",
+        "exclamation_count",
+        "question_count"
+      ]
+    }
+  },
+  "model_comparison": {
+    "models_tested": 9,
+    "ranking_by_f1": [
+      {
+        "rank": 1,
+        "model": "RF Otimizado",
+        "f1_score": 0.9721,
+        "accuracy": 0.9706
+      },
+      {
+        "rank": 2,
+        "model": "Random Forest",
+        "f1_score": 0.9715,
+        "accuracy": 0.9701
+      },
+      {
+        "rank": 3,
+        "model": "Stacking",
+        "f1_score": 0.9698,
+        "accuracy": 0.9680
+      },
+      {
+        "rank": 4,
+        "model": "SVM",
+        "f1_score": 0.9685,
+        "accuracy": 0.9670
+      },
+      {
+        "rank": 5,
+        "model": "Voting (Soft)",
+        "f1_score": 0.9679,
+        "accuracy": 0.9664
+      },
+      {
+        "rank": 6,
+        "model": "Voting (Hard)",
+        "f1_score": 0.9673,
+        "accuracy": 0.9659
+      },
+      {
+        "rank": 7,
+        "model": "Regressão Logística",
+        "f1_score": 0.9611,
+        "accuracy": 0.9596
+      },
+      {
+        "rank": 8,
+        "model": "Naive Bayes",
+        "f1_score": 0.9159,
+        "accuracy": 0.9077
+      },
+      {
+        "rank": 9,
+        "model": "Baseline",
+        "f1_score": 0.4678,
+        "accuracy": 0.0000
+      }
+    ]
+  },
+  "inference": {
+    "input_format": "string (headline text)",
+    "output_format": {
+      "prediction": "string (Clickbait or Não-Clickbait)",
+      "probabilities": {
+        "non_clickbait": "float",
+        "clickbait": "float"
+      }
+    },
+    "preprocessing_required": true
+  },
+  "training_info": {
+    "date": "2025",
+    "training_time": "~22 minutes (optimization included)",
+    "hardware": "CPU",
+    "random_state": 42
+  }
+}

melhor_modelo.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:070ef58afcd8b3e96d103270c0ebdd3bba1fb759a146e62e2088c7530beddd9d
+size 5601765

model_card.md ADDED Viewed

	@@ -0,0 +1,337 @@

+---
+language: pt
+license: mit
+tags:
+  - text-classification
+  - clickbait-detection
+  - portuguese
+  - sklearn
+  - random-forest
+datasets:
+  - custom
+metrics:
+  - accuracy
+  - f1
+  - precision
+  - recall
+model-index:
+- name: Detector de Clickbait BR
+  results:
+  - task:
+      type: text-classification
+      name: Text Classification
+    dataset:
+      name: Custom Brazilian Headlines
+      type: custom
+    metrics:
+    - type: accuracy
+      value: 0.9706
+      name: Accuracy
+    - type: f1
+      value: 0.9721
+      name: F1 Score
+    - type: precision
+      value: 0.9829
+      name: Precision
+    - type: recall
+      value: 0.9616
+      name: Recall
+---
+# Model Card: Detector de Clickbait BR
+## Model Details
+### Basic Information
+- **Developed by:** [Rodrigo de Araujo Rosa] ([GitHub](https://github.com/rodrigoaraujorosa))
+- **Model date:** November 2025
+- **Model version:** 1.0.0
+- **Model type:** Random Forest Classifier (Scikit-learn)
+- **Language:** Portuguese (pt-BR)
+- **License:** MIT
+- **Repository:** [GitHub](https://github.com/rodrigoaraujorosa/detector-clickbait-br)
+### Model Description
+Este modelo classifica manchetes de notícias em português brasileiro como **Clickbait** ou **Não-Clickbait**. Foi treinado usando Random Forest otimizado via RandomizedSearchCV, alcançando 97.2% de F1-Score.
+## Intended Use
+### Primary Intended Uses
+- ✅ Detectar manchetes clickbait em portais de notícias brasileiros
+- ✅ Filtrar conteúdo sensacionalista em agregadores de notícias
+- ✅ Análise de qualidade jornalística
+- ✅ Pesquisa acadêmica em detecção de clickbait
+### Primary Intended Users
+- Desenvolvedores de agregadores de notícias
+- Jornalistas e editores
+- Pesquisadores em NLP e jornalismo
+- Plataformas de fact-checking
+### Out-of-Scope Use Cases
+- ❌ **Outros idiomas:** Modelo treinado apenas em português brasileiro
+- ❌ **Outros domínios:** Não testado em e-commerce, redes sociais, marketing
+- ❌ **Textos longos:** Otimizado para manchetes (5-20 palavras)
+- ❌ **Classificação multiclasse:** Apenas binário (clickbait/não-clickbait)
+- ❌ **Decisões automatizadas sem supervisão humana:** Recomenda-se validação manual
+## Training Data
+### Dataset Overview
+- **Total de exemplos:** 9.532 manchetes únicas
+- **Fonte:** Portais de notícias brasileiros diversos
+- **Processo de limpeza:**
+  - 10,565 manchetes iniciais coletadas
+  - 634 duplicatas removidas (6.0%)
+### Class Distribution
+| Classe | Quantidade | Percentual |
+|--------|-----------|-----------|
+| Não-Clickbait | 4.457 | 46.8% |
+| Clickbait | 5.075 | 53.2% |
+### Train/Test Split
+- **Treino:** 7.625 exemplos (80%)
+- **Teste:** 1.907 exemplos (20%)
+- **Estratégia:** Stratified split (random_state=42)
+- **Validação:** 5-fold Stratified Cross-Validation
+### Data Collection
+Manchetes coletadas de múltiplos portais brasileiros para garantir diversidade:
+- Portais generalistas
+- Portais especializados (economia, esportes, entretenimento)
+### Annotation Process
+- Anotação manual por [especificar processo]
+- Critérios de clickbait:
+  - Títulos sensacionalistas
+  - Uso excessivo de pontuação emocional
+  - Omissão de informações cruciais
+  - Linguagem hiperbólica
+  - Apelo à curiosidade sem contexto
+## Evaluation
+### Testing Data
+- **Dataset de teste:** 1.907 manchetes (20% do total)
+- **Estratificação:** Mantém distribuição ~50/50 das classes
+- **Sem overlap:** Nenhum exemplo do treino no teste
+### Metrics
+#### Overall Performance (Test Set)
+| Métrica | Valor |
+|---------|-------|
+| **Accuracy** | 97.1% |
+| **Precision** | 98.3% |
+| **Recall** | 96.2% |
+| **F1-Score** | 97.2% |
+#### Confusion Matrix
+```
+                 Predicted
+               Non-CB  Clickbait
+Actual Non-CB    875      17
+       Clickbait  39    976
+```
+#### Cross-Validation
+- **Strategy:** 5-fold Stratified CV
+- **F1-Score (CV):** 97.0% ± 0.3%
+- **Consistency:** Alta estabilidade entre folds
+### Model Comparison
+Durante o desenvolvimento, 9 modelos foram testados:
+|Ranking | Modelo             | F1-Score |
+|--------|--------------------|----------|
+| 🥇 |**RF Otimizado** 🏆    | 97,2% |
+| 🥈 |Random Forest       | 97,2% |
+| 🥉 |Stacking            | 97,0% |
+| 4º |SVM                 | 96,8% |
+| 5º |Voting (Soft)       | 96,8% |
+| 6º |Voting (Hard)       | 96,7% |
+| 7º |Regressão Logística | 96,1% |
+| 8º |Naive Bayes         | 91,6% |
+| 9º |Baseline            | 00,0% |
+O **Random Forest Otimizado** foi selecionado por:
+- ✅ Melhor F1-Score
+- ✅ Alta precisão (98.3%)
+- ✅ Boa generalização (CV estável)
+- ✅ Interpretabilidade (feature importance)
+## Technical Specifications
+### Model Architecture
+- **Type:** RandomForestClassifier (Scikit-learn)
+- **Optimization:** RandomizedSearchCV
+  - 50 iterações
+  - Espaço de busca: 576 combinações
+  - Métrica: F1-Score
+  - CV: 5-fold Stratified
+### Features (204 dimensões)
+1. **TF-IDF Features (200):**
+   - Vocabulário: 5,000 termos
+   - N-grams: 1-2 (unigramas + bigramas)
+   - Min DF: 2
+2. **Numeric Features (4):**
+   - word_count
+   - char_count
+   - exclamation_count
+   - question_count
+### Preprocessing Pipeline
+```
+Texto Raw → Lowercase → Remove Stopwords → TF-IDF
+Features Numéricas → StandardScaler
+Combine → Random Forest → Predição
+```
+### Hardware & Software
+- **Framework:** Scikit-learn 1.7.2
+- **Python:** 3.8+
+- **Hardware:** CPU (treinamento ~22 min)
+- **Dependencies:** numpy, pandas, nltk
+## Ethical Considerations
+### Potential Biases
+#### Data Bias
+- ⚠️ **Viés de Fonte:** Dataset coletado de portais mainstream brasileiros
+- ⚠️ **Viés Regional:** Predominantemente português do Brasil
+- ⚠️ **Viés de Domínio:** Focado em jornalismo (não generaliza para marketing)
+#### Model Bias
+- ⚠️ **Precisão Alta (98.3%):** Pode rejeitar alguns clickbaits legítimos
+- ⚠️ **Recall Bom (96.2%):** ~4% de clickbaits passam despercebidos
+- ⚠️ **Feature Dependency:** Modelo sensível a contagem de pontuação (! e ?)
+### Limitations
+#### Technical Limitations
+1. **Não detecta sarcasmo/ironia**
+   - Manchetes irônicas podem ser classificadas incorretamente
+2. **Sensível a mudanças linguísticas**
+   - Novo vocabulário/gírias podem reduzir performance
+3. **Contexto limitado**
+   - Não considera: fonte, autor, histórico do portal
+4. **Textos curtos apenas**
+   - Otimizado para manchetes (5-20 palavras)
+   - Não funciona bem com textos longos (classifica textos longos como clickbait na maioria das vezes)
+#### Social Limitations
+1. **Definição de clickbait é subjetiva**
+   - O que é "sensacionalista" varia por contexto
+2. **Pode impactar liberdade editorial**
+   - Uso indiscriminado pode censurar títulos legítimos
+3. **Não substitui julgamento humano**
+   - Sempre requer validação por editores
+### Recommendations
+#### For Developers
+- ✅ **Sempre mostrar probabilidades** (não apenas classe)
+- ✅ **Implementar threshold ajustável** (balancear precisão/recall)
+- ✅ **Adicionar revisão humana** antes de ações automatizadas
+- ✅ **Monitorar concept drift** (retreinar periodicamente)
+- ✅ **Testar em seu domínio específico** antes de deploy
+#### For Users
+- ⚠️ **Não confiar 100% nas predições**
+- ⚠️ **Validar casos de alta incerteza** (prob ~50%)
+- ⚠️ **Considerar contexto da fonte**
+- ⚠️ **Reportar erros sistemáticos** para melhoria contínua
+## Caveats and Recommendations
+### Known Issues
+1. **Falsos Positivos:** Títulos legítimos com linguagem emocional
+2. **Falsos Negativos:** Clickbaits sutis sem sinais óbvios
+3. **Drift Temporal:** Performance pode degradar com o tempo
+### Maintenance
+- 🔄 **Retreinamento:** Recomendado a cada 6 meses
+- 📊 **Monitoramento:** Acompanhar métricas em produção
+- 🐛 **Feedback Loop:** Coletar erros para próxima versão
+### Usage Guidelines
+```python
+# ✅ BOM: Mostrar probabilidades
+resultado = model.predict_proba(texto)
+if resultado[1] > 0.7:
+    print("Alta confiança: Clickbait")
+elif resultado[1] > 0.5:
+    print("Média confiança: Revisar manualmente")
+# ❌ RUIM: Decisão binária automática
+if model.predict(texto) == 1:
+    deletar_manchete()  # Perigoso!
+```
+## How to Use
+### Installation
+```bash
+pip install scikit-learn nltk pandas numpy
+```
+### Quick Start
+```python
+from huggingface_hub import hf_hub_download
+import pickle
+# Download model
+model = hf_hub_download(repo_id="rodrigoaraujorosa/detector-clickbait-br-model",
+                        filename="melhor_modelo.pkl")
+# Load
+with open(model, 'rb') as f:
+    clf = pickle.load(f)
+# Predict
+resultado = clf.predict(["Você não vai acreditar!"])
+print(resultado)  # [1] = Clickbait
+```
+**Documentação completa:** Ver [README.md](README.md)
+## Citation
+### BibTeX
+```bibtex
+@misc{detector-clickbait-br-model,
+  author = {Rodrigo de Araujo Rosa},
+  title = {Detector de Clickbait BR: Random Forest Classifier for Brazilian Portuguese Clickbait Detection},
+  year = {2025},
+  publisher = {Hugging Face},
+  journal = {Hugging Face Model Hub},
+  howpublished = {\url{https://huggingface.co/rodrigoaraujorosa/detector-clickbait-br-model}}
+}
+```
+### APA
+```
+ROSA, Rodrigo de Araujo. (2025). Detector de Clickbait BR: Random Forest Classifier for Brazilian Portuguese Clickbait Detection. Hugging Face Model Hub. https://huggingface.co/rodrigoaraujorosa/detector-clickbait-br-model
+```
+## More Information
+- **Repository:** [GitHub](https://github.com/rodrigoaraujorosa/detector-clickbait-br)
+- **Demo:** [Hugging Face Space](https://huggingface.co/spaces/rodrigoaraujorosa/detector-clickbait-br)
+- **Contact:** rodrigoaraujo.r@gmail.com
+- **Paper:** [Link se houver]
+## Model Card Authors
+- [Rodrigo de Araujo Rosa] - Developer & Maintainer
+## Model Card Contact
+For questions or feedback: rodrigoaraujo.r@gmail.com

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+scikit-learn
+numpy
+pandas
+nltk

scaler.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d066df16a09bd3841bb71ae2899dad05321d9531b8ee760ed64a5df7d457a0c1
+size 546

tfidf_vectorizer.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e9fd48e2e391843ef76023f98d61443c58ce071fa79d9fd5405ef6fddbce68e
+size 8311