Dataset Gratuito: 944 Conversas de Atendimento em Portugues
Lancei um dataset open-source de conversas de atendimento ao cliente em PT-BR. Ideal para treinar chatbots, classificadores de intencao e analise de sentimento.
Se voce ja tentou treinar um chatbot em portugues, sabe a dor: faltam dados. A maioria dos datasets publicos esta em ingles, e os poucos em portugues sao pequenos ou mal estruturados.
Por isso criei o Brazilian Customer Service Conversations - um dataset open-source com 944 conversas de atendimento ao cliente em portugues brasileiro.
O Que Tem no Dataset
O dataset contem conversas sinteticas de alta qualidade, simulando interacoes reais entre clientes e atendentes.
Numeros:
- 944 conversas completas
- ~7.000 mensagens no total
- Media de 7 turnos por conversa
- 8 setores diferentes
- 9 intencoes classificadas
- 3 niveis de sentimento
Setores Cobertos
As conversas cobrem diversos setores da economia brasileira:
- E-commerce - Pedidos, entregas, trocas
- Financeiro - Bancos, fintechs, cartoes
- Telecom - Internet, celular, TV
- Saude - Clinicas, laboratorios, farmacias
- Educacao - Escolas, cursos, matriculas
- Restaurante/Delivery - Pedidos, reclamacoes
- Imobiliario - Alugueis, vendas, visitas
- Tecnologia/SaaS - Suporte tecnico, assinaturas
Intencoes Classificadas
Cada conversa tem uma intencao principal identificada:
| Intencao | Descricao |
|---|---|
| saudacao | Cumprimento inicial |
| duvida_produto | Perguntas sobre produtos |
| duvida_servico | Perguntas sobre servicos |
| reclamacao | Problema ou insatisfacao |
| suporte_tecnico | Ajuda tecnica |
| compra | Intencao de comprar |
| cancelamento | Pedido de cancelamento |
| elogio | Feedback positivo |
| outros | Outras situacoes |
Como Usar
O dataset esta no HuggingFace e pode ser carregado com uma linha de codigo:
from datasets import load_dataset
dataset = load_dataset("RichardSakaguchiMS/brazilian-customer-service-conversations")
train = dataset["train"] # 755 conversas
validation = dataset["validation"] # 94 conversas
test = dataset["test"] # 95 conversas
Classificacao de Intencao
Para treinar um classificador de intencao:
# Primeira mensagem do cliente como input
X = [ex["messages"][0]["content"] for ex in dataset["train"]]
# Intencao como label
y = [ex["metadata"]["intent"] for ex in dataset["train"]]
Analise de Sentimento
Para treinar um modelo de sentimento:
# Concatena todas as mensagens da conversa
texts = [" ".join([m["content"] for m in ex["messages"]]) for ex in dataset["train"]]
# Sentimento: positive, neutral, negative
labels = [ex["metadata"]["sentiment"] for ex in dataset["train"]]
Estrutura dos Dados
Cada entrada tem o seguinte formato:
{
"id": "conv_00042",
"messages": [
{"role": "customer", "content": "Oi, preciso de ajuda"},
{"role": "agent", "content": "Ola! Como posso ajudar?"}
],
"metadata": {
"intent": "duvida_servico",
"sentiment": "neutral",
"sector": "ecommerce",
"turns": 2
}
}
Caracteristicas Linguisticas
O dataset captura o portugues brasileiro informal usado em atendimentos reais:
- Abreviacoes: vc, td, ta, pq, msg
- Girias: beleza, show, blz
- Informalidade controlada: Equilibrio entre casual e profissional
- Variacao de registro: Do formal ao informal
Casos de Uso
Ja pensei em alguns usos praticos:
- Treinar chatbots - Fine-tuning de LLMs como Llama, Mistral
- Classificar intencoes - Roteamento automatico de tickets
- Analisar sentimento - Detectar clientes insatisfeitos
- Gerar respostas - Base para modelos de resposta automatica
- Benchmark - Avaliar modelos de NLU em portugues
Limitacoes
Sendo honesto sobre o que o dataset NAO e:
- Sintetico - Gerado por LLM, nao sao conversas reais
- Vieses - Pode ter vieses do modelo gerador
- Escala - 944 conversas pode ser pouco para alguns usos
Para producao, recomendo complementar com dados reais da sua operacao.
Benchmark Inicial
Testei alguns modelos basicos para ter uma referencia:
| Tarefa | Metrica | Baseline |
|---|---|---|
| Classificacao de Intencao | F1-Score | ~0.72 |
| Analise de Sentimento | Accuracy | ~0.78 |
Tem espaco para melhorar com modelos mais sofisticados.
Acesse o Dataset
O dataset esta disponivel gratuitamente no HuggingFace:
brazilian-customer-service-conversations
Licenca Apache 2.0 - pode usar comercialmente.
Se voce usar o dataset em algum projeto, me conta! Fico curioso pra ver o que a comunidade vai criar com isso.