Dataset Gratuito: 944 Conversas de Atendimento em Portugues

Lancei um dataset open-source de conversas de atendimento ao cliente em PT-BR. Ideal para treinar chatbots, classificadores de intencao e analise de sentimento.

DatasetNLPMachine LearningChatbotOpen SourceHuggingFace

Se voce ja tentou treinar um chatbot em portugues, sabe a dor: faltam dados. A maioria dos datasets publicos esta em ingles, e os poucos em portugues sao pequenos ou mal estruturados.

Por isso criei o Brazilian Customer Service Conversations - um dataset open-source com 944 conversas de atendimento ao cliente em portugues brasileiro.

O Que Tem no Dataset

O dataset contem conversas sinteticas de alta qualidade, simulando interacoes reais entre clientes e atendentes.

Numeros:

  • 944 conversas completas
  • ~7.000 mensagens no total
  • Media de 7 turnos por conversa
  • 8 setores diferentes
  • 9 intencoes classificadas
  • 3 niveis de sentimento

Setores Cobertos

As conversas cobrem diversos setores da economia brasileira:

  • E-commerce - Pedidos, entregas, trocas
  • Financeiro - Bancos, fintechs, cartoes
  • Telecom - Internet, celular, TV
  • Saude - Clinicas, laboratorios, farmacias
  • Educacao - Escolas, cursos, matriculas
  • Restaurante/Delivery - Pedidos, reclamacoes
  • Imobiliario - Alugueis, vendas, visitas
  • Tecnologia/SaaS - Suporte tecnico, assinaturas

Intencoes Classificadas

Cada conversa tem uma intencao principal identificada:

IntencaoDescricao
saudacaoCumprimento inicial
duvida_produtoPerguntas sobre produtos
duvida_servicoPerguntas sobre servicos
reclamacaoProblema ou insatisfacao
suporte_tecnicoAjuda tecnica
compraIntencao de comprar
cancelamentoPedido de cancelamento
elogioFeedback positivo
outrosOutras situacoes

Como Usar

O dataset esta no HuggingFace e pode ser carregado com uma linha de codigo:

from datasets import load_dataset

dataset = load_dataset("RichardSakaguchiMS/brazilian-customer-service-conversations")

train = dataset["train"]       # 755 conversas
validation = dataset["validation"]  # 94 conversas
test = dataset["test"]         # 95 conversas

Classificacao de Intencao

Para treinar um classificador de intencao:

# Primeira mensagem do cliente como input
X = [ex["messages"][0]["content"] for ex in dataset["train"]]

# Intencao como label
y = [ex["metadata"]["intent"] for ex in dataset["train"]]

Analise de Sentimento

Para treinar um modelo de sentimento:

# Concatena todas as mensagens da conversa
texts = [" ".join([m["content"] for m in ex["messages"]]) for ex in dataset["train"]]

# Sentimento: positive, neutral, negative
labels = [ex["metadata"]["sentiment"] for ex in dataset["train"]]

Estrutura dos Dados

Cada entrada tem o seguinte formato:

{
  "id": "conv_00042",
  "messages": [
    {"role": "customer", "content": "Oi, preciso de ajuda"},
    {"role": "agent", "content": "Ola! Como posso ajudar?"}
  ],
  "metadata": {
    "intent": "duvida_servico",
    "sentiment": "neutral",
    "sector": "ecommerce",
    "turns": 2
  }
}

Caracteristicas Linguisticas

O dataset captura o portugues brasileiro informal usado em atendimentos reais:

  • Abreviacoes: vc, td, ta, pq, msg
  • Girias: beleza, show, blz
  • Informalidade controlada: Equilibrio entre casual e profissional
  • Variacao de registro: Do formal ao informal

Casos de Uso

Ja pensei em alguns usos praticos:

  1. Treinar chatbots - Fine-tuning de LLMs como Llama, Mistral
  2. Classificar intencoes - Roteamento automatico de tickets
  3. Analisar sentimento - Detectar clientes insatisfeitos
  4. Gerar respostas - Base para modelos de resposta automatica
  5. Benchmark - Avaliar modelos de NLU em portugues

Limitacoes

Sendo honesto sobre o que o dataset NAO e:

  • Sintetico - Gerado por LLM, nao sao conversas reais
  • Vieses - Pode ter vieses do modelo gerador
  • Escala - 944 conversas pode ser pouco para alguns usos

Para producao, recomendo complementar com dados reais da sua operacao.

Benchmark Inicial

Testei alguns modelos basicos para ter uma referencia:

TarefaMetricaBaseline
Classificacao de IntencaoF1-Score~0.72
Analise de SentimentoAccuracy~0.78

Tem espaco para melhorar com modelos mais sofisticados.

Acesse o Dataset

O dataset esta disponivel gratuitamente no HuggingFace:

brazilian-customer-service-conversations

Licenca Apache 2.0 - pode usar comercialmente.


Se voce usar o dataset em algum projeto, me conta! Fico curioso pra ver o que a comunidade vai criar com isso.