Voltar ao blog

Dataset Gratuito: 944 Conversas de Atendimento em Portugues

Lancei um dataset open-source de conversas de atendimento ao cliente em PT-BR. Ideal para treinar chatbots, classificadores de intencao e analise de sentimento.

RS
Richard Sakaguchi Solution Architect

Se voce ja tentou treinar um chatbot em portugues, sabe a dor: faltam dados. A maioria dos datasets publicos esta em ingles, e os poucos em portugues sao pequenos ou mal estruturados.

Por isso criei o Brazilian Customer Service Conversations - um dataset open-source com 944 conversas de atendimento ao cliente em portugues brasileiro.

O Que Tem no Dataset

O dataset contem conversas sinteticas de alta qualidade, simulando interacoes reais entre clientes e atendentes.

Numeros:

  • 944 conversas completas
  • ~7.000 mensagens no total
  • Media de 7 turnos por conversa
  • 8 setores diferentes
  • 9 intencoes classificadas
  • 3 niveis de sentimento

Setores Cobertos

As conversas cobrem diversos setores da economia brasileira:

  • E-commerce - Pedidos, entregas, trocas
  • Financeiro - Bancos, fintechs, cartoes
  • Telecom - Internet, celular, TV
  • Saude - Clinicas, laboratorios, farmacias
  • Educacao - Escolas, cursos, matriculas
  • Restaurante/Delivery - Pedidos, reclamacoes
  • Imobiliario - Alugueis, vendas, visitas
  • Tecnologia/SaaS - Suporte tecnico, assinaturas

Intencoes Classificadas

Cada conversa tem uma intencao principal identificada:

IntencaoDescricao
saudacaoCumprimento inicial
duvida_produtoPerguntas sobre produtos
duvida_servicoPerguntas sobre servicos
reclamacaoProblema ou insatisfacao
suporte_tecnicoAjuda tecnica
compraIntencao de comprar
cancelamentoPedido de cancelamento
elogioFeedback positivo
outrosOutras situacoes

Como Usar

O dataset esta no HuggingFace e pode ser carregado com uma linha de codigo:

from datasets import load_dataset

dataset = load_dataset("RichardSakaguchiMS/brazilian-customer-service-conversations")

train = dataset["train"]       # 755 conversas
validation = dataset["validation"]  # 94 conversas
test = dataset["test"]         # 95 conversas

Classificacao de Intencao

Para treinar um classificador de intencao:

# Primeira mensagem do cliente como input
X = [ex["messages"][0]["content"] for ex in dataset["train"]]

# Intencao como label
y = [ex["metadata"]["intent"] for ex in dataset["train"]]

Analise de Sentimento

Para treinar um modelo de sentimento:

# Concatena todas as mensagens da conversa
texts = [" ".join([m["content"] for m in ex["messages"]]) for ex in dataset["train"]]

# Sentimento: positive, neutral, negative
labels = [ex["metadata"]["sentiment"] for ex in dataset["train"]]

Estrutura dos Dados

Cada entrada tem o seguinte formato:

{
  "id": "conv_00042",
  "messages": [
    {"role": "customer", "content": "Oi, preciso de ajuda"},
    {"role": "agent", "content": "Ola! Como posso ajudar?"}
  ],
  "metadata": {
    "intent": "duvida_servico",
    "sentiment": "neutral",
    "sector": "ecommerce",
    "turns": 2
  }
}

Caracteristicas Linguisticas

O dataset captura o portugues brasileiro informal usado em atendimentos reais:

  • Abreviacoes: vc, td, ta, pq, msg
  • Girias: beleza, show, blz
  • Informalidade controlada: Equilibrio entre casual e profissional
  • Variacao de registro: Do formal ao informal

Casos de Uso

Ja pensei em alguns usos praticos:

  1. Treinar chatbots - Fine-tuning de LLMs como Llama, Mistral
  2. Classificar intencoes - Roteamento automatico de tickets
  3. Analisar sentimento - Detectar clientes insatisfeitos
  4. Gerar respostas - Base para modelos de resposta automatica
  5. Benchmark - Avaliar modelos de NLU em portugues

Limitacoes

Sendo honesto sobre o que o dataset NAO e:

  • Sintetico - Gerado por LLM, nao sao conversas reais
  • Vieses - Pode ter vieses do modelo gerador
  • Escala - 944 conversas pode ser pouco para alguns usos

Para producao, recomendo complementar com dados reais da sua operacao.

Benchmark Inicial

Testei alguns modelos basicos para ter uma referencia:

TarefaMetricaBaseline
Classificacao de IntencaoF1-Score~0.72
Analise de SentimentoAccuracy~0.78

Tem espaco para melhorar com modelos mais sofisticados.

Acesse o Dataset

O dataset esta disponivel gratuitamente no HuggingFace:

brazilian-customer-service-conversations

Licenca Apache 2.0 - pode usar comercialmente.


Se voce usar o dataset em algum projeto, me conta! Fico curioso pra ver o que a comunidade vai criar com isso.

Gostou do conteudo?

Descubra como implementar IA no seu negocio com uma analise gratuita.

Agendar Analise Gratuita

Pronto para automatizar seu atendimento?

Agende uma analise gratuita e descubra como IA pode transformar seu negocio.

Agendar Analise Gratuita