Nesta etapa, abordamos o processo de coleta, pré-processamento e estruturação dos dados para o desenvolvimento do framework. Os modelos foram refinados para responder ao diálogo do usuário e definir a intenção de identificar as entidades em sentenças. O uso exclusivo de dados obtidos de diálogos reais entre clientes da ConectCar durante três meses, no entanto, é insuficiente para treinar os modelos necessários, pois estes modelos requerem grandes quantidades de dados e exemplos de cada situação para obter bons resultados. Devido às limitações nos dados obtidos, foram exploradas bases de dados alternativas, como fóruns on-line que contém perguntas e respostas sendo construídas informalmente, com gírias e abreviações. Estas marcas linguísticas da escrita informal na Internet são essenciais para o treinamento destes tipos de modelos, pois são comuns nas interações chatbot.
Embora dados externos sejam uma boa solução para o treinamento de modelos, a falta de tais dados em português ainda é um obstáculo que precisa ser superado. Por causa disso, foi criada uma metodologia para padronizar a coleta, o processamento e a estruturação dos dados necessários a partir de fóruns on-line. A metodologia foi implementada em uma ferramenta que realiza todos os procedimentos necessários para preparar os dados a serem utilizados no treinamento. Com isto em mente, o único ponto em falta na obtenção dos dados é a escolha de um banco de dados que atenda aos seguintes requisitos:
A Figura abaixo introduz o desenvolvimento da geração dos dados e quais datasets serão utilizados. A primeira linha indica quais são as entradas para geração de cada dataset gerado ou adaptado. A segunda linha indica qual ferramenta ou abordagem foi utilizada para cada situação. A última linha, contendo as caixas verdes, indica quais datasets foram gerados por cada coluna.
As seções a seguir apresentam detalhadamente a metodologia proposta, a ferramenta implementada e dois conjuntos de dados gerados.