Automação
Salford Predictive Modeler
O SPM® 8 vem com mais de 70 cenários prontos, em sua maior parte experimentos, inspirados em como os principais profissionais de modelamento estruturam seu trabalho. Chamamos eles de “autômatos”. Esses “autômatos” ou experimentos criam vários modelos automaticamente, para que o analista possa ver as opções com facilidade.
Exemplo 1: Aplicações bancárias
Shaving automatizado
O shaving automatizado ajuda a identificar subconjuntos de dados informativos dentro de conjuntos de dados grandes que contêm variáveis correlacionadas dentro dos dados da conta. Com a automação, você pode conseguir uma redução de modelo significativa sacrificando muito pouco (ou nada) a precisão do modelo. Por exemplo, comece com uma lista completa de variáveis e execute o shaving automatizado começando por cima para eliminar variáveis que parecem promissoras na amostra de aprendizado, mas que falham em generalizar. Depois, você pode executar o shaving desde baixo para eliminar automaticamente um grande conjunto de preditores redundantes e desnecessários. Depois, acompanhe o “erro de shaving” para se concentrar nos subconjuntos de recursos mais informativos.
Ao contrário das ferramentas comuns de data mining, o shaving automatizado oferece mais que a lista comum de importância de variáveis. Além disso, o analista recebe um conjunto completo de subconjuntos/variações de importância de variáveis, que permite que ele otimize/selecione rapidamente a lista de variáveis finais e elimine a carga da repetição de testes. Os modeladores especializados normalmente devotam muito tempo e esforço na otimização de sua lista de importância de variáveis. O shaving automatizado automatiza esse processo.
Exemplo 2: Detecção de fraudes
Prioris automatizados
Em aplicações típicas de detecção de fraudes, o analista está preocupado em identificar diferentes conjuntos de regras que levam a uma possibilidade diferente de fraude. As árvores de decisão e a tecnologia de aumento de gradiente TreeNet® são normalmente usadas para criar regras de classificação para detecção de fraudes. Qualquer árvore de classificação é construída com base em um conjunto específico de probabilidades a priori, fornecido pelo usuário.
Um conjunto de probabilidades a priori forçará as árvores a procurar por regras com nível alto de fraude, enquanto que outros conjuntos produzirão árvores com suposições mais relaxadas. Para aproveitar ao máximo as abordagens de pesquisa de regras baseadas em árvore, os analistas experimentarão um número grande de configurações diferentes de probabilidades a priori. Esse processo é totalmente automatizado nos prioris automatizados. O resultado é uma grande coleção de regras, que vai desde segmentos de fraude de confiança extremamente alta com suporte baixo até indicação moderada de segmentos de fraudes com suporte muito amplo. Por exemplo, você pode identificar pequenos segmentos com 100% de fraude ou encontrar um segmento grande com probabilidade menor de fraude, e tudo entre esses dois extremos.
Exemplo 3: Pesquisas de mercado
MVI automatizado (indicadores de valores faltantes)
Em uma pesquisa, uma grande fração de informações pode estar faltando. É muito frequente que o entrevistado não responda às perguntas, pois não quer ou não consegue. Além da experiência da Salford Systems no tratamento de valores faltantes, um novo recurso de automação permite que o analista gere automaticamente vários modelos, incluindo: 1) um modelo que prevê respostas com base apenas no padrão dos valores faltantes; 2) um modelo que cria automaticamente indicadores de valores faltantes fictícios além do conjunto original de preditores; e/ou 3) um modelo que depende do tratamento interno específico ao mecanismo dos valores faltantes.
Exemplo 4: Aplicação em engenharia
Meta automatizada
Em uma aplicação moderna em engenharia, como parte do planejamento do experimento, um grande conjunto de pontos amostrados pode ser reunido sob diferentes condições de operação. Pode ser desafiador identificar dependências mútuas entre os diferentes parâmetros. Por exemplo, as temperaturas podem ser perfeitamente dependentes entre si ou podem estar em algumas funções desconhecidas de outras condições de operação, como pressão e/ou revoluções. A meta automatizada oferece meios poderosos para explorar e extrair automaticamente todas as dependências mútuas entre os preditores. Por “dependências”, queremos dizer uma relação potencialmente multivariada não linear que vai além da simplicidade de correlações convencionais. Além disso, como efeito colateral poderoso, esse autômato fornece meios gerais para imputação de valores faltantes, o que é extremamente útil para apoiar esses mecanismos de modelamento que não tratam diretamente dos valores faltantes.
Exemplo 5: Publicidade web
Amostra automatizada
Em uma aplicação de posicionamento de anúncio, é necessário equilibrar a quantidade de dados e o tempo que leva para concluir a criação do modelo. Na publicidade web, pode haver uma quantidade virtualmente ilimitada de dados. Embora seja ideal usar todos os dados disponíveis, há sempre um limite de quanto pode ser usado para implantações em tempo real. A amostra automatizada permite que o analista explore automaticamente o impacto de se conhecer o tamanho amostral na precisão do modelo. Por exemplo, você pode descobrir que usar 200 milhões de transações não fornece nenhum benefício adicional em termos de precisão do modelo em comparação com 100 milhões de transações.
Exemplo 6: Aplicação de micromatriz
TARGETSHUFFLE automatizado
Conjuntos de dados de pesquisa de micromatriz são caracterizados por um número extremamente grande de preditores (genes) e um número muito limitado de registros (pacientes). Isso cria uma grande área de ambiguidade que resulta do fato de que, mesmo um subconjunto aleatório de preditores pode produzir um modelo que parece perfeitamente bom. O TARGETSHUFFLE automatizado permite determinar se o desempenho do modelo é tão preciso quanto parece ser. O TARGETSHUFFLE automatizado constrói automaticamente um grande número de modelos auxiliares com base em variáveis alvo aleatoriamente misturadas. Ao comparar o modelo de desempenho real com a distribuição de referência (nenhum modelo de dependência), uma decisão final sobre o desempenho do modelo pode ser tomada. Essa tecnologia pode resultar em desafios para alguns dos artigos produzidos em pesquisa de micromatriz. Se um conjunto de dados com dependência de meta destruída deliberadamente pode fornecer um modelo com boa precisão, então depender do modelo original torna-se bastante dúbio.
O QUE FAZEMOS
Os produtos da Minitab ajudam as empresas a aumentarem a eficiência e melhorarem a qualidade por meio de análise inteligente de dados.
Salford Predictive Modeler® 8
Pacote integrado de software de aprendizado de máquina da Minitab
CART®
O mecanismo de modelamento CART® do SPM é a árvore de classificação definitiva que revolucionou o campo da análise avançada e inaugurou a era atual de ciência de dados.
Random Forests®
O software Random Forests® é uma ferramenta de modelamento que aproveita o poder de várias análises alternativas, estratégias de aleatorização e aprendizado em conjunto.
MARS®
O mecanismo de modelamento MARS® é ideal para usuários que preferem resultados em uma forma similar à regressão tradicional, ao capturar não linearidades e interações essenciais.
TreeNet®
O aumento de gradiente TreeNet® é a ferramenta de data mining mais flexível e poderosa, capaz de gerar consistentemente modelos extremamente precisos.
Preço
Entre em contato conosco para obter informações de preços.
Programa universitário
Nosso Programa universitário fornece os mecanismos de modelamento SPM®, CART®, MARS®, TreeNet® e Random Forests® por taxas de licenciamento com redução significativa para a comunidade acadêmica.
Automação
Mais de 70 cenários prontos, em sua maior parte experimentos, inspirados em como os principais profissionais de modelamento estruturam seu trabalho.