Desvio de conceito de detecção conceito média móvel ponderada exponencialmente


Modelo EWMA O que é isso: Um gráfico EWMA (Média de Movimento Ponderada Exponencialmente) é um gráfico de controle para dados de variáveis ​​(dados quantitativos e contínuos em medidas, como uma dimensão ou tempo medidos). O gráfico traça os valores médios móveis ponderados, um fator de ponderação é escolhido pelo usuário para determinar como pontos de dados mais antigos afetam o valor médio comparado aos mais recentes. Como o gráfico EWMA usa informações de todas as amostras, ele detecta mudanças de processo muito menores do que um quadro de controle normal. Tal como acontece com outros gráficos de controle, os gráficos EWMA são usados ​​para monitorar processos ao longo do tempo. Por que usar: Aplica fatores de ponderação que diminuem exponencialmente. A ponderação para cada ponto de dados mais antigo diminui exponencialmente, dando muito mais importância às observações recentes, enquanto ainda não descarta as observações antigas inteiramente. O grau de diminuição da pesagem é expresso como um fator de alisamento constante, um número entre 0 e 1. pode ser expresso como uma porcentagem, então um fator de suavização de 10 é equivalente a 0,1. Alternativamente, pode ser expresso em termos de N períodos de tempo, onde. Por exemplo, N19 é equivalente a 0,1. A observação em um período de tempo t é designado Yt, e o valor da EMA em qualquer período de tempo t é designado St. S1 é indefinido. S2 pode ser inicializado de várias maneiras diferentes, mais comumente definindo S2 para Y1, embora existam outras técnicas, como a configuração de S2 para uma média das primeiras 4 ou 5 observações. A proeminência do efeito de inicialização S2 na média móvel resultante depende de valores menores tornam a escolha de S2 relativamente mais importante do que valores maiores, uma vez que um maior descontos observações mais velhas mais rápido. A vantagem dos gráficos EWMA é que cada ponto plotado inclui várias observações, de modo que você pode usar o Teorema do Limite Central para dizer que a média dos pontos (ou a média móvel neste caso) é normalmente distribuída e os limites de controle estão claramente definidos. Onde usá-lo: os gráficos x-axes são baseados em tempo, de modo que os gráficos mostrem um histórico do processo. Por esse motivo, você deve ter dados que são ordenados no tempo, ou seja, inseridos na seqüência a partir da qual foi gerada. Se este não for o caso, as tendências ou mudanças no processo podem não ser detectadas, mas atribuídas à variação aleatória (causa comum). Quando usá-lo: EWMA (ou Média de Movimento Ponderada Exponencialmente) Os gráficos geralmente são usados ​​para detectar pequenos turnos na média do processo. Eles vão detectar mudanças de 0,5 sigma para 2 sigma muito mais rápido do que Shewhart com o mesmo tamanho de amostra. No entanto, são mais lentos na detecção de grandes turnos na média do processo. Além disso, os testes típicos de execução não podem ser usados ​​devido à dependência inerente dos pontos de dados. Os gráficos EWMA também podem ser preferidos quando os subgrupos são de tamanho n1. Neste caso, um gráfico alternativo pode ser o gráfico Individual X. Caso em que você precisaria estimar a distribuição do processo para definir seus limites esperados com limites de controle. Ao escolher o valor de lambda usado para ponderação, recomenda-se a utilização de valores pequenos (como 0,2) para detectar pequenas mudanças e valores maiores (entre 0,2 e 0,4) para mudanças maiores. Um gráfico EWMA com lambda 1.0 é um gráfico de barras X. Os gráficos EWMA também são usados ​​para suavizar o efeito do ruído conhecido e incontrolável nos dados. Muitos processos contábeis e processos químicos se enquadram nesta categorização. Por exemplo, enquanto as flutuações diárias nos processos contábeis podem ser grandes, elas não são meramente indicativas da instabilidade do processo. A escolha de lambda pode ser determinada para tornar o gráfico mais ou menos sensível a essas flutuações diárias. Como usá-lo: Interpretando um Caso Padrão de Gráfico EWMA (Média não errante) Olhe sempre o gráfico Range primeiro. Os limites de controle no gráfico EWMA são derivados da faixa média (ou intervalo de mudança, se n1), então, se o gráfico Range estiver fora de controle, os limites de controle no gráfico EWMA não têm sentido No gráfico Range, procure De pontos de controle. Se houver algum, as causas especiais devem ser eliminadas. Lembre-se de que o intervalo é a estimativa da variação dentro de um subgrupo, então procure elementos de processo que aumentassem a variação entre os dados em um subgrupo. Depois de revisar o gráfico Range, interprete os pontos no gráfico EWMA em relação aos limites de controle. Os testes de execução nunca são aplicados a um gráfico EWMA, uma vez que os pontos plotados são inerentemente dependentes, contendo pontos comuns. Nunca considere os pontos no gráfico EWMA em relação às especificações, uma vez que as observações do processo variam muito mais do que as Médias Movimentadas Ponderadas Exponencialmente. Se o processo mostrar controle em relação aos limites estatísticos por um período de tempo suficiente (tempo suficiente para ver todas as causas especiais potenciais), podemos analisar sua capacidade em relação aos requisitos. A capacidade só é significativa quando o processo é estável, uma vez que não podemos prever o resultado de um processo instável. Wandering Mean Chart Procure os pontos fora de controle. Estes representam uma mudança no curso esperado do processo, em relação ao seu comportamento passado. O gráfico não é muito sensível a mudanças sutis em um processo de derivação, pois aceita algum nível de deriva como sendo a natureza do processo. Lembre-se de que os limites de controle são baseados em um erro de predição exponencialmente suavizado para observações passadas, de modo que, quanto maior for a derivação anterior, mais insensível será o gráfico para detectar mudanças na quantidade de drift. Gráficos de média móvel ponderada exponencialmente para a detecção de Drift Concept Gordon J. Ross, Niall M. Adams, Dimitris K. Tasoulis e David J. Hand. A classificação de dados de transmissão requer o desenvolvimento de métodos computacionalmente eficientes e capazes de lidar com mudanças na distribuição subjacente do fluxo, um fenômeno conhecido no Literatura como drift conceito. Propomos um novo método para detectar a derivação de conceito que usa um gráfico de média móvel ponderada exponencial (EWMA) para monitorar a taxa de classificação errada de um classificador de transmissão. Nossa abordagem é modular e, portanto, pode ser executada em paralelo com qualquer classificador subjacente para fornecer uma camada adicional de detecção de drift conceito. Além disso, nosso método é computacionalmente eficiente com sobrecarga O (1) e funciona de forma totalmente on-line, sem necessidade de armazenar pontos de dados na memória. Ao contrário de muitas abordagens existentes para a detecção de drift conceito, nosso método permite que a taxa de detecções falso-positivas seja controlada e mantida constante ao longo do tempo Tópicos: Estatísticas - Aprendizagem de Máquinas, Ciência da Computação - Aprendizagem, Estatística - Aplicações Identificador DOI: 10.1016j. patrec.2017.08 .019 Identificador OAI: oai: arXiv. org: 1212.6018arXiv. org gt stat gt arXiv: 1212.6018 Statistics Machine Learning Título: Gráficos médios móveis ponderados exponencialmente para detecção de conceito Drift (Enviado em 25 de dezembro de 2017) Resumo: A classificação de dados de transmissão requer o desenvolvimento De métodos que são computacionalmente eficientes e capazes de lidar com mudanças na distribuição subjacente do fluxo, um fenômeno conhecido na literatura como derivação do conceito. Propomos um novo método para detectar a derivação de conceito que usa um gráfico de média móvel ponderada exponencial (EWMA) para monitorar a taxa de classificação errada de um classificador de transmissão. Nossa abordagem é modular e, portanto, pode ser executada em paralelo com qualquer classificador subjacente para fornecer uma camada adicional de detecção de drift conceito. Além disso, nosso método é computacionalmente eficiente com sobrecarga O (1) e funciona de forma totalmente on-line, sem necessidade de armazenar pontos de dados na memória. Ao contrário de muitas abordagens existentes para a detecção de drift conceito, nosso método permite que a taxa de detecções falso-positivas seja controlada e mantida constante ao longo do tempo. Aplicações de Aprendizado de Máquinas (stat. ML) (cs. LG) (stat. AP)

Comments