Websites

Um novo software detecta dados de sites de coleta de dados do Bots

Como criar um robô para coleta de dados disponíveis na internet

Como criar um robô para coleta de dados disponíveis na internet
Anonim

Sites como job boards enfrentam um problema persistente: seus dados são constantemente roubados por bots automatizados

Os dados acabam em outros quadros de empregos concorrentes, que roubaram o conteúdo. É um problema que assola qualquer site cuja propriedade intelectual deva ser postada publicamente gratuitamente, ou até mesmo aqueles com modelos de assinatura.

Mas uma empresa de segurança com sede em Atlanta especializada em detectar bots desenvolveu um software que pode detectar essas imagens. e bots de mineração de dados

[Leia mais: Como remover malware do seu PC com Windows]

O principal produto da Pramana, o HumanPresent, detecta bots automatizados que, por exemplo, inserem spam em formulários baseados na Web ou registram-se gratuitamente Contas de e-mail a serem usadas para spam.

A Pramana desenvolveu agora um módulo chamado "prevenção de mineração de dados e captura de tela" para o HumanPresent. Ele trabalha com muitos dos mesmos princípios de seu produto principal, mas foi modificado para cenários de mineração de dados, disse David Crowder, CEO da Pramana. O

HumanPresent pode detectar bots notando diferenças na forma como um humano normalmente interagiria com uma Web. página e contrastando isso com a forma como os bots se comportam. Ele analisa mais de 30 métricas, como toques no teclado, cliques do mouse e o tempo dessas ações.

O HumanPresent analisa transações únicas, mas o módulo de mineração de dados foi modificado para observar um período cronometrado em que um bot ou humano está no site, disse Crowder.

Os bots de mineração de dados tendem a contornar completamente a interface do usuário do navegador. Por exemplo, um bot pode solicitar uma página da Web com muitos e muitos dados, mas nunca rola ou clica em uma página. Se uma série de páginas for aberta e visualizada dessa maneira, isso pode significar que um bot de mineração de dados chegou.

A Pramana atribui uma identificação única ao visitante e, depois de analisar o comportamento do visitante, pode decidir se rotular o visitante um bot ou não. Existem várias maneiras diferentes que um operador de site pode escolher para lidar com a situação:

O endereço IP (Internet Protocol) do computador do bot pode ser bloqueado permanentemente. Um site de leilão de carros que está testando o módulo de mineração da Pramana decidiu mover bots suspeitos em uma "caixa de areia" onde são servidos dados completamente falsos. "Eles são de fato mineração de dados - está completamente errado", disse Crowder.

Outras opções incluem solicitar ao visitante do site um desafio ou uma tarefa, que alguns robôs não são capazes de concluir.

A mineração de dados custa caro às empresas. As empresas que vendem dados premium descobrirão que seus concorrentes comprarão uma assinatura e usarão bots automatizados para roubar os dados de seus próprios sites. Em um exemplo, um site que tem gigabytes de dados sobre os preços de carros usados ​​descobriu que seus dados foram raspados e estava à venda no eBay.

"Na verdade, eles estão competindo com seu próprio conteúdo", disse Crowder. Web sites têm projetos ruins que facilitam muito a extração de dados. O site de carros usados ​​teve URLs (Uniform Resource Locators) modificadas seqüencialmente para revelar mais dados, disse Crowder.

O módulo de mineração de dados será incluído no produto da HumanPresent por enquanto, mas no começo do próximo ano a Pramana planeja vendê-lo separadamente, disse Crowder. A Pramana oferece o HumanPresent como um appliance no local ou como uma configuração de software como serviço.

Para a oferta SaaS (software as a service), a tecnologia da Pramana é integrada a um aplicativo Web e as informações da sessão são enviadas de volta Pramana para análise. Crowder disse que a Pramana conseguiu reduzir significativamente o tempo de latência em sua última versão. Para clientes que precisam de mais velocidade, o appliance está disponível.