Como criar um robô para coleta de dados disponíveis na internet
Sites como job boards enfrentam um problema persistente: seus dados são constantemente roubados por bots automatizados
Os dados acabam em outros quadros de empregos concorrentes, que roubaram o conteúdo. É um problema que assola qualquer site cuja propriedade intelectual deva ser postada publicamente gratuitamente, ou até mesmo aqueles com modelos de assinatura.
Mas uma empresa de segurança com sede em Atlanta especializada em detectar bots desenvolveu um software que pode detectar essas imagens. e bots de mineração de dados
[Leia mais: Como remover malware do seu PC com Windows]O principal produto da Pramana, o HumanPresent, detecta bots automatizados que, por exemplo, inserem spam em formulários baseados na Web ou registram-se gratuitamente Contas de e-mail a serem usadas para spam.
A Pramana desenvolveu agora um módulo chamado "prevenção de mineração de dados e captura de tela" para o HumanPresent. Ele trabalha com muitos dos mesmos princípios de seu produto principal, mas foi modificado para cenários de mineração de dados, disse David Crowder, CEO da Pramana. O
HumanPresent pode detectar bots notando diferenças na forma como um humano normalmente interagiria com uma Web. página e contrastando isso com a forma como os bots se comportam. Ele analisa mais de 30 métricas, como toques no teclado, cliques do mouse e o tempo dessas ações.
O HumanPresent analisa transações únicas, mas o módulo de mineração de dados foi modificado para observar um período cronometrado em que um bot ou humano está no site, disse Crowder.
Os bots de mineração de dados tendem a contornar completamente a interface do usuário do navegador. Por exemplo, um bot pode solicitar uma página da Web com muitos e muitos dados, mas nunca rola ou clica em uma página. Se uma série de páginas for aberta e visualizada dessa maneira, isso pode significar que um bot de mineração de dados chegou.
A Pramana atribui uma identificação única ao visitante e, depois de analisar o comportamento do visitante, pode decidir se rotular o visitante um bot ou não. Existem várias maneiras diferentes que um operador de site pode escolher para lidar com a situação:
O endereço IP (Internet Protocol) do computador do bot pode ser bloqueado permanentemente. Um site de leilão de carros que está testando o módulo de mineração da Pramana decidiu mover bots suspeitos em uma "caixa de areia" onde são servidos dados completamente falsos. "Eles são de fato mineração de dados - está completamente errado", disse Crowder.
Outras opções incluem solicitar ao visitante do site um desafio ou uma tarefa, que alguns robôs não são capazes de concluir.
A mineração de dados custa caro às empresas. As empresas que vendem dados premium descobrirão que seus concorrentes comprarão uma assinatura e usarão bots automatizados para roubar os dados de seus próprios sites. Em um exemplo, um site que tem gigabytes de dados sobre os preços de carros usados descobriu que seus dados foram raspados e estava à venda no eBay.
"Na verdade, eles estão competindo com seu próprio conteúdo", disse Crowder. Web sites têm projetos ruins que facilitam muito a extração de dados. O site de carros usados teve URLs (Uniform Resource Locators) modificadas seqüencialmente para revelar mais dados, disse Crowder.
O módulo de mineração de dados será incluído no produto da HumanPresent por enquanto, mas no começo do próximo ano a Pramana planeja vendê-lo separadamente, disse Crowder. A Pramana oferece o HumanPresent como um appliance no local ou como uma configuração de software como serviço.
Para a oferta SaaS (software as a service), a tecnologia da Pramana é integrada a um aplicativo Web e as informações da sessão são enviadas de volta Pramana para análise. Crowder disse que a Pramana conseguiu reduzir significativamente o tempo de latência em sua última versão. Para clientes que precisam de mais velocidade, o appliance está disponível.
Os europeus provavelmente usarão mais dados móveis do que os EUA, diz Cisco Os europeus provavelmente usarão mais dados móveis do que os EUA, de acordo com O tráfego de dados móveis deve dobrar a cada ano nos próximos cinco anos, impulsionado pelos serviços de vídeo, e os usuários mais pesados provavelmente serão europeus, de acordo com a Cisco Systems, que acaba de publicar uma atualização de seus dados. Previsão de tráfego de dados do Visual Networking Index.
Na Europa, mesmo aqueles com os aparelhos de dados mais primitivos, sem uma conexão 3G, provavelmente consumirão mais de 18MB de dados por mês até 2013, mais que o dobro de seus equivalentes nos EUA , de acordo com a Cisco. No ano passado, o número foi de apenas 800KB na Europa, e 400KB nos EUA
A polícia sul-coreana invadiu na terça-feira escritórios do Google em uma investigação do projeto de mapeamento Street View da empresa, a mais recente instância de um país investigando a coleção de dados Wi-Fi da empresa. investigação sobre coleta de dados não autorizada e escutas telefônicas ilegais.
Autoridades do Google em Londres confirmaram o ataque. "Vamos cooperar com a investigação e responder a quaisquer perguntas que eles tenham", disse a empresa em um comunicado. A investigação acontece quando o Google retomou a coleta de imagens do Street View em vários países depois de enfrentar consultas de reguladores em outros durante o programa.
UE watchdog: A coleta de dados não pode voar sob a 'experiência do usuário' Não há justificativa para o uso de informações do consumidor em grandes projetos de dados de acordo com as principais autoridades de proteção de dados da Europa
Melhorar as experiências dos usuários não é justificativa para o uso de informações do consumidor em grandes projetos de dados. 29 O Grupo de Trabalho, que inclui os supervisores de proteção de dados dos 27 países membros da União Européia, disse que o “consentimento explícito e específico” dos consumidores é quase sempre necessário se as empresas quiserem usar suas informações em grandes projetos de dados. documento adotado na semana passada, o grupo afirmou que “propósitos vagos ou gerais” com