Especialista da Semalt informa como a raspagem de dados da Web foi legalizada com uma decisão judicial

Embora possa ser ilegal coletar dados de sites sem a permissão explícita dos proprietários do site, um juiz recentemente decidiu de outra forma sob certas circunstâncias. O hiQ Labs entrou recentemente com um processo contra o LinkedIn por impedir que extraíssem dados das páginas do LinkedIn.

Foi um choque grosseiro para a maioria das pessoas o fato de o LinkedIn ter dito para dar à startup acesso gratuito às suas páginas da web. A hiQ usou seus algoritmos para detectar quando um usuário do LinkedIn está procurando um emprego com base nas alterações que o usuário faz em seu perfil público.

Os algoritmos são executados com dados extraídos das páginas da web do LinkedIn. Como esperado, o LinkedIn não gostou e foram adotadas contramedidas para impedir o hiQ de extrair mais dados. Além das barreiras técnicas impostas, também foram emitidos avisos legais fortemente redigidos.

A startup não teve escolha a não ser tratar da questão legalmente. a hiQ teve que procurar uma reparação legal. A empresa queria que o LinkedIn mandasse remover suas barreiras técnicas. A hiQ também queria que seu processo de extração de dados no LinkedIn fosse legalizado.

Felizmente para a startup, conseguiu o que queria. A decisão foi a favor do hiQ. O LinkedIn recebeu uma ordem para remover todas as contramedidas que impedem o hiQ de raspar suas páginas da web (LinkedIn) e também oferecer o hiQ de graça, já que o ato é totalmente legal. O juiz baseava sua decisão no fato de que o hiQ quer raspar os dados que foram exibidos para exibição pública.

O juiz não apenas ordenou que o réu removesse todo o mecanismo preventivo implementado contra a hiQ, mas também ordenou que o réu desistisse de tais atos no futuro.

Promovendo dados abertos da web

Embora a decisão ainda seja uma liminar temporária, é emocionante ouvir que a lei apóia dados abertos da web e acesso gratuito a informações na Internet, pois essa decisão confirma isso. Mesmo que a decisão final seja favorável ao réu, esse fato já foi estabelecido.

O juiz promoveu essa política encerrando praticamente todos os argumentos do LinkedIn. Enquanto o LinkedIn tentava estabelecer que o autor estava violando sua privacidade, o juiz contestou o fato de que o réu também está vendendo os dados.

Quando o argumento não deu certo, o réu também afirmou que o ato da hiQ estava violando a Lei de Abuso e Fraude de Computadores (CFAA) porque a startup acessou seus servidores para coletar dados ilegalmente. Mais uma vez, o argumento foi perfurado. Foi rejeitado com o argumento de que o hiQ estava apenas raspando o conteúdo nas páginas públicas não protegidas.

O juiz analisou o caso como alguém entrando em uma loja aberta durante o horário comercial. Não se pode dizer que essa pessoa está invadindo. Portanto, o hiQ não estava invadindo. Curiosamente, o juiz foi além e explicou por que sua decisão é de interesse público.

Em poucas palavras, o tribunal aceitou que é do interesse público permitir que os dados sejam rastreados, extraídos e analisados. Portanto, será uma política prejudicial incentivar a colocação de barreiras ao fluxo livre de informações.

O que você deve aprender com a decisão

Embora você não tenha motivos para extrair dados diretamente do LinkedIn, aprenda com a decisão. É melhor jogar com segurança lendo e respeitando o arquivo robots.txt de todos os sites. Lembre-se, a decisão ainda é uma liminar temporária. Eventualmente, poderia ser a favor do LinkedIn.

Embora a decisão possa não afetá-lo diretamente, é um prazer que um tribunal federal defenda a política de manter a web aberta ao público. Portanto, as informações devem estar disponíveis e acessíveis para aqueles que podem pesquisar e fazer bom uso delas.

Os dados da Web são extremamente úteis para todos, especialmente analistas de mídia, desenvolvedores, cientistas de dados e alguns outros profissionais. Como tal, a decisão é um desenvolvimento bem-vindo.