Leia artigos por trás de paywalls disfarçando-se de Googlebot

Experimente Nosso Instrumento Para Eliminar Problemas

A Internet está em um ponto crítico. O aumento contínuo do adblocking acabou com o modelo de receita que depende exclusivamente de dólares de publicidade para operar sites e negócios.

Especialmente os sites de notícias começaram a experimentar maneiras de diversificar as fontes de receita, e uma opção importante que sites como The Wall Street Journal, Financial Times, The New York Times, os tempos ou o The Washington Post implementou ou testou o sistema de acesso pago.

Existem diferentes tipos de acesso pago, mas todos têm em comum o fato de bloquearem o acesso ao conteúdo; isso pode acontecer diretamente na abertura do primeiro artigo, após a leitura de um determinado número de artigos no site, ou como um sistema de trechos que exibe o primeiro parágrafo ao leitor e abaixo dessa informação de cadastro para leitura do restante.

Os paywalls nem sempre exigem que os usuários paguem pelo acesso. Alguns sites podem exigir que os usuários se inscrevam para usar o site, mas não cobram os usuários depois que eles se inscrevem.

news site paywall

Pode fazer sentido do ponto de vista do negócio e pode ser mais lucrativo do que brigar com usuários que administram adblockers, mas há uma desvantagem tanto para o site com acesso pago quanto para o usuário bloqueado.

Os sites perdem uma alta porcentagem de visitantes se implementarem um sistema de acesso pago. Não está claro o quão alta é a porcentagem e provavelmente varia de site para site, mas provavelmente é muito maior do que a porcentagem de visitantes que se inscrevem no site depois de terem a opção de se inscrever para ler o artigo desejado.

Para os usuários, pode ser muito frustrante seguir um link para um artigo interessante apenas para ser impedido de lê-lo depois que o recurso for carregado; é uma perda de tempo para muitos, especialmente se nenhum conteúdo for fornecido antes da inscrição ou assinatura.

Disfarce seu navegador

Não é segredo que os sites de notícias permitem o acesso a agregadores de notícias e motores de busca. Se você verificar o Google Notícias ou Pesquisa, por exemplo, encontrará artigos de sites com paywalls listados lá.

No passado, os sites de notícias permitiam o acesso a visitantes vindos de grandes agregadores de notícias, como Reddit, Digg ou Slashdot, mas essa prática parece estar praticamente morta hoje em dia. Alguns ainda podem permitir, mas é uma tentativa e erro, e a solução alternativa pode ser encerrada a qualquer momento.

Outro truque, colar o título do artigo em um mecanismo de busca para ler a história armazenada nele diretamente, parece não funcionar mais adequadamente, assim como os artigos em sites com acesso pago geralmente não são mais armazenados em cache.

Dica: verifique o seguinte complemento que você pode usar para ignorar paywalls:

Agente do usuário e referenciador

Você provavelmente está se perguntando como os sites bloqueiam ou permitem o acesso ao conteúdo do site. Os métodos foram aprimorados ao longo dos anos e não é mais suficiente simplesmente alterar o referenciador do navegador para https://www.google.com/ para obter acesso total ao conteúdo de um site.

Em vez disso, os sites usam várias verificações que incluem user agent, referrer e cookies, e às vezes até mais do que isso, para determinar a legitimidade do acesso.

Informação geral

Provavelmente, a melhor maneira de mascarar o navegador é fazer com que ele pareça ser o Googlebot.

  • Referenciador: https://www.google.com/
  • Agente do usuário: Mozilla / 5.0 (compatível; Googlebot / 2.1; + http: //www.google.com/bot.html

Observe que a opção não funciona mais em muitos sites. Pode ser melhor tentar se disfarçar como vindo do Twitter ou de outros sites de mídia social.

Raposa de fogo

referrer

Os usuários do Firefox precisam de dois complementos de navegador para isso: o primeiro, RefControl, para alterar o valor do referenciador ao visitar sites de notícias, o segundo, Alternador de agente de usuário , para alterar o agente do usuário do navegador.

Atualizar : RefControl não está mais disponível. Você pode tente isso alternativa em vez disso. Fim

  1. Baixe e instale ambas as extensões no navegador Firefox.
  2. Toque na tecla Alt e selecione Ferramentas> Opções RefControl.
  3. Clique em 'adicionar site', insira um nome de domínio em site, selecione ação personalizada e insira https://www.google.com/ como o referenciador.
  4. Repita isso para todos os sites de notícias que deseja acessar (alguns podem não funcionar mesmo se você fizer as alterações, portanto, tenha isso em mente).
  5. Quando terminar, feche a janela de configuração.
  6. Toque na tecla Alt novamente e selecione Ferramentas> Agente do usuário padrão> Editar agentes do usuário no menu.
  7. Selecione Novo> Agente do usuário e substitua a string no campo Agente do usuário por Mozilla / 5.0 (compatível; Googlebot / 2.1; + http: //www.google.com/bot.html). Nomeie-o como Googlebot.
  8. Saia do menu.
  9. Antes de acessar esses sites, toque em Alt e selecione Agente de usuário padrão> Googlebot.

Isso é tudo que há para fazer. É um pouco lamentável que não haja nenhuma extensão para o Firefox que muda o agente do usuário automaticamente com base nos sites que você visita.

Google Chrome

Os usuários do Google Chrome podem instalar extensões como Alternador de agente de usuário e Controle de referência que estão disponíveis para o navegador fazer o mesmo.

No entanto, existe outra possibilidade, que é criar uma extensão personalizada que automatize o processo no navegador.

As instruções são fornecidas em Elaineou . Tudo o que precisamos, basicamente, é criar um novo diretório no computador local, criar os dois arquivos background.js e manifest.json dentro dele e copiar e colar o código encontrado no site nos arquivos.

Você precisa habilitar o 'modo de desenvolvedor' em chrome: // extensions / e pode selecionar 'carregar extensão descompactada' para escolher a pasta em que você criou os dois arquivos para carregar a extensão no Chrome.

Você pode modificar a lista de sites que ele suporta para adicionar novos.