Celui qui voulait changer le monde (1/3)

Ou comment le MIT va réussir à arrêter le scraper qui téléchargeait en masse des documents sur Jstor.

sept. 17, 2022

Bonsoir,

Votre newsletter Pwned, consacrée au cybercrime, reprend du service pour une deuxième saison. Cela m’a fait très plaisir de vous raconter ce type d’histoires l’an passé. Et professionnellement, cela m’apporte beaucoup, autant de raisons de continuer.

Le thème des dix épisodes de cette année, déclinés en plusieurs volets égrenés semaine après semaine, va être consacré aux controverses au sens large. Ce sera des histoires où l’action judiciaire a été très interrogée, comme l’épisode qui débute ce soir, d’autres où c’est la coopération internationale (ou son absence) qui a suscité la polémique, ou encore des questions qu’on peut avoir sur le traitement médiatique d’une affaire de cybercrime.

Je vais également tenter de faire vivre un peu plus le compte twitter de Pwned en écrivant des thread à partir des épisodes déjà écrits. On m’a suggéré également d’en faire un podcast, mais je pense que c’est encore un peu trop tôt, à moins d’avoir le soutien d’un média - à vot’ bon coeur, m’sieurs dames les rédac’ chefs.

Comme l’an passé, la lettre est relue par le vigilant Mnyo, farouche traqueur de mes tics d’écriture et de la logique du texte. Si vous aimez les épisodes, vous savez ce qu’il vous reste à faire. Si vous n’êtes pas inscrit, voici le formulaire. Et sans plus attendre, on commence avec l’épisode de ce soir.

“Et merde. Le scraper est de retour”. En ce week-end de septembre 2010, cela fait quelques heures que les informaticiens de la bibliothèque numérique Jstor tentent de contrer le robot qui télécharge en masse des documents pdf.

Le blocage d’une première adresse IP s’est avéré vain. Les téléchargements ont en effet repris à partir d’une nouvelle adresse. Il va falloir prévoir une riposte plus large, en bloquant une plage d’adresses. Au risque de perturber l’accès des utilisateurs légitimes de Jstor.

Ce service d’archives universitaires est géré par une organisation à but non lucratif, offrant à ceux qui peuvent bénéficier d’un abonnement (généralement 50 000 dollars par an pour une université) une ouverture sur plus de 6 millions de documents académiques.

Le scraping est un bon exemple de zone grise du numérique. Ce terme désigne une collecte automatisée d’informations disponibles sur les sites web.

Plutôt que d’aller manuellement sur un site, puis un autre, pour enregistrer les informations, vous pouvez simplifier cette tâche avec un robot, un logiciel ou bien souvent quelques lignes de code. C’est par exemple ce que fait le très pratique site internet archive, qui permet de retrouver l’historique de pages web.

Mais d’autres utilisations du scraping sont beaucoup plus contestables. Des entreprises se sont fait une spécialité d’aspirer des annonces immobilières pour constituer des bases de données et ensuite faire du spam.

Et sur Zdnet.fr, je vous avais parlé de la condamnation d’une start-up pour une intrusion informatique ouvrant la voie au scraping d’annuaires internes de l’enseignement supérieur, une façon de faire grossir un fichier marketing.

Revenons au scraping des documents de Jstor de septembre 2010. Pour l’éditeur, ces téléchargements de masse sont un problème. Ils ralentissent les serveurs et nuisent à tous les autres utilisateurs du service. Il faut donc réussir à stopper ce flot de téléchargements, mais sans perturber l’accès au service des utilisateurs.

Voilà pour la théorie, maintenant c’est plus facile à dire qu’à faire. On ne sait pas qui est derrière ce scraping de masse. On sait juste que les adresses IP utilisées sont associées au MIT, le Massachusetts Institute of Technology. Mais cette université, l’une des plus prestigieuses au monde, ne sait pas non plus qui se cache derrière cette adresse IP.

Quinze jours plus tard, le 9 octobre, toujours un samedi, un nouveau téléchargement encore plus massif est constaté. Pour le stopper, Jstor sort cette fois-ci le bazooka. L’accès au service est suspendu pendant trois jours pour tous les étudiants et le personnel du MIT.

Cette bibliothèque numérique est alors utilisée quotidiennement par plusieurs centaines de personnes de l’université. Le MIT bannit de son côté l’adresse MAC, cet identifiant physique liée à la carte réseau, associée au scraper. Mais cela ne suffit pas à stopper les agissements du pirate

Jstor estime que 80% de la base de données, soit 4,8 millions d’articles, ont été téléchargés. Pour l’éditeur, l’attaquant cherche à faire main basse sur ses archives pour les diffuser ensuite ailleurs. La riposte s’organise. Jstor ne porte pas plainte mais planche sur une nouvelle façon d’authentifier les utilisateurs du MIT.

Ce jeu du chat et de la souris se poursuit durant l’hiver. Le 26 décembre, de nouveaux téléchargements suspects sont découverts. En fait, ils avaient commencé à la fin novembre mais étaient passés inaperçus.

Sauf que cette fois-ci, le MIT parvient à avoir une première piste sur l’origine des téléchargements massifs. Il sont venus du bâtiment 16. Puis, le 4 janvier, le MIT localise précisément l’origine de la connexion suspecte.

Dans un petit local technique, une sorte de grand placard mal sécurisé - l’accès peut être forcé en tirant simultanément sur les deux portes, le verrou ayant été endommagé - , un ingénieur découvre un câble réseau, et au bout, un ordinateur portable.

Ce portable de marque Acer est directement branché sur le réseau informatique. Celui qui l’a installé l’a branché sur le réseau du MIT. Aucun piratage, tous les utilisateurs de passage peuvent le faire. La session a été ouverte au nom de Gary Host. Visiblement un clin d'œil. L’ordinateur a été paramétré pour afficher comme nom “Ghost Laptop”, pour G. Host, “le portable fantôme”, traduit en français.

Sur l’ordinateur capturé, on découvre l’outil de scraping. C’est un simple script python, appelé Keepgrabbing.py, qui automatise le téléchargement. On apprend également que pour tromper la vigilance du MIT, l’adresse MAC de l’ordinateur a été modifiée pour obtenir une nouvelle adresse IP lors de sa connexion, ce qui a permis donc de poursuivre les téléchargements.

Après cette drôle de découverte, le MIT appelle la police. Et un inspecteur d’une unité spéciale dédiée à la lutte contre le cybercrime, la New England Electronic Crimes Task Force, débarque avec deux collègues de l’US Secret Service et l’autre du Boston Police Department.

Une remarque à ce sujet. Contrairement à son nom, l’US Secret Service n’est pas une officine d’agents secrets, mais plutôt une agence de contre-espionnage, avec deux missions principales, la lutte contre la fraude financière ou la fausse monnaie. Mais elle est également compétente en matière de lutte contre la fraude électronique ou les attaques informatiques, ce qui justifie la présence d’un de ses agents.

Les policiers relèvent les empreintes digitales sur l’ordinateur. Puis ils tentent sans succès de faire une copie du disque dur branché à la machine. Mais ils laissent l’ordinateur dans le placard. Et pour prendre le scraper en flagrant délit, ils installent une petite caméra.

A posteriori, on sait que le timing a été très serré. Il s’est à peine écoulé une demi-heure avant que le scraper ne revienne. Les images de vidéosurveillance enregistrent un premier passage, ce 4 janvier. Le suspect est un homme, plutôt jeune, aux cheveux noirs mi-longs, avec un sac à dos et un casque de vélo à la ceinture.

L’acte d’accusation souligne l’attitude fuyante du suspect, qui chercherait à dissimuler son visage. Au vu des images, je trouve que c’est un peu tiré par les cheveux. Il donne surtout l’impression d’être concentré sur autre chose. Quoi qu'il en soit, le jeune homme ouvre la porte du placard. Puis il change le disque dur externe.

Quand les enquêteurs réalisent que leur client est déjà sur place, ils envoient deux agents pour l’arrêter. Mais leur suspect est déjà parti. On regarde à nouveau les images, personne ne reconnaît le scraper. On en reste là jusqu’au 6 janvier, deux jours plus tard, vers 12h30, avec le retour du scraper.

Cette fois-ci, le suspect fait le grand ménage. Il prend le nouveau disque dur externe, et l’ordinateur portable, avant de s’en aller. La police va-t-elle l’arrêter à sa sortie du grand placard? Et non.

Car encore une fois, la surveillance du local technique connaît des ratés. Aucun agent n’est à proximité du bâtiment 16. Dans l’après-midi, les informaticiens remarquent toutefois que l’ordinateur du scraper, identifié grâce à son adresse MAC, se connecte depuis le bâtiment 4, puis de deux autres sites de l’université.

Le suspect est donc toujours dans les parages. Il va finalement être arrêté grâce à un coup de chance. Vers 14h, un agent de la police du MIT rentre au garage après une patrouille en voiture banalisée.

Au croisement de Vassar Street, il croise un cycliste qui ressemble comme deux gouttes d’eau au suspect de la vidéo du 4 janvier. Il s’approche pour vérifier : bingo, il s’agit bien du jeune homme au disque dur.

Arrivé près de Central Square, le policier tente d’arrêter le cycliste. L’homme refuse d’abord de se laisser arrêter. Bravache, il s’indigne que les agents du MIT ne soient pas “de vrais flics”.

Puis il laisse tomber son vélo et part en courant. A l’issue d’une brève course poursuite, le jeune homme est arrêté. Il est 14h11, l’agent plaque le fuyard contre le trottoir. Il s’agit d’Aaron Swartz.

La suite la semaine prochaine.

Bonne soirée,

Relecture: Mnyo

PS: L’histoire vous a plu? Pour me payer un café c'est ici ou sur mon wallet BTC (bc1qhx49fpxcnlpe35z4z2j4wmrazpvz7a3ejm4rex).

Sources:

Jstor file, J00027_09-26-2010.PDF

La réutilisation des données publiquement accessibles en ligne à des fins de démarchage commercial

Une start-up de la Station F condamnée après un scraping sauvage

Jstor file, J00144_10-16-2010.PDF

Report to the President: MIT and the Prosecution of Aaron Swartz

MIT Surveillance Video of Aaron Swartz, January 2011

Aaron Swartz : sur les traces d’une étoile filante du Net