this post was submitted on 07 Jun 2025
6 points (100.0% liked)

Technologie - 🤖

871 readers
5 users here now

Ici concerne le champs de domaine large de la technologie : actualités sur l'informatique, partage de programme informatique et de code, montrer vos projets Arduino, ect.

Mégafil ici

founded 2 years ago
MODERATORS
top 2 comments
sorted by: hot top controversial new old
[–] Bad@jlai.lu 3 points 2 months ago (1 children)

Pour protéger ce type de données, il faut coincer les crawlers IA dans un pot de miel labyrinthique et infini qui leur apprend de la merde.

Comme précisé dans l'article, Cloudflare le propose dans son plan gratuit, sinon Anubis fait l'affaire.

Il y a une guerre dans les deux sens, les meilleurs crawlers savent détecter qu'ils sont pris au piège et s'en sortent, mais 99% restent bloqués dedans ça filtre bien quand on veut protéger des données faciles à exploiter et sauver les performances de son serveur.

[–] keepthepace_@jlai.lu 1 points 2 months ago

Perso je trouve que le meilleur des deux mondes, c'est arxiv qui l'a trouvé: "on vous a packagé les données publiques dans des beaux fichiers, faciles à lire et à télécharger, ils sont hébergés dans un bucket amazon et téléchargeable juste pour le prix de la bande passante directement dans votre cloud à vous"