Geçenlerde favori blog sitemdeki tüm "ücretsiz" makaleleri otomatik arşivlemek için bir Python scraper yazdım. BeautifulSoup ve requests ile sayfaları dolaşıp, başlıkları ve içerikleri çekiyor, sonra hepsini lokal bir SQLite veritabanına yazıyor. Amacım, internetim kesildiğinde ya da site bir gün kapanırsa o değerli içeriklere erişebilmekti. Kod mükemmel çalışıyor, ama şimdi vicdan azabı çekiyorum.
Kafamı karıştıran şey şu: İçerikler zaten herkese açık ve ücretsiz. Sitede "bu içerikler özeldir, kaydetmeyin" gibi bir uyarı da yok. Hatta robots.txt dosyasını kontrol ettim, genel tarayıcılara izin veriyor. Yani teknik olarak yasak değilim. Ama bir yandan da, yazarın emeği var. Ben sadece okuyup geçecekken, tüm içeriği kendi dijital sandığıma koymuş oldum. Bu, bir kitabı fotokopi çekmek gibi bir şey mi acaba?
Python:
# İşte o masum görünen ama vicdan yakan satırlar
icerik = soup.find('div', class_='post-content').get_text()
db_cursor.execute("INSERT INTO arsiv VALUES (?, ?)", (baslik, icerik))
Bu işin etik boyutunu düşünürken, kendi kendime bazı kurallar koydum. Scraper'ımı sitedeki sunucuya yük bindirmeyecek şekilde (rate-limiting ile) yazdım. Sadece kamuya açık, ücret talep etmeyen içerikleri alıyorum. Ve en önemlisi, bu veriyi KESİNLİKLE ticari bir amaçla veya başka bir yerde yayınlamak için kullanmayacağım. Sadece kişisel arşiv, kişisel referans. Bu, işi biraz daha "gri"den "açık gri"ye mi taşır, yoksa kendimi mi kandırıyorum bilmiyorum.
Siz ne düşünüyorsunuz? Böyle kişisel arşivleme amaçlı scraping etik mi? Yoksa "ücretsiz" yazılan her şey, yazarın rızası olmadan alınıp saklanmaya müsait midir? Sizin de böyle ikilemler yaşadığınız projeler oldu mu?