İnternet arşivinde 361 milyon site var

Edip Emil ÖYMEN
Edip Emil ÖYMEN YENİLEŞİM [email protected]

Amerikalı bir girişimcinin fikri olarak başlayıp sonradan kurumsallaşan İnternet Arşivi’nde kayıtlı site sayısı 361 milyonu aştı. İnternetin dünya vatandaşlarına açıldığı 1990’lardan beri kaydedilen sayfa görüntüsü ise 510 milyarı aştı. Arşivde, halen yayında olan veya olmayan, çoktan kaybolmuş 273 milyar web sitesinin adresi saklanıyor. Bütün bu depo 15 petabyte’lık yer kaplıyor. (1 petabyte, yuvarlak hesap = 1.1 katrilyon byte)

İnternet Arşivi bünyesindeki “Geçmiş Zaman Olur ki” (Wayback Machine) bölümü, Microsoft’un sürekli yenileyip “eskisini” okunmaz hale getirdiği yazılımlarına karşı bir çözüm. Örneğin, ilk Windows 95’i bugün yeni bilgisayar “okumaz”. Aynı şekilde Windows 98, onu izleyen XP, Vista vb için de aynı şey söz konusu. Eskimiş bilgisayarlarda bu programlar “işlese” bile, Windows’dan teknik destek almaz.

Okunamayacak metinler

Kaç bin yüzyılın Mısır, Sümer, Akad, Hitit tabletleri uzmanlarınca okunur, anlaşılır. Gütenberg’in ilk baskılarını, Evliya Çelebi’nin Seyahatnamesi’ni, İbrahim Müteferrika’nın 1720’lerde bastığı ilk Osmanlıca kitapları uzmanları yine okuyabilir. Çünkü bunlar baskı. Ama dijital her türlü kayıt, eğer “yeni yazılıma” uydurulmazsa, antik çağdan çok daha kısa sürede kaybolmaya mahkum. Bu yokoluşu önlemek, tarihi saklamak, kaydını tutmak için internete bir arşiv yapma fikrini Amerikalı bilişim girişimcisi Brewster Kahle’ye borçluyuz.

Çılgın vizyoner dedikleri

1982 MIT mezunu bir teknoloji vizyoneri. Gençliğinde acaip tekno şirketler kurmuş. İlkini America Online, ikincisini Amazon’a 250 milyon dolara satarak milyoner olmuş. 1996’dan beri Internet Archive adlı muazzam internet belleğini oluşturuyor. İlk önceleri, “yayınlanmış her web sayfasından bir kopya” almasıyla dikkat çekmişti. Bir tür internet arşivi olacaktı bu. Sonra, vizyonunu basılı kitaplara da yöneltti. “Basılmış her kitaptan bir kopya” ilkesiyle topladığı kitap sayısı milyonu aştı. Kitapları, kullanılmayan gemi konteynerlerinde özel klima koşullarında saklıyor. Bütün bu işleri, eşiyle kurduğu Kahle/Austin Vakfı aracılığıyla yapıyor.

3 milyon saat tv kaydı

Tamamen kendi üretimi bir sistemle kitapların elektronik kopyalarını çıkartıyor. Kitaplar daha sonra ambara istif. Kitabın elektronik kopyasını, tıpkısı kadar gerçek bir şekilde yeniden basmak mümkün. Telif hakkı (ABD’de) bitmiş 1923 öncesi kitapların kopyalarını alıyor. 1941’e kadarki kitapları ise “satmamak koşuluyla” kopyalamaya başladı.

Ayrıca, topladığı veri/bilgiyi dünya ile bedava paylaşma kapsamında, 11 Eylül 2001 İkiz Kule Saldırısı hakkında 3 bin saatlik televizyon kaydı depoladı. Çeşitli ülkelerin tv yayınlarını web ortamında izlenecek dijital dönüşümden geçirdi. Her görüntü küme’sini konu ve içeriğe göre indeksledi. Akademik ve gazetecilik amaçlarına uygun kullanıma getirdi. Bu özel arşiv, diğer tv arşiviyle birlikte 3 milyon saatlik bir kayıt demek...

Yazılımda “yanlılık” olasılığı?

Bu benzersiz arşivin sitesinde halen 2.2 milyon film/ video var. 140 bini konser canlı kaydı olmak üzere 2.5 milyon sesli kayıt. 3 milyon dijital kitap. 100 bin adet yazılım programı.

Ancak, Forbes dergisinde (16.11.15) arşiv algoritmasını inceleyip eleştiren bir makalede, bütün bu kayıtların nasıl bir stratejiyle kaydedildiği sorgulandı. Bir anlamda, arşivin elbette büyük bir veri/bilgi hazinesi olmakla beraber, yeterince kapsayıcı olmayabileceği kuşkusu savunuldu. Aslında sorun şu: Büyük veriye nasıl anlam vereceğimizi, bu veriyi nasıl topladığımız belirliyor. Eğer veri toplamada “yanlılık” varsa, bunu çıplak gözle anlamak mümkün değil. Eğer yazılımın içinde bu “yanlılık” bir şekilde (kasıtlı-kasıtsız) gizliyse, durum daha da vahim. Halen yapay zekâ konusundaki tartışmaların odağındaki sorun da bu. Yazılımcının kendi eliyle koyduğu yanlılığı düzeltmek daha kolay, yazılımın “kendi kendine” öğreneceği yanlılığı düzeltmek daha zahmetli. “Dijital toplumu, algoritmaların kara kutusu yönetemez” sözü ciddi bir soruna işaret.

Yazara Ait Diğer Yazılar Tüm Yazılar
Hollywood’a yapay zekâ 02 Ağustos 2019