Üretken Yapay Zeka ChatGPT İçin Yasal Kıyamet Günü İntihal Yaptığı veya İhlal Ettiği Yakalanırsa, Yapay Zeka Etiği ve Yapay Zeka Yasasını Uyarır

ChatGPT gibi üretken yapay zeka, web sitelerimizi ve insan yapımı içeriğimizi çalıyor mu? Farkında ol, ol … [+] üzgün, hazır ol.

getty

Kredinin vadesi geldiği yerde kredi verin.

Bu, belki de sizin kesinlikle inanmanız için yetiştirildiğiniz bir parça bilgeliktir. Aslında, bunun hayatta adil ve mantıklı bir temel kural olduğu konusunda hepimizin makul bir şekilde hemfikir olabileceği varsayılır veya hayal edilir. Birisi takdiri hak eden bir şey yaptığında, onun hak ettiği takdiri aldığından emin olun.

Karşıt bakış açısı çok daha az zorlayıcı görünebilir.

Birisi kredinin verilmesi konusunda ısrar ederek ortalıkta dolaşırsa değil Kredinin vadesi geldiğinde tanınmak, peki, böyle bir inancın kaba ve muhtemelen el altından olduğunu iddia edebilirsiniz. Kayda değer bir şey başarmış birinin itibarı aldatıldığında, kendimizi genellikle gürültülü bir şekilde rahatsız edilmiş halde buluruz. Başkaları, başkalarının çalışmaları için yanlış bir şekilde övgü aldığında özellikle hoşumuza gitmediğini söyleyebilirim. Bu rahatsız edici bir çifte darbe. Krediyi alması gereken kişinin güneşteki anı reddedilir. Ek olarak, düzenbaz, olumlu duygularımızı kötüye kullanmamız için bizi yanlış bir şekilde kandırsa da, ilgi odağı olmaktan zevk alıyor.

En doğru yollardan itibar kazanmak, yanlış ve alçak yollardan kaçınmakla ilgili bunca söylem neden?

Çünkü Yapay Zeka (AI) alanındaki son gelişmeler söz konusu olduğunda benzer bir çıkmazla karşı karşıyayız gibi görünüyor.

Evet, iddialar bunun, açıkça bilinen bir yapay zeka türü aracılığıyla gerçekleştiği yönünde. üretken yapay zeka. Bugünlerde haberlerde yer alan en sıcak yapay zeka olan Generative AI'ın, övgüyü hak etmediği şeyler için zaten övgü aldığına dair pek çok el sıkışma var. Üretken yapay zeka giderek yaygınlaştıkça ve kullanıldıkça bu durumun daha da kötüleşmesi muhtemeldir. Üretken yapay zekaya giderek daha fazla kredi verilirken, ne yazık ki gerçek övgüyü fazlasıyla hak edenler toz içinde kalıyor.

Bu iddia edilen olguyu net bir şekilde ifade etmek için önerdiğim yöntem iki şık slogandır:

1) Ölçekte intihal
2) Ölçekte Telif Hakkı İhlali

OpenAI tarafından Kasım ayında piyasaya sürülen ChatGPT olarak bilinen oldukça popüler bir yapay zeka uygulaması nedeniyle üretken yapay zekadan haberdar olabileceğinizi varsayıyorum. Birazdan üretken yapay zeka ve ChatGPT hakkında daha fazla bilgi vereceğim. Pes etme.

Hemen insanların keçilerini neyin çektiğinin özüne geçelim.

Bazıları, üretici yapay zekanın potansiyel olarak içerik oluşturan insanları soyduğundan şikayet ediyor. Görüyorsunuz, üretken AI uygulamalarının çoğu, İnternette bulunan verileri inceleyerek eğitilmiş verilerdir. Bu verilere dayanarak, algoritmalar yapay zeka uygulaması içinde geniş bir dahili kalıp eşleştirme ağını geliştirebilir ve bu ağ daha sonra bir otomasyon parçası yerine insan eliyle tasarlanmış gibi görünen yeni görünen içerik üretebilir.

Bu dikkate değer başarı, büyük ölçüde İnternet üzerinden taranan içeriğin kullanılmasından kaynaklanmaktadır. Veri eğitimi için bir kaynak olarak İnternet içeriğinin hacmi ve zenginliği olmadan, üretken yapay zeka hemen hemen boş kalır ve kullanılmaya çok az ilgi gösterir veya hiç ilgi göstermez. Yapay zekanın milyonlarca çevrimiçi belgeyi ve metni, her türlü ilişkili içerikle birlikte incelemesini sağlayarak, insan yapımı içeriği denemek ve taklit etmek için model eşleştirme kademeli olarak türetilir.

İçerik ne kadar çok incelenirse, diğer her şey eşit olmak kaydıyla desen eşleştirmenin daha da geliştirilme ve taklit konusunda daha da iyi olma ihtimali artar.

İşte o zaman zilyon dolarlık soru:

Büyük soru: Siz veya başkaları internette üretken yapay zeka uygulamalarının eğitimini aldığı içeriğe sahipseniz, bunu muhtemelen doğrudan izniniz olmadan ve belki de tamamen sizin farkında olmadan yapıyorsanız, bundan doğan değer konusunda pastadan bir parça almaya hakkınız olmalı mı? bu üretken yapay zeka veri eğitimi mi?

Bazıları hararetle tek doğru cevabın şu olduğunu iddia ediyor: Evet, özellikle de bu insan içerik yaratıcılarının gerçekten de kendi paylarına düşen payı hak ettikleri. Sorun şu ki, adil payını alan birini bulmakta zorlanacaksınız ve daha da kötüsü, neredeyse hiç kimse herhangi bir pay alamadı. İstemeden ve bilmeden katkıda bulunan İnternet içeriği yaratıcılarının esas itibarı, haklarından mahrum bırakılıyor.

Bu iğrenç ve çirkin olarak nitelendirilebilir. Az önce övgünün gerektiği yerde verilmesi gerektiğine dair bilge bilgeliğin paketini açtık. Üretken yapay zeka durumunda görünüşe göre öyle değil. Krediyle ilgili uzun süredir devam eden ve erdemli temel kural, duygusuzca ihlal edilmiş gibi görünüyor.

Whoa, imbik, durumu tamamen abartıyorsunuz ve yanlış ifade ediyorsunuz. Elbette, üretken yapay zeka İnternet'teki içeriği inceledi. Elbette, bu, üretici yapay zekanın veri eğitiminin bir parçası olarak fazlasıyla yardımcı oldu. Kuşkusuz, bugünün etkileyici üretken yapay zeka uygulamaları, bu dikkate alınan yaklaşım olmadan o kadar etkileyici olmazdı. Ancak, içerik oluşturuculara herhangi bir belirli kredi verilmesi gerektiğini söylerken çok ileri gittiniz.

Mantık aşağıdaki gibidir. İnsanlar internete giriyor ve internetten bir şeyler öğreniyor, bunu rutin bir şekilde ve kendiliğinden herhangi bir yaygara olmadan yapıyor. Sıhhi tesisatla ilgili blogları okuyan ve ardından ücretsiz olarak sunulan sıhhi tesisat tamir videolarını art arda izleyen bir kişi, ertesi gün dışarı çıkıp tesisatçı olarak çalışabilir. Sıhhi tesisatla ilgili havalelerinin bir kısmını lavabonun nasıl su tesisatı yapılacağı hakkında yazan blog yazarına vermeleri gerekiyor mu? Sızdıran bir küveti tamir etme adımlarını gösteren videoyu hazırlayan vlogger'a bir ücret vermeleri gerekiyor mu?

Neredeyse kesinlikle değil.

Üretken yapay zekanın veri eğitimi, yalnızca kalıp geliştirmenin bir yoludur. Üretken yapay zekadan elde edilen çıktılar, tam olarak incelenen şeyin yalnızca yetersizliği olmadığı sürece, bunların "öğrendiklerini" ve bu nedenle herhangi bir belirli kaynağa herhangi bir kredi vermeye tabi olmadıklarını ikna edici bir şekilde iddia edebilirsiniz. Üretken yapay zekayı kesin bir kusma gerçekleştirirken yakalayamazsanız, belirtiler yapay zekanın herhangi bir belirli kaynağın ötesinde genelleştiği yönündedir.

Kimseye borç verilmez. Ya da, kredinin herkese gittiğini söyleyebilirsiniz. İnternette bulunan toplu metin ve insanlığın diğer içeriği övgüyü alır. Hepimiz kredi alıyoruz. Belirli bir kaynağa kredi vermeye çalışmak anlamsızdır. Yapay zekanın ilerletilmesinden ve tüm insanlığın fayda sağlayacağından memnun olun. İnternetteki bu gönderiler, AI'daki ilerlemelerin geleceğine ve bunun insanlığa sonsuza kadar nasıl yardımcı olacağına katkıda bulundukları için onur duymalıdır.

Bu iki karşıt görüş hakkında söyleyecek daha çok şeyim olacak.

Bu arada, internette web siteleri olanlara kredinin vadesinin geldiğini ve gecikmiş bir şekilde vadesi geldiğini söyleyen görüşe mi eğilimlisiniz, yoksa İnternet içeriği yaratıcılarının kesinlikle kredi verdiğini söyleyen karşıt tarafı mı buluyorsunuz? değil Dolandırılmak daha inandırıcı bir duruş mu?

Bir muamma ve bir bilmece bir arada.

Bunu açalım.

Bugünün sütununda, üretici yapay zekanın esasen internette yayınlanan içeriğin telif haklarını ihlal ettiği veya muhtemelen ihlal ettiği (bir Fikri Mülkiyet hakkı veya IP sorunu olarak kabul edilir) konusunda ifade edilen bu endişeleri ele alacağım. Bu endişelerin temellerine bakacağız. Üretken yapay zekanın 600 kiloluk gorili olduğu için bu tartışma sırasında ara sıra ChatGPT'ye atıfta bulunacağım, ancak birçok başka üretken yapay zeka uygulaması olduğunu ve bunların genellikle aynı genel ilkelere dayandığını unutmayın.

Bu arada, üretici yapay zekanın gerçekte ne olduğunu merak ediyor olabilirsiniz.

Önce üretken yapay zekanın temellerini ele alalım ve ardından elimizdeki acil konuya yakından göz atalım.

Tüm bunların içine bir dizi AI Etiği ve AI Yasası hususları geliyor.

Etik Yapay Zeka ilkelerini Yapay Zeka uygulamalarının geliştirilmesine ve sahaya sürülmesine dahil etmeye yönelik devam eden çabalar olduğunu lütfen unutmayın. Endişeli ve eski AI etikçilerinden oluşan artan bir grup, AI tasarlama ve benimseme çabalarının bir yapma görüşünü dikkate almasını sağlamaya çalışıyor. AI için iyi ve kaçınmak Kötü İçin AI. Aynı şekilde, yapay zeka çabalarının insan hakları ve benzeri konularda çıldırmasını önlemek için potansiyel çözümler olarak ortalıkta dolaşan önerilen yeni yapay zeka yasaları da var. Yapay Zeka Etiği ve Yapay Zeka Yasası ile ilgili devam eden ve kapsamlı kapsamım için bkz. buradaki bağlantı ve buradaki bağlantı, Sadece birkaç isim.

Etik Yapay Zeka ilkelerinin geliştirilmesi ve ilan edilmesi, toplumun yapay zekayı tetikleyen sayısız tuzağa düşmesini ummak için sürdürülmektedir. UNESCO'nun çabalarıyla yaklaşık 200 ülke tarafından tasarlanan ve desteklenen BM Yapay Zeka Etik ilkelerine ilişkin kapsamım için bkz. buradaki bağlantı. Benzer şekilde, yapay zekayı dengede tutmaya çalışmak için yeni yapay zeka yasaları araştırılıyor. En son çekimlerden biri, bir dizi önerilen AI Haklar Bildirgesi ABD Beyaz Sarayı'nın yakın zamanda yapay zeka çağında insan haklarını belirlemek için yayınladığını, bkz. buradaki bağlantı. Yapay zeka ve yapay zeka geliştiricilerini doğru bir yolda tutmak ve toplumun altını oyabilecek amaçlı veya kazara el altından yapılan çabaları caydırmak için bir köy gerekir.

Yapay Zeka Etiği ve Yapay Zeka Yasası ile ilgili hususları bu tartışmaya dahil edeceğim.

Üretken Yapay Zekanın Temelleri

Üretken yapay zekanın en yaygın olarak bilinen örneği, ChatGPT adlı bir yapay zeka uygulaması tarafından temsil edilir. ChatGPT, yapay zeka araştırma şirketi OpenAI tarafından piyasaya sürüldüğünde Kasım ayında kamuoyunun dikkatini çekti. ChatGPT büyük manşetlere çıktığından ve kendisine ayrılan on beş dakikalık şöhreti şaşırtıcı bir şekilde aştığından beri.

Muhtemelen ChatGPT'yi duymuşsunuzdur veya belki onu kullanmış birini tanıyorsunuzdur.

ChatGPT, üretken bir yapay zeka uygulaması olarak kabul edilir çünkü bir kullanıcıdan girdi olarak bazı metinler alır ve ardından üretir veya bir denemeden oluşan bir çıktı üretir. Yapay zeka bir metinden metne oluşturucudur, ancak ben yapay zekayı bir metinden denemeye oluşturucu olarak tanımlıyorum, çünkü bu onun yaygın olarak ne için kullanıldığını daha kolay açıklığa kavuşturuyor. Uzun kompozisyonlar oluşturmak için üretici yapay zekayı kullanabilir veya oldukça kısa özlü yorumlar sunmasını sağlayabilirsiniz. Hepsi senin emrinde.

Tek yapmanız gereken bir istem girmek ve AI uygulaması sizin için isteminize yanıt vermeye çalışan bir makale oluşturacaktır. Oluşturulan metin, makale insan eli ve aklı tarafından yazılmış gibi görünecektir. "Bana Abraham Lincoln'den bahset" diyen bir komut istemi girerseniz, üretici yapay zeka size Lincoln hakkında bir makale sağlayacaktır. Metinden resme ve metinden videoya gibi başka üretici AI modları da vardır. Burada metinden metne varyasyona odaklanacağım.

İlk düşünceniz, bu üretken yeteneğin, makaleler üretmek açısından o kadar da önemli görünmediği olabilir. İnternette kolayca bir çevrimiçi arama yapabilir ve Başkan Lincoln hakkında tonlarca makale bulabilirsiniz. Üretici yapay zeka durumunda önemli olan, oluşturulan makalenin nispeten benzersiz olması ve bir kopyadan ziyade orijinal bir kompozisyon sağlamasıdır. Yapay zeka tarafından üretilen makaleyi çevrimiçi olarak bir yerde bulmaya çalışırsanız, onu keşfetmeniz pek olası değildir.

Üretken yapay zeka önceden eğitilmiştir ve web'deki yazılı kelimelerdeki ve hikayelerdeki kalıpları inceleyerek oluşturulmuş karmaşık bir matematiksel ve hesaplamalı formülasyondan yararlanır. Yapay zeka, binlerce ve milyonlarca yazılı pasajı incelemesinin bir sonucu olarak, bulunanların bir karışımı olan yeni denemeler ve hikayeler çıkarabilir. Çeşitli olasılıksal işlevler eklendiğinde, ortaya çıkan metin, eğitim setinde kullanılanlara kıyasla oldukça benzersizdir.

Üretken yapay zeka hakkında çok sayıda endişe var.

Önemli bir dezavantaj, üretken tabanlı bir AI uygulaması tarafından üretilen makalelerin, açıkça doğru olmayan gerçekler, yanıltıcı bir şekilde tasvir edilen gerçekler ve tamamen uydurma olan açık gerçekler dahil olmak üzere çeşitli yanlışlıklara sahip olabilmesidir. Bu fabrikasyon yönlere genellikle bir biçim olarak atıfta bulunulur. AI halüsinasyonları, beğenmediğim ama ne yazık ki yine de popüler bir ilgi kazanıyor gibi görünen bir slogan (bunun neden berbat ve uygun olmayan bir terminoloji olduğuna dair ayrıntılı açıklamam için, şu adresteki kapsamıma bakın: buradaki bağlantı).

Başka bir endişe de, makaleyi kendileri yazmamış olsalar bile, insanların yapay zeka tarafından üretilen üretken bir makale için kolayca itibar kazanabilmeleridir. Öğretmenlerin ve okulların üretken yapay zeka uygulamalarının ortaya çıkması konusunda oldukça endişeli olduğunu duymuş olabilirsiniz. Öğrenciler, kendilerine atanan makaleleri yazmak için üretken yapay zekayı potansiyel olarak kullanabilirler. Bir öğrenci, bir makalenin kendi elleriyle yazıldığını iddia ederse, öğretmenin bunun yerine üretici yapay zeka tarafından uydurulmuş olup olmadığını ayırt etme şansı çok azdır. Bu öğrenci ve öğretmenin kafa karıştırıcı yönüne ilişkin analizim için, şu adresteki kapsamıma bakın: buradaki bağlantı ve buradaki bağlantı.

hakkında sosyal medyada çok büyük iddialar ortaya atıldı. üretken yapay zeka yapay zekanın bu son sürümünün aslında duyarlı yapay zeka (hayır, yanılıyorlar!). Yapay Zeka Etiği ve Yapay Zeka Hukuku alanındakiler, genişleyen iddiaların bu filizlenen eğilimi konusunda özellikle endişeli. Kibarca, bazı insanların bugünün yapay zekasının yapabileceklerini abarttığını söyleyebilirsiniz. Yapay zekanın henüz başaramadığımız yeteneklere sahip olduğunu varsayıyorlar. Bu talihsizlik. Daha da kötüsü, yapay zekanın harekete geçebilme konusunda duyarlı veya insan benzeri olacağı varsayımı nedeniyle kendilerinin ve diğerlerinin zor durumlara girmesine izin verebilirler.

AI'yı antropomorfize etmeyin.

Bunu yapmak, yapay zekanın yapamayacağı şeyleri yapmasını bekleme şeklindeki yapışkan ve asık suratlı bir güven tuzağına düşmenize neden olacaktır. Bununla birlikte, üretken yapay zekadaki en son gelişmeler, yapabilecekleri açısından nispeten etkileyici. Yine de, herhangi bir üretici AI uygulamasını kullanırken sürekli olarak aklınızda bulundurmanız gereken önemli sınırlamalar olduğunu unutmayın.

Şimdilik son bir ön uyarı.

Üretken bir AI yanıtında gördüğünüz veya okuduğunuz her şey görünüyor tamamen olgusal (tarihler, yerler, insanlar vb.)

Evet, tarihler uydurulabilir, yerler uydurulabilir ve genellikle kusursuz olmasını beklediğimiz unsurlar herşey şüphelere tabidir. Okuduğunuza inanmayın ve herhangi bir üretici yapay zeka makalesini veya çıktısını incelerken şüpheyle bakın. Üretken bir AI uygulaması size Abraham Lincoln'ün özel jetiyle ülke çapında uçtuğunu söylerse, bunun sıtma olduğunu şüphesiz anlarsınız. Ne yazık ki, bazı insanlar onun zamanında jetlerin olmadığını fark etmeyebilirler veya makalenin bu küstahça ve son derece yanlış iddiada bulunduğunu bilip de fark etmeyebilirler.

Güçlü bir dozda sağlıklı şüphecilik ve ısrarcı bir inançsızlık zihniyeti, üretken yapay zekayı kullanırken en iyi varlığınız olacaktır.

Bu açıklamanın bir sonraki aşamasına geçmeye hazırız.

İnternet ve Üretken Yapay Zeka Bu İşin İçinde

Artık üretken yapay zekanın ne olduğuna dair bir benzerliğe sahip olduğunuza göre, üretken yapay zekanın adil mi yoksa adil olmayan bir şekilde mi "kaldıraçlı" olduğu veya bazılarının şöyle diyebileceği can sıkıcı soruyu keşfedebiliriz: bariz bir şekilde sömürme İnternet içeriği.

İşte bu konuyla ilgili dört hayati başlığım:

1) Çifte Sorun: İntihal ve Telif Hakkı İhlali
2) İntihal veya Telif Hakkı İhlalini Kanıtlamaya Çalışmak Denenecek
3) İntihal veya Telif Hakkı İhlali İçin Dava Açmak
4) Yasal Mayınlar Bekliyor

Bu önemli konuların her birini ele alacağım ve hepimizin dikkatli bir şekilde üzerinde düşünmesi gereken anlayışlı düşünceler sunacağım. Bu konuların her biri daha büyük bir bulmacanın ayrılmaz bir parçasıdır. Tek bir parçaya bakamazsın. Herhangi bir parçaya diğer parçalardan ayrı bakamazsınız.

Bu girift bir mozaiktir ve yapbozun tamamına uygun ve uyumlu bir değerlendirme yapılmalıdır.

Çifte Sorun: İntihal ve Telif Hakkı İhlali

Üretken yapay zekayı üreten ve kullananların karşılaştığı çifte sorun, onların ürünlerinin iki kötü şey yapıyor olabilmesidir:

1) İntihal. Üretken AI şu şekilde yorumlanabilir: plagiarizing Yapay zekanın veri eğitimi sırasında gerçekleştirilen İnternet taramasına göre İnternette var olan içerik.
2) Telif Hakkı İhlali. Üretken yapay zekanın taahhüt olduğu iddia edilebilir. telif hakkı ihlali veri eğitimi sırasında taranan İnternet içeriğiyle ilişkili.

Açıklığa kavuşturmak gerekirse, internette üretken yapay zekanın veri eğitimi için taranan içerikten çok daha fazla içerik var. Genellikle İnternet'in yalnızca küçük bir kısmı kullanılır. Bu nedenle, veri eğitimi sırasında taranmayan herhangi bir içeriğin üretken yapay zekaya özel bir etkisi olmadığını varsayabiliriz.

Ancak, taranan diğer içeriği taranmayan içerikle potansiyel olarak birleştiren bir çizgi çizebileceğiniz için bu biraz tartışmalıdır. Ayrıca, bir başka önemli koşul da, taranmamış içerik olsa bile, üretici yapay zekanın çıktıları muhtemelen aynı laf kalabalığına denk gelirse, bunun intihal olduğu ve/veya telif hakkının ihlal edildiği iddia edilebilir. Demek istediğim, tüm bunlarda çok fazla yumuşaklık var.

Alt satır: Üretken yapay zeka, intihal ve telif hakkı ihlali söz konusu olduğunda potansiyel yapay zeka etiği ve yapay zeka hukuku hukuki ikilemleriyle doludur geçerli veri eğitimi uygulamalarının temelini oluşturur.

Şimdiye kadar, AI yapımcıları ve AI araştırmacıları, üzerlerinde asılı duran belirsiz ve tehlikeli bir şekilde sallanan kılıca rağmen, bu hemen hemen hiç dokunmadan geçtiler. Bu uygulamalara karşı bugüne kadar sadece birkaç dava açılmıştır. Bu tür yasal işlemlerle ilgili haberler duymuş veya görmüş olabilirsiniz. Örneğin, Midjourney ve Stability AI'nin metinden görüntüye firmaları İnternette yayınlanan sanatsal içeriği ihlal ettikleri için bunlardan biri. Bir diğeri, AI uygulamaları üreten Copilot yazılımı nedeniyle GitHub, Microsoft ve OpenAI'ye karşı metinden koda ihlaldir. Getty Images, metinden görüntüye ihlal için Stability AI'nin peşine düşmeyi de hedefliyor.

Bu tür davaların artacağını tahmin edebilirsiniz.

Şu anda, sonucu pek bilinmediği için bu davaların açılması biraz ihtimal dahilinde. Mahkeme yapay zeka üreticilerinin yanında mı yer alacak, yoksa içeriklerinin haksız bir şekilde istismar edildiğine inananlar mı galip gelecek? Pahalı bir hukuki mücadele her zaman ciddi bir konudur. Büyük ölçekli yasal masrafların karşılanması, kazanma veya kaybetme şansına göre değerlendirilmelidir.

Yapay zeka üreticilerinin savaşmaktan başka çaresi yok gibi görünüyor. Biraz da olsa pes ederlerse, muhtemelen bir dizi ek dava açılacaktır (esasen, başkalarının da galip gelme şansının artmasına kapı açılacaktır). Suda yasal kan bir kez olduğunda, geri kalan yasal köpekbalıkları, düşünülen "kolay skora" koşuşacak ve kesinlikle parasal bir kan banyosu meydana gelecektir.

Bazıları, yapay zeka üreticilerini koruyacak yeni yapay zeka yasalarını geçirmemiz gerektiğine inanıyor. Koruma geriye dönük bile olabilir. Bunun temeli, üretken yapay zeka ilerlemelerini görmek istiyorsak, yapay zeka üreticilerine bir tür güvenli bölge pisti vermemiz gerektiğidir. Davalar AI üreticilerine karşı zafer kazanmaya başladığında, bu gerçekleşirse (henüz bilmiyoruz), endişe, hiç kimse AI firmalarına herhangi bir destek vermeye istekli olmayacağından, üretken AI'nın buharlaşacağıdır.

Dr. Ilia Kolochenko ve Gordon Platt'ın "ChatGPT: Fikri Mülkiyet, Siber Güvenlik ve Üretken Yapay Zekanın Diğer Yasal Riskleri" başlıklı yakın tarihli bir Bloomberg Hukuk makalesinde ustalıkla belirtildiği gibi, Bloomberg Hukuk, Şubat 2023, işte bu bakış açılarını yansıtan iki önemli alıntı:

“Artık ABD'li hukuk bilim adamları ve fikri mülkiyet hukuku profesörleri arasında, telif hakkıyla korunan verilerin izinsiz olarak alınmasının ve daha sonra kullanılmasının bir telif hakkı ihlali anlamına gelip gelmediği konusunda hararetli bir tartışma yaşanıyor. Bu tür uygulamalarda telif hakkı ihlallerini gören hukukçuların görüşü üstün gelirse, bu tür yapay zeka sistemlerinin kullanıcıları da ikincil ihlallerden sorumlu olabilir ve potansiyel olarak yasal sonuçlarla karşı karşıya kalabilir.”
"Zorluğu kapsamlı bir şekilde ele almak için kanun yapıcılar, yalnızca mevcut telif hakkı mevzuatını modernize etmeyi değil, aynı zamanda AI'ya özgü bir dizi yasa ve düzenlemeyi uygulamayı da düşünmelidir."

Bir toplum olarak yasal korumalar koyduğumuzu hatırlayın. genişleme şu anda Yüksek Mahkeme'nin ünlü veya rezil Bölüm 230'ü incelediğine tanık olduğu gibi. Bu nedenle, üretken yapay zekanın ilerlemesi için bazı benzer korumalar yapmaya istekli olabileceğimiz, mantıklı ve emsal dahilinde görünüyor. Belki de korumalar, üretici yapay zeka önceden belirlenmiş bir yeterlilik düzeyine ulaştıktan sonra sona erecek şekilde geçici olarak kurulabilir. Diğer koruma hükümleri tasarlanabilir.

Yakında Yüksek Mahkeme değerlendirmesinin ve Bölüm 230'a ilişkin nihai kararın üretken yapay zekanın ortaya çıkışını nasıl etkileyebileceğine dair analizimi yayınlayacağım. Yaklaşan gönderiyi bekleyin!

Üretken yapay zeka olarak bilinen toplumsal hayranlık uyandıran teknolojik inovasyona alan bırakmamız gerektiğine dair keskin bir şekilde dile getirilen görüşe geri dönelim. Bazıları, iddia edilen telif hakkı ihlali meydana gelse veya meydana gelse bile, toplumun bir bütün olarak üretken yapay zekayı ilerletmenin belirli amaçları için buna izin vermeye istekli olması gerektiğini söyleyecektir.

Yeni yapay zeka yasalarının dikkatli bir şekilde hazırlanması ve üretken yapay zeka için veri eğitimiyle ilgili ayrıntılara göre ayarlanması umut ediliyor.

Bu amaç için yeni AI yasaları tasarlama fikrine karşı pek çok karşı argüman var. Endişelerden biri, bu tür herhangi bir yeni AI yasasının her türlü telif hakkı ihlali için kapıları açacağıdır. Bu tür yeni AI yasalarının kitaplara girmesine izin verdiğimiz güne üzüleceğiz. Bunu yalnızca yapay zeka veri eğitimiyle sınırlamaya ne kadar çalışırsanız çalışın, diğerleri sinsice veya zekice, dizginsiz ve yaygın bir telif hakkı ihlali anlamına gelecek boşluklar bulacaktır.

Argümanlar yuvarlak ve yuvarlak gidin.

Özellikle su tutmayan bir argüman, AI'nın kendisine dava açmaya çalışmakla ilgilidir. Yapay zeka üreticisinden veya yapay zeka araştırmacılarından suçlu paydaşlar olarak bahsettiğime dikkat edin. Bunlar kişi ve şirketlerdir. Bazıları, dava edilecek taraf olarak yapay zekayı hedeflememiz gerektiğini öne sürüyor. Henüz yapay zekaya tüzel kişilik atfetmediğimizi köşemde uzun uzadıya tartıştım, bkz. buradaki bağlantı örneğin, yapay zekayı hedef alan bu tür davaların şu anda anlamsız olduğu düşünülüyor.

Kime veya neye dava açılması gerektiği sorusuna ek olarak bu, başka bir ilginç konuyu gündeme getiriyor.

Belirli bir üretken AI uygulamasının, Widget Company olarak adlandıracağımız bir AI üreticisi tarafından tasarlandığını varsayalım. Widget Company'nin boyutu nispeten küçüktür ve çok fazla geliri veya varlıkları yoktur. Onları dava etmek, kişinin aradığı büyük zenginlikleri elde etmeyecektir. En fazla, yalnızca yanlış olarak algıladığınız şeyi düzeltmenin tatminini yaşarsınız.

Büyük balığın peşinden gitmek istiyorsun.

İşte bunun nasıl ortaya çıkacağı. Bir yapay zeka üreticisi, üretken yapay zekasını tonlarca hamur ve tonlarca varlığa sahip büyük bir holding olan Big Time Company'nin kullanımına sunmayı seçer. Widget Company adını taşıyan bir dava, artık Big Time Company adını vererek daha iyi bir hedefe sahip olacaktır. Bu, avukatların zevk alacağı bir Davut ve Golyat kavgasıdır. Elbette, Big Time Company şüphesiz olta kancasından kurtulmaya çalışacaktır. Bunu yapıp yapamayacakları bir kez daha belirsiz olan yasal bir sorudur ve umutsuzca çamura saplanabilirler.

Bu konuda daha fazla ilerlemeden önce, veri eğitimi nedeniyle üretken yapay zekanın tartışılan ihlalleri hakkında önemli bir konuyu masaya yatırmak istiyorum. Eminim intihal ve telif hakkı ihlalinin birbirinden oldukça farklı iki canavar olduğunun sezgisel olarak farkındasınızdır. Pek çok ortak noktaları var, ancak önemli ölçüde farklılar.

İşte Duke Üniversitesi'nden ikisini açıklayan kısa ve öz bir açıklama:

“İntihal en iyi şekilde başka bir kişinin çalışmasının izinsiz kullanımı olarak tanımlanır. Davacının yaratmadığı iş için kredi talebini içeren etik bir sorundur. Bir başkasının eseri, o eserin telif durumu ne olursa olsun intihal edilebilir. Örneğin, yine de telif hakkı kapsamında olamayacak kadar eski bir kitaptan veya makaleden kopyalama yapmak intihaldir. Veriler gibi olgusal materyaller telif hakkıyla korunmasa bile, onaylanmayan bir kaynaktan alınan verileri kullanmak da intihaldir. Bununla birlikte, intihal kolayca tedavi edilebilir - malzemenin orijinal kaynağına uygun alıntı.
“Telif hakkı ihlali ise bir başkasının eserinin izinsiz kullanılmasıdır. Bu, en başta eserin telif hakkıyla korunup korunmadığına, ne kadar kullanıldığına, ne amaçla kullanıldığına bağlı olan hukuki bir meseledir. Korunan bir eser çok fazla kopyalanırsa veya yetkisiz bir amaçla kopyalanırsa, yalnızca orijinal kaynağın belirtilmesi sorunu çözmez. Yalnızca telif hakkı sahibinden önceden izin alınarak ihlal suçlaması riskinden kaçınılabilir.”

Çözümlerin buna göre farklılık gösterebileceğini anlamanız için bu iki endişenin önemine dikkat çekiyorum. Ayrıca her ikisi de Yapay Zeka Etiği ve Yapay Zeka Hukukuna nüfuz eden hususlarla iç içedir ve bu da onları eşit derecede incelemeye değer kılmaktadır.

İddia edilen bir çareyi veya çözümü inceleyelim. Bunun çifte sorun sorunlarından birine yardımcı olabileceğini, ancak diğerine yardımcı olmadığını göreceksiniz.

Bazıları, AI üreticilerinin tek yapması gerekenin kaynaklarını belirtmek olduğunda ısrar etti. Üretken yapay zeka bir makale oluşturduğunda, yalnızca denemede belirtilenler için belirli alıntılar ekleyin. Hangi İnternet içeriğinin kullanıldığına dair çeşitli URL'ler ve diğer göstergeler verin. Bu, onları intihal konusundaki endişelerinden kurtaracak gibi görünüyor. Çıktısı alınan makale, üretilen ifadeler için hangi kaynakların kullanıldığını muhtemelen açıkça tanımlayacaktır.

Bu iddia edilen çözümde bazı kelime oyunları var, ancak 30,000 fitlik bir seviyede bunun intihal ikilemi için yarı tatmin edici bir tedavi olduğunu varsayalım. Yukarıda telif hakkı ihlali açıklamasında belirtildiği gibi, kaynak materyalden alıntı yapmak sizi mutlaka köpek kulübesinden çıkarmaz. İçeriğin telif hakkıyla korunduğunu varsayarsak ve malzemenin ne kadarının kullanıldığı gibi diğer faktörlere bağlı olarak, bekleyen telif hakkı ihlali kılıcı keskin bir şekilde ve kesin olarak sallanabilir.

Buradaki parola çifte beladır.

İntihal veya Telif Hakkı İhlalini Kanıtlamaya Çalışmak Deneyecek

Kanıtla!

Bu hepimizin hayatımızın çeşitli zamanlarında duyduğu, çok yıpranmış nakarat.

Nasıl gittiğini biliyorsun. Bir şeyin olduğunu veya olduğunu iddia edebilirsiniz. Bunun gerçekleştiğini kalbinizin derinliklerinde biliyor olabilirsiniz. Ancak iş itmeye karşı itmeye gelince, kanıta sahip olmanız gerekir.

Bugünün tabiriyle, göstermek gerekir makbuzlar, söyledikleri gibi.

Size sorum şu: Üretken yapay zekanın İnternet içeriğini uygunsuz bir şekilde kullandığını kanıtlanabilir bir şekilde nasıl kanıtlayacağız?

Cevabın kolay olması gerektiği varsayılıyor. Üretken yapay zekadan çıktı olarak bir makale üretmesini ister veya söylersiniz. Daha sonra makaleyi alıp internette bulunabilenlerle karşılaştırırsınız. Eğer makaleyi bulursanız, bam, üretken yapay zekayı meşhur duvara çivilemiş olursunuz.

Hayat hiç bu kadar kolay görünmüyor.

Yaklaşık 100 kelime içeren bir makale üretmek için üretken yapay zekaya sahip olduğumuzu hayal edin. Dolaşırız ve internetin her köşesine ulaşmaya çalışırız, o 100 kelimeyi ararız. Eğer 100 kelimeyi aynı sırayla ve aynı tarzda gösterilen şekilde bulursak, kendimize çok ateşli bir kelime yakalamış gibiyiz.

Diyelim ki internette "karşılaştırılabilir" gibi görünen bir makale bulduğumuzu, ancak bu makalenin 80 kelimeden yalnızca 100'iyle eşleştiğini varsayalım. Bu belki de hâlâ yeterli görünüyor. Ancak eşleşen 10 kelimeden yalnızca 100'unun örneğini bulduğumuzu hayal edin. Bu, intihal yapıldığını ya da telif hakkı ihlalinin meydana geldiğini haykırmak için yeterli mi?

Grilik mevcuttur.

Metin bu şekilde komik.

Bunu metinden resme veya metinden sanata durumlarıyla karşılaştırın. Üretken AI, metinden görüntüye veya metinden sanata yeteneği sağladığında, bir metin istemine girersiniz ve AI uygulaması, sağladığınız istemi temel alarak bir görüntü üretir. Görüntü, bu gezegende veya başka herhangi bir gezegende şimdiye kadar görülen hiçbir görüntüden farklı olabilir.

Öte yandan görüntü, var olan diğer görüntüleri anımsatıyor da olabilir. Yapay zeka tarafından üretilen üretken görüntüye bakabiliriz ve içgüdüsel olarak bunun daha önce gördüğümüz başka bir görüntüye kesinlikle benzediğini söyleyebiliriz. Genel olarak, görsel Karşılaştırma ve karşıtlık hususları biraz daha kolay bir şekilde ele alınmaktadır. Bununla birlikte, bir görüntünün diğeriyle örtüşmesinin veya kopyalanmasının ne olduğu konusunda büyük yasal tartışmaların olduğunu lütfen unutmayın.

Müzikte de benzer bir durum var. Bir metin istemi girmenize izin veren üretken AI uygulamaları vardır ve AI tarafından üretilen çıktı sesli müziktir. Bu metinden sese veya metinden müziğe yapay zeka yetenekleri şimdi ortaya çıkmaya başlıyor. En yüksek dolarınıza bahse girebileceğiniz bir şey, üretken yapay zeka tarafından üretilen müziğin ihlal için son derece inceleneceğidir. Müzik ihlali duyduğumuzu anlıyor gibiyiz, ancak yine de bu, yalnızca algılanan çoğaltma hakkında ne hissettiğimize bağlı olmayan karmaşık bir yasal sorundur.

Bir örnek daha vermeme izin verin.

Metinden koda üretken yapay zeka, size bir metin istemi girme yeteneği sağlar ve yapay zeka sizin için programlama kodu üretir. Daha sonra bu kodu bir bilgisayar programı hazırlamak için kullanabilirsiniz. Kodu tam olarak oluşturulduğu gibi kullanabilir veya kodu ihtiyaçlarınıza göre düzenlemeyi ve ayarlamayı seçebilirsiniz. Üretilen kodda hatalar ve yanlışlıkların ortaya çıkması mümkün olduğundan, kodun uygun ve uygulanabilir olduğundan emin olunması da gerekir.

İlk varsayımınız, programlama kodunun metinden farklı olmadığı olabilir. Bu sadece metindir. Elbette belirli bir amaç sağlayan bir metin ama yine de metindir.

Tam olarak değil. Çoğu programlama dili, o dilin kodlama ifadelerinin doğasına göre katı bir formata ve yapıya sahiptir. Bu bir anlamda serbest akan doğal dilden çok daha dardır. Kodlama ifadelerinin nasıl formüle edildiği konusunda bir şekilde kutulanmış durumdasınız. Benzer şekilde, ifadelerin kullanıldığı ve dizildiği sıra ve yol bir şekilde kutu içine alınmıştır.

Sonuç olarak, programlama kodunun çalıntı veya ihlal edildiğini gösterme olasılığı, doğal dilin anlattığından neredeyse daha kolaydır. Bu nedenle, üretici bir yapay zeka internette programlama kodunu taramaya gittiğinde ve daha sonra programlama kodu oluşturduğunda, kodun bariz bir şekilde kopyalandığını iddia etme şansı nispeten daha ikna edici olacaktır. Bir smaç değil, bu yüzden bu konuda sert savaşların yapılmasını bekleyin.

Benim asıl söylemek istediğim, üretken yapay zekanın tüm modlarında aynı Yapay Zeka Etiği ve Yapay Zeka Hukuku sorunlarıyla karşılaşacağımızdır.

İntihal ve telif hakkı ihlali aşağıdakiler için sorunlu olacaktır:

Metinden metne veya metinden denemeye
Metinden resme veya metinden resme
Metinden sese veya metinden müziğe
Metinden videoya
Metinden koda
Vb

Hepsi aynı endişelere maruz kalıyor. Bazılarının “kanıtlanması” diğerlerinden biraz daha kolay olabilir. Hepsi Yapay Zeka Etiği ve Yapay Zeka Hukuku temeline ilişkin kendilerine özgü kabuslar yaşayacak.

İntihal veya Telif Hakkı İhlali İçin Dava Açmak

Tartışma amacıyla, metinden metne veya metinden denemeye üretken yapay zekaya odaklanalım. Bunu kısmen, üretken yapay zekanın metinden metne türü olan ChatGPT'nin muazzam popülaritesi nedeniyle yapıyorum. ChatGPT'yi kullanan çok sayıda insan var ve diğer pek çok kişi de çeşitli benzer metinden metne üretken AI uygulamalarını kullanıyor.

Üretken yapay zeka uygulamalarını kullanan kişiler, potansiyel olarak intihal veya telif hakkı ihlaline başvurduklarını biliyor mu?

Yaptıkları şüpheli görünüyor.

Hakim varsayımın, eğer üretken yapay zeka uygulaması kullanıma hazırsa, yapay zeka üreticisinin veya yapay zekayı sahaya çıkaran şirketin, kullanım için sundukları ürünlerde uygunsuz hiçbir şey olmadığını bilmesi veya bundan emin olması gerektiği yönünde olduğunu söyleyebilirim. Eğer kullanabiliyorsanız, yukarıda olması gerekir.

Belirli bir üretken yapay zekanın veri eğitimi konusunda yanlış bir temelde çalıştığını nasıl deneyeceğimiz ve kanıtlayacağımız hakkındaki önceki yorumumu tekrar gözden geçirelim.

Şunu da eklemeliyim ki eğer bir üretken yapay zekayı bunu yaparken yakalayabilirsek, diğerlerini yakalama şansının muhtemelen artacağını da eklemeliyim. Tüm üretken yapay zeka uygulamalarının aynı gemide olacağını söylemiyorum. Ancak içlerinden biri duvara sıkışınca kendilerini oldukça sert denizlerde bulacaklar.

Bu nedenle mevcut davalara da göz atmak son derece faydalı olacaktır. İddia edilen ihlal konusunda kazanan ilk kişi, eğer bu meydana gelirse, eldeki daha geniş sorunlardan bazı dar görüşlülükler kaçmadığı sürece, muhtemelen diğer üretken AI uygulamaları için kıyamet ve kasvet büyüyecektir. İddia edilen ihlal nedeniyle kaybedenler, üretici AI uygulamalarının çanları çalabileceği ve kutlayabileceği anlamına gelmez. Kaybın, diğer üretken yapay zeka uygulamalarıyla pek alakalı olmayan diğer faktörlere atfedilmiş olması vb.

100 kelimelik bir makale alırsak ve bu kelimeleri internette tam olarak aynı sırayla bulmaya çalışırsak, diğer her şey eşit olduğunda intihal veya telif hakkı ihlali açısından nispeten sağlam bir durumla karşı karşıya kalabileceğimizi söylemiştim. Ancak eşleşen kelime sayısı azsa, ince bir buz üzerindeymişiz gibi görünürüz.

Bunu daha derine inmek istiyorum.

Karşılaştırma yapmanın bariz bir yönü, tamamen aynı kelimelerin tam olarak aynı sırada yer almasıdır. Bu durum tüm pasajlar için geçerli olabilir. Bu, neredeyse bize gümüş tepside sunulan bir şey gibi, fark edilmesi kolay olurdu.

Yalnızca bir sözcük parçacığı eşleşirse de şüphelenebiliriz. Buradaki fikir, bunların çok önemli kelimeler olup olmadığını veya kolayca kaldırabileceğimiz veya görmezden gelebileceğimiz dolgu kelimeleri olup olmadığını görmek olacaktır. Ayrıca kelimelerin geçmiş veya gelecek zaman kiplerinde kullanılması veya başka bir saçmalık tarafından kandırılmak istemiyoruz. Kelimelerdeki bu varyasyonlar da dikkate alınmalıdır.

Başka bir karşılaştırma düzeyi, kelimelerin büyük ölçüde özellikle aynı kelimeler olmadığı, ancak kelimelerin farklı bir durumda bile hala aynı noktaları işaret ediyor gibi göründüğü zaman olabilir. Örneğin, bir özet genellikle orijinal kaynak olarak oldukça benzer kelimeler kullanır, ancak özetin orijinal kaynağa dayandırılmış gibi göründüğünü fark edebiliriz.

Karşılaştırmanın en zor düzeyi, kavramlara veya fikirlere dayalı olacaktır. Karşılaştırma tabanı olarak aynı veya benzer kelimelere sahip olmayan, ancak özü veya fikirleri aynı olan bir makale gördüğümüzü varsayalım. Kuşkusuz zorlu bir bölgeye giriyoruz. Fikirlerin yakından korunduğunu hemen söyleseydik, neredeyse tüm bilgi ve bilgi genişletme biçimlerine bir kapak koyardık.

Duke Üniversitesi'nin kullanışlı bir açıklamasına bir kez daha başvurabiliriz:

“Telif hakkı fikirleri korumaz, yalnızca bir fikrin belirli ifadesini korur. Örneğin, bir mahkeme, Dan Brown'ın yazdığı sırada daha önceki bir kitabın telif hakkını ihlal etmediğine karar verdi. The Da Vinci Code çünkü daha önceki çalışmalardan ödünç aldığı tek şey olay örgüsünün veya diyalogun ayrıntıları değil, temel fikirlerdi. Telif hakkı, yaratıcı üretimi teşvik etmeyi amaçladığından, yeni ve orijinal bir çalışma oluşturmak için başka birinin fikirlerini kullanmak telif hakkının amacını destekler, onu ihlal etmez. Yalnızca biri diğerinin ifadesini izinsiz olarak kopyalarsa potansiyel olarak telif hakkı ihlali söz konusu olur.”
“Öte yandan intihalden kaçınmak için, başka birinden ödünç alınan fikirlerin bile kaynağının, bu fikirlerin ifadesinin kendilerinden ödünç alınıp alınmadığına bakılmaksızın tanınması gerekir. Bu nedenle, nadiren herhangi bir telif hakkı sorununa yol açsa da, bir açıklamanın alıntılanması gerekir.

Lütfen daha önce de belirttiğimiz gibi çifte sorun yönleri arasındaki farklara dikkat edin.

Artık karşılaştırma yaklaşımlarını uygulamaya koymak uzun yıllardan beri yapılan bir şey. Bu şekilde düşün. Okul ödevleri için makale yazan öğrenciler, internetten içerik alma ve A sınıfı Pulitzer Ödülü kazanan sözcükleri kendilerinin yazmış gibi davranma cazibesine kapılabilirler.

Öğretmenler bununla başa çıkmak için uzun süredir intihal kontrol programları kullanıyorlar. Bir öğretmen öğrencinin makalesini alır ve intihal denetleyicisine gönderir. Bazı durumlarda, tüm okul bir intihal kontrol programının kullanımına lisans verecektir. Öğrenciler ne zaman bir makale teslim etseler, önce makaleyi intihal kontrol programına göndermeleri gerekir. Öğretmen, programın ne rapor ettiği konusunda bilgilendirilir.

Ne yazık ki, bu intihal kontrol programlarının söyleyecekleri konusunda son derece dikkatli olmalısınız. Bildirilen belirtilerin geçerli olup olmadığını dikkatli bir şekilde değerlendirmek önemlidir. Daha önce de belirtildiği gibi, bir çalışmanın kopyalanıp kopyalanmadığını belirleme yeteneği belirsiz olabilir. Kontrol programının sonucunu düşüncesizce kabul ederseniz, bir öğrenciyi kendisi kopyalamadığı halde kopya çekmekle suçlayabilirsiniz. Bu ruh kırıcı olabilir.

Devam edersek, üretken yapay zeka çıktılarının test edilmesi alanında intihal kontrol programlarını kullanmayı deneyebiliriz. Üretken bir yapay zeka uygulamasından çıkan makalelere sanki bir öğrenci tarafından yazılmış gibi davranın. Daha sonra intihal denetleyicisinin ne söylediğini ölçeriz. Bu biraz tuzla yapılır.

Bu tür karşılaştırmaları üretken yapay zeka bağlamında bu şekilde işlevselleştirmeye çalışan yeni bir araştırma çalışması var. Sizinle bazı ilginç bulguların üzerinden geçmek istiyorum.

İlk olarak, bazı ek arka plan gereklidir. Üretken yapay zeka bazen LLM'ler (büyük dil modelleri) veya basitçe LM'ler (dil modelleri) olarak adlandırılır. İkincisi, ChatGPT, GPT-3.5 adlı başka bir OpenAI üretici yapay zeka paketinin bir sürümünü temel alır. GPT-3.5'ten önce GPT-3 vardı ve ondan önce de GPT-2 vardı. Günümüzde GPT-2, sonraki serilere kıyasla oldukça ilkel kabul ediliyor ve hepimiz GPT-4'ün yakında piyasaya sürülmesini sabırsızlıkla bekliyoruz, adresindeki tartışmama bakın. buradaki bağlantı.

Kısaca incelemek istediğim araştırma çalışması, GPT-2'yi incelemekten oluşuyordu. Artık GPT-2'nin yeteneklerinin çok ötesinde olduğumuz için bunun farkına varmak önemlidir. GPT-2'nin bu analizinin sonuçları hakkında aceleci sonuçlar çıkarmayın. Bununla birlikte, GPT-2'nin değerlendirilmesinden çok şey öğrenebiliriz. Çalışmanın başlığı “Dil Modelleri İntihal Yapar mı?” Jooyoung Lee, Thai Le, Jinghui Chen ve Dongwon Lee, ACM WWW '23'te yer alıyor, 1–5 Mayıs 2023, Austin, TX, ABD.

Bu onların ana araştırma sorusu:

"ÖĞÖ'ler eğitim örneklerindeki ifadeleri veya cümleleri ne ölçüde (ezberlemeyle sınırlı değil) kullanıyor?"

Potansiyel intihal için şu üç seviyeyi veya kategoriyi kullandılar:

“Verbatim intihal: Kelimelerin veya ifadelerin dönüştürülmeden aynen kopyalanması.”
"Açıklamalı intihal: Eşanlamlı ikame, kelimelerin yeniden sıralanması ve/veya geri çeviri."
"Fikir intihali: Temel içeriğin uzun bir biçimde temsili."

GPT-2 gerçekten de İnternet verileri üzerine eğitilmişti ve dolayısıyla bu tür analizler için uygun bir adaydı:

“GPT-2, 8 milyon Reddit bağlantısından alınan 45 milyondan fazla belgeyi içeren WebText üzerinde önceden eğitilmiştir. OpenAI, WebText'i halka açık olarak yayınlamadığından, WebText derleminin açık kaynaklı bir versiyonu olan OpenWebText'i kullanıyoruz. Önceki literatürde güvenilir bir şekilde kullanılmıştır.”

Çalışmadan alıntılanan seçici anahtar bulgular şunlardan oluşur:

"Önceden eğitilmiş GPT-2 ailelerinin OpenWebText'ten çalıntı yaptığını keşfettik."
"Bulgularımız, ince ayarın OpenWebText'teki birebir intihal vakalarını önemli ölçüde azalttığını gösteriyor."
“Carlini ve diğerleri ile tutarlı. ve Carlini ve diğerleri, daha büyük GPT-2 modellerinin (büyük ve xl) genellikle daha küçük olanlardan daha sık çalıntı diziler ürettiğini bulduk."
"Ancak, farklı LM'ler farklı intihal kalıpları gösterebilir ve bu nedenle sonuçlarımız, GPT-3 veya BLOOM gibi daha yeni LM'ler de dahil olmak üzere diğer LM'lere doğrudan genellenemeyebilir."
“Ayrıca, otomatik intihal dedektörlerinin birçok hata moduna (hem yanlış negatiflerde hem de yanlış pozitiflerde) sahip olduğu bilinmektedir.
"ÖLM'lerin eğitim verilerinin çoğunluğunun içerik sahiplerine bilgi verilmeden Web'den alındığı göz önüne alındığında, eğitim setlerindeki kelimeleri, cümleleri ve hatta temel fikirleri oluşturulan metinlerde tekrarlamalarının etik sonuçları vardır."

Bu tür çalışmalara kesinlikle çok daha fazla ihtiyacımız var.

Veri eğitimi açısından GPT-2'nin GPT-3 ile nasıl karşılaştırıldığını merak ediyorsanız, oldukça belirgin bir fark vardır.

Bildirilen göstergelere göre GPT-3 için veri eğitimi çok daha kapsamlıydı:

"Model internetteki metin veritabanları kullanılarak eğitildi. Bu, kitaplardan, web metinlerinden, Vikipedi'den, makalelerden ve internetteki diğer yazılardan elde edilen 570 GB'lık devasa bir veriyi içeriyordu. Daha da kesin olmak gerekirse sisteme 300 milyar kelime girildi” (BBC Bilim Odağı dergisi, "ChatGPT: OpenAI'nin GPT-3 aracı hakkında bilmeniz gereken her şey", yazan Alex Hughes, Şubat 2023).

GPT-3 veri eğitiminin daha ayrıntılı açıklamalarıyla ilgilenenler için GitHub'da yayınlanan resmi GPT-3 Model Kartından bir alıntıyı burada bulabilirsiniz (son güncelleme tarihi Eylül 2020 olarak listelenmiştir):

"GPT-3 eğitim veri seti, internete gönderilen metinlerden veya internete yüklenen metinlerden (örneğin, kitaplar) oluşur. Eğitildiği ve bugüne kadar değerlendirildiği internet verileri şunları içerir: (1) CommonCrawl veri kümesinin yüksek kaliteli referans derlemine benzerliğine göre filtrelenmiş bir sürümü, (2) Webtext veri kümesinin genişletilmiş bir sürümü, (3) ) iki internet tabanlı kitap topluluğu ve (4) İngilizce Wikipedia.”
"Eğitim verileri göz önüne alındığında, GPT-3'ün çıktıları ve performansı, sözlü, dijital olmayan kültürle dolu olanlardan çok internete bağlı toplulukları temsil ediyor. İnternete bağlı nüfus daha çok gelişmiş ülkeleri, zenginleri, gençleri ve erkekleri temsil ediyor ve çoğunlukla ABD merkezli. Daha zengin ülkeler ve gelişmiş ülkelerdeki nüfus, daha yüksek internet penetrasyonu göstermektedir. Dijital cinsiyet ayrımı aynı zamanda dünya çapında daha az kadının çevrimiçi temsil edildiğini gösteriyor. Ek olarak, dünyanın farklı bölgelerinde farklı seviyelerde internet penetrasyonu ve erişimi olduğundan, veri seti daha az bağlantılı toplulukları yeterince temsil etmiyor.”

GPT-3 ile ilgili yukarıdaki göstergelerden çıkarılacak sonuç, üretken yapay zekayı yapanlar arasında temel kural şudur: Ne kadar çok İnternet verisi tarayabilirseniz, üretken yapay zekayı geliştirme veya ilerletme ihtimaliniz de o kadar artar.

Buna iki şekilde de bakabilirsiniz.

1) Geliştirilmiş AI. İnternet'in mümkün olduğunca büyük bir kısmını tarayan üretken bir yapay zekaya sahip olacağız. Heyecan verici sonuç, üretken yapay zekanın halihazırda olduğundan daha iyi olacağıdır. Bu sabırsızlıkla beklenecek bir şey.
2) Bolca Kopyalama Potansiyeli. İnterneti taramanın bu şekilde genişletilmesi, intihal ve telif hakkı ihlali sorununu iğrenç ve ilgi çekici bir şekilde potansiyel olarak daha da büyütüyor. Daha önce etkilenen çok sayıda içerik oluşturucu olmasa da, boyut çiçek açacak. İçerik oluşturucuların tarafında bir avukatsanız, bu gözlerinizi yaşartır (belki dehşet gözyaşları veya davalar açısından bunun getirdiği beklentiler karşısında sevinç gözyaşları).

Bardak yarı dolu mu yoksa yarı boş mu?

Sen karar ver.

Yasal Mayınlar Bekliyor

Üzerinde düşünebileceğiniz bir soru, yayınlanan İnternet içeriğinizin taranması açısından adil bir oyun olarak kabul edilip edilmeyeceğidir. İçeriğiniz bir ödeme duvarının arkasındaysa, ödeme duvarının gücüne bağlı olarak kolayca erişilemediğinden muhtemelen taranacak bir hedef değildir.

Sıradan insanların çoğunun içeriklerini bir ödeme duvarının arkasına saklamadığını tahmin ediyorum. İçeriklerinin herkese açık olmasını istiyorlar. İnsanların buna bakacağını varsayıyorlar.

İçeriğinizin kamuya açık olması aynı zamanda veri eğitimi alan üretken yapay zeka tarafından kullanılmak üzere taranmasını onayladığınız anlamına mı gelir?

Belki evet belki hayır.

Bu, gözlerini deviren yasal konulardan biridir.

Daha önce alıntılananlara dönersek Bloomberg Yasası Makalede yazarlar, birçok web sitesiyle ilişkili Şartlar ve Koşulların (Şartlar ve Koşullar) öneminden bahsetmektedir:

“Veri kazıma için çevrimiçi botlar çalıştıran farkında olmadan yapay zeka şirketleri tarafından büyük ölçüde göz ardı edilen yasal kara mayını, her türden halka açık web sitelerinde yaygın olarak bulunan Şartlar ve Koşullarda gizlenmiştir. Halihazırda çözülmemiş fikri mülkiyet yasası ve telif hakkı ihlali ikileminin aksine, bir web sitesinin Hüküm ve Koşulları köklü bir sözleşme yasası tarafından desteklenir ve genellikle yeterli sayıda içtihada dayanarak mahkemede uygulanabilir.”

Web sitenizin lisanslamayla ilgili bir sayfaya sahip olduğunu varsayarsak, standartlaştırılmış modern bir şablon kullandıysanız büyük olasılıkla çok önemli bir madde içerebileceğini belirtiyorlar:

"Sonuç olarak, web sitelerine ilişkin standart Şartlar ve Koşulların çoğu - ücretsiz erişimde bol miktarda mevcuttur - otomatik veri kazımayı yasaklayan bir madde içerir. İronik bir şekilde, bu tür serbestçe kullanılabilen şablonlar muhtemelen ChatGPT eğitimi için kullanılmıştır. Bu nedenle, içerik sahipleri, Hüküm ve Koşullarını gözden geçirmek ve web sitelerindeki herhangi bir içeriğin, web sitesi sahibinin önceden yazılı izni olmaksızın, manuel veya otomatik olarak yapay zeka eğitimi veya ilgili herhangi bir amaçla kullanılmasını kesin olarak yasaklayan ayrı bir madde eklemek isteyebilirler. ”

İçerik oluşturucuların web siteleri hakkında gerçekleştirebilecekleri potansiyel eylemlere ilişkin analizlerine ek bir bilgi eklenmiştir:

“Bu nedenle, kazıma yasağı hükmünün her bir ihlali için bağlayıcı olmayan bir ihtiyati tedbir hükmü ile geliştirilmiş, uygulanabilir bir tasfiye edilmiş tazminat hükmü eklemek, meyvelerini vermeye istekli olmayan yaratıcı içerik yazarları için savunulabilir bir çözüm olabilir. Bunun için ödeme yapılmadan veya en azından çalışmaları için uygun bir kredi verilmeden AI eğitimi amaçları için entelektüel emek.

Bu konuda avukatınıza danışmak isteyebilirsiniz.

Bazıları bunun yapay zeka üreticilerine içerik yaratıcılarının içeriklerini koruma konusunda son derece ciddi olduklarını anlatmanın hayati bir yolu olduğunu söylüyor. Lisansınızın doğru ifadelere sahip olduğundan emin olmak, yapay zeka üreticilerinin dikkatini çekecek gibi görünüyor.

Diğerleri biraz karamsar olsa da. Üzgün bir şekilde, web sitenize en sert ve en ölümcül hukuk dilini koyabileceğinizi söylüyorlar, ancak sonunda, AI yapımcıları onu tarayacak. Öyle yaptıklarını bilmeyeceksin. Yaptıklarını kanıtlamak için çok zamanınız olacak. Çıktılarının içeriğinizi yansıttığını keşfetmeniz pek olası değildir. Bu, kazanamayacağınız zorlu bir savaş.

Karşı argüman, savaşı daha başlamadan teslim oluyorsunuz. En azından yeterli hukuk diline sahip değilseniz ve onları yakalarsanız, herhangi bir sorumluluktan kaçmak için kıpır kıpır kıpır kıpır kıpır kıpır kıpır kıpır kıpır kıpır kıpır kıpır kıpır kıpır kıpır kıpır kıpır kıpır kıpır kıpır kıpır kıpır kıpır kıpır kıpır kıpır kıpır kıpır kıpır kıpır kıpır kıpır kıpır. Hepsi doğru türde yasal bir dil yayınlamadığınız için.

Bu arada, ilgi çekmeye çalışan başka bir yaklaşım, işaretleme web sitenizin, sitenin üretken yapay zeka tarafından taranmayacağını belirten bir şey içermesi. Buradaki fikir, standartlaştırılmış bir işaretleyicinin tasarlanmasıdır. Web siteleri muhtemelen işaretçiyi sitelerine ekleyebilir. Yapay zeka üreticilerine, veri taramalarını işaretli web sitelerini atlayacak şekilde değiştirmeleri gerektiği söylenecek.

Bir işaretçi yaklaşımı başarılı olabilir mi? Endişeler, işaretçileri edinme ve postalama maliyetlerini içerir. AI üreticilerinin işaretçilere uyup uymayacağının yanı sıra işaretli siteleri taramaktan kaçınmalarını sağlayacak. Başka bir bakış açısı ise, AI yapımcıları işaretlere uymasa bile, bu, mahkemeye gitmek ve içerik oluşturucunun AI taraması konusunda uyarıda bulunmak için son adımı attığını iddia etmek için başka bir açıklayıcı ipucu sağlıyor.

Yikes, hepsi başınızı döndürüyor.

Sonuç

Bu çetrefilli konu hakkında birkaç son açıklama.

Bir intihalci ve telif hakkı ihlali ikilemi olarak tüm bu yapay zeka hakkında akıl almaz bir bakış açısına hazır mısınız?

İntihal veya telif hakkı ihlali durumunda üretken yapay zekanın "yakalanması" hakkındaki varsayımların çoğu, ortaya çıkan çıktıların keşfedilmesine dayanmaktadır. çok benzemek Veri eğitimi sırasında potansiyel olarak taranan İnternet içeriği gibi önceki çalışmalar.

Burada bir böl ve fethet taktiğinin oynandığını varsayalım.

İşte demek istediğim.

Üretken yapay zeka biraz buradan ve biraz da oradan ödünç alırsa ve nihayetinde bunları belirli bir çıktı üretmek için karıştırırsa, bir yakalama anına sahip olma şansı muazzam bir şekilde azalır. Herhangi bir çıktı, belirli bir kaynak öğeden kopyalandığını kesin olarak söyleyebileceğiniz yeterli bir eşiğe görünüşte yükselmeyecektir. Ortaya çıkan makale veya diğer çıktı modları yalnızca kısmi olarak eşleştirilebilir. Ve intihalin veya telif hakkı ihlalinin meydana geldiğini iddia etmeye yönelik olağan yaklaşımla, özellikle de lokma göze çarpan bir şey değilse ve İnternet'te yaygın olarak bulunabiliyorsa (alttan kesme) genellikle işin içinde olan ufacık bir parçadan daha fazlasını sergilemeniz gerekir. zimmete para geçirmenin yeterli kanıt yükü).

Önerilen kanıt görünüşte önemsiz bir oran olsa bile, üretken yapay zeka tarafından yapılan veri eğitiminin web sitelerini ve içerik yaratıcılarını kazıkladığını hala ikna edici bir şekilde beyan edebilir misiniz?

Bunu bir düşün.

Büyük ölçekte potansiyel intihal ve geniş ölçekte telif hakkı ihlaliyle karşı karşıya kalırsak, neyin intihal ve/veya telif hakkı ihlali oluşturduğunu tanımlama yaklaşımımızı değiştirmemiz gerekebilir. Belki de esas olarak veya genel olarak intihal veya telif hakkı ihlali için yapılacak bir dava vardır. Binlerce veya milyonlarca küçük parçadan oluşan bir mozaik, bu tür ihlaller yapıyor olarak yorumlanabilir. Görünen sorun şu ki, bu, her türden içeriğin birdenbire bir ihlaller şemsiyesi altına girmesine neden olabilir. Bu kaygan bir eğim olabilir.

Ağır düşünceler.

Efsanevi yazar Leo Tolstoy, ağır düşüncelerden bahsederken şu ünlü ifadeyi kullanmıştır: "Hayatın tek anlamı insanlığa hizmet etmektir."

Web siteniz ve başkalarının web siteleri yapay zekanın iyileştirilmesi için taranıyorsa ve bunun için tek bir kuruş bile almıyorsanız, insanlığın geleceğine katkıda bulunduğunuza dair ateşli bir inançla ciddi bir teselli bulabilir misiniz? Ödenmesi gereken küçük bir bedel gibi görünüyor.

Eh, yapay zekanın tüm insanları varoluştan silen korkunç bir varoluşsal risk olduğu ortaya çıkmadığı sürece. Bunun için kredi almamalısın. En kısa sürede bu korkunç sonuca katkıda bulunmayacağınızı varsayıyorum. Bu vahim öngörüyü bir kenara bırakırsak, yapay zeka üreticileri üretken yapay zekalarından para kazanıyorsa ve vurgunculuktan zevk alıyor gibi görünüyorlarsa, sizin de pastadan pay almanız gerektiğini düşünüyor olabilirsiniz. Paylaşın ve paylaşın. Yapay zeka üreticileri, herhangi bir web sitesini taramak için izin istemeli ve ardından, taramayı üstlenmelerine izin verildiği için ödenecek bir bedeli müzakere etmelidir.

Kredinin vadesi geldiği yerde kredi verin.

Şimdilik son sözü Sir Walter Scott'a verelim: “ Ah, ne kadar karmaşık bir ağ örüyoruz. İlk başta aldatmak için pratik yaparız.

Bu, aldatmanın gündemde olduğuna inanıyorsanız geçerli olabilir veya her şeyin yolunda, tamamen açık ve meşru olduğunu düşünüyorsanız geçerli olmayabilir. Lütfen bunu düşündüğünüz için kendinize cömertçe kredi verin. Hakediyorsun.

Kaynak: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- ve-ai-kanun/