หนังสือพิมพ์ The New York Times (NYT) ยื่นฟ้อง Microsoft และ OpenAI ฐานละเมิดลิขสิทธิ์บทความของหนังสือพิมพ์ โดย OpenAI ใช้บทความของ NYT ในการฝึกโมเดลภาษาขนาดใหญ่ (LLM) เช่น GPT-4 ส่วน Microsoft ใช้บทความของ NYT ในบริการ ChatGPT/Copilot
OpenAI ไม่ได้เปิดเผยชุดข้อมูลที่ใช้ฝึก GPT-4 แต่จากชุดข้อมูลที่ใช้ฝึก GPT-2 และ GPT-3 ซึ่งเป็นรุ่นก่อนหน้า พบว่ามีข้อมูลของ NYT อยู่มากเป็นอันดับสาม รองจาก Google Patents และ Wikipedia โดยข้อมูลเหล่านี้มาจากชุดข้อมูล Common Crawl ซึ่งเป็นข้อมูลเว็บปริมาณมหาศาลคำพูดจาก สล็อตเว็บตรง
NYT ระบุว่า บริษัทได้พยายามเจรจากับ Microsoft และ OpenAI ก่อนหน้านี้แล้ว แต่ไม่สามารถตกลงกันได้ ทำให้ต้องนำมาสู่การฟ้องร้องเพื่อพิจารณาคดีในครั้งนี้
คดีนี้คล้ายกับคดีของ Getty Images ที่ฟ้องบริษัท Stability AI ฐานละเมิดลิขสิทธิ์ภาพถ่าย โดยคดีนี้อาจส่งผลกระทบต่อบริษัทเทคโนโลยีอื่นๆ ที่ให้บริการปัญญาประดิษฐ์ที่ใช้ข้อมูลสาธารณะในการฝึกโมเดล
The VergeMicrosoft OpenAI