TG Telegram Group & Channel
一个不正经的资源站🥰 | United States America (US)
Create: Update:

人类知识之光丨安娜的档案/读秀数据库/ LLM data
Exclusive access for LLM companies to largest Chinese non-fiction book collection in the world

昨天影子图书馆 Anna’s Archive 宣布已获取「超星」旗下读秀数据库的 750 多万份、共计 359TB 的电子图书,超过 Library Genesis 530 万本存量,且大多数都是学术图书的扫描存储,这意味着很多中文书籍都可以直接在「安娜的档案」找到。

另外,前不久「安娜的档案 LLM data」就已经宣布其所有存储内容,书籍/论文/杂志都已经开放可用作 LLM 的数据获取和训练,而且大多数都已经 OCR 处理,内容几乎没有重叠。(包括这次的读秀数据)

数字存储、知识开放、数据训练、法权抗争,知识和信息没有永恒,但知识的自我保存会在每一次下载存储和阅读传播中生根繁衍,寄生岁月。

Reference
人类 10% 的文本遗产被永久保存
Sci-Hub 创始人荣获「EFF」颁发的奖项
Zlib,海盗镜像图书项目

#books

Forwarded from 404 [[ ]] KIDS SEE GHOSTS (志筑仁美)
人类知识之光丨安娜的档案/读秀数据库/ LLM data
Exclusive access for LLM companies to largest Chinese non-fiction book collection in the world

昨天影子图书馆 Anna’s Archive 宣布已获取「超星」旗下读秀数据库的 750 多万份、共计 359TB 的电子图书,超过 Library Genesis 530 万本存量,且大多数都是学术图书的扫描存储,这意味着很多中文书籍都可以直接在「安娜的档案」找到。

另外,前不久「安娜的档案 LLM data」就已经宣布其所有存储内容,书籍/论文/杂志都已经开放可用作 LLM 的数据获取和训练,而且大多数都已经 OCR 处理,内容几乎没有重叠。(包括这次的读秀数据)

数字存储、知识开放、数据训练、法权抗争,知识和信息没有永恒,但知识的自我保存会在每一次下载存储和阅读传播中生根繁衍,寄生岁月。

Reference
人类 10% 的文本遗产被永久保存
Sci-Hub 创始人荣获「EFF」颁发的奖项
Zlib,海盗镜像图书项目

#books


>>Click here to continue<<

一个不正经的资源站🥰






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)