티스토리 뷰

반응형

암호화폐 시장이 비트코인 반감기 이후에 계속 떨어지고 있다. 홍콩 ETF 승인 소식도 반등의 동력은 되지 못했다. 그러던 중 아직 거래소에 상장되진 않았으나 채굴할 수 있는 코인이 있다고 해서 알아본다. 바로 그래스라는 코인이다. 그래스 코인의 블로그에서 번역해서 요약해 정리해 본다. 정리하다 보니 AI 학습에 대한 이들의 설명도 이해하기 쉬웠다. 

 

AI가 공부하는 방식과 grass

 

Grass는 공개 웹에 액세스하여 AI 모델을 훈련하는 데 필요한 데이터에 액세스 하기 위한 분산형 네트워크입니다. 구조화된 데이터 세트를 정리하고 준비하는 사업으로 확장되면서 AI 존재의 기반인 AI의 데이터 레이어에서 없어서는 안 될 부분이 됩니다.

 

쉽게 말하면 AI는 대량의 데이터를 가져와서 그 속에서 패턴을 찾아내는 프로그램입니다. 예를 들어 ChatGPT를 생각해 보세요. 수십억 개의 단어가 필요하며 각각이 서로 어떻게 연관되어 있는지 알아냅니다. "파란색"이라는 단어 옆에 있는 "하늘"이라는 단어를 10~15,000번 보면 이제 하늘이 파랗다고 말할 수 있습니다.

 

먼저, 모델은 훈련할 데이터를 획득했습니다. 둘째, 찾을 수 있는 모든 패턴과 상관관계를 "학습"하기 위해 이를 샅샅이 뒤졌습니다. 셋째, 하늘이 무슨 색인지 물었을 때 "파란색"이라고 말했습니다.

특히 암호화폐 분야에서 AI 프로토콜을 생각할 때 아마도 두 번째 부분인 훈련을 생각할 것입니다. 모델이 데이터를 샅샅이 뒤져 패턴을 찾을 때 사용하는 분산형 프로세서 네트워크를 생각해 보세요. 그리고 당신 말이 맞을 것입니다. 그것은 일종의 AI 프로토콜입니다. 문제는 그것이 가장 중요한 부분이 아니라는 것입니다. 하지만 이다음 부분은 자세히 읽어 보시기 바랍니다.

AI 모델을 훈련하는 것은 분명히 중요하지만, AI 모델을 사용할 때 얻을 수 있는 답은 훈련 데이터에서 찾은 상관 관계에만 기반합니다. ChatGPT는 훈련된 데이터에서 해당 답변을 충분히 많이 만났기 때문에 하늘이 파란색이라고 말할 수 있습니다. 낮은 품질의 훈련 데이터로 시작하면 결국 낮은 품질의 답변을 얻게 됩니다. 

이런 방식으로 볼 때 데이터는 실제로 모든 AI 모델에서 가장 중요한 부분입니다. 데이터는 개발의 형식적인 서문이 아니라 실제로 모든 작동 모델의 핵심이며 데이터 프로비저닝은 모든 교육의 기초입니다. 그렇기 때문에 한 보고서에 따르면 "AI 도구용 데이터 준비는 AI 시스템 구현과 관련된 전체 작업량의 최대 80%를 차지하는 경우가 많습니다." 실제로 데이터 프로비저닝이 가장 중요한 부분입니다!

데이터 레이어는 AI 개발의 첫 번째 단계입니다. 이는 훈련이 시작되기 전에 데이터를 수집하고 모델을 위해 준비하는 AI 스택의 일부입니다. 그리고 이것은 내 친구, 그라스(Grass)입니다. 또한 여러분이 기여할 수 있는 곳이자 인공 지능의 캄브리아기 폭발적인 이점을 얻을 수 있는 곳이기도 합니다. 그러니 우리와 함께 있어주세요. 


Grass는 AI 훈련을 위한 데이터 수집에 사용되는가?

 

예, 이것이 바로 Grass가 사용되는 이유입니다!

Grass에서 노드를 실행하면 사용하지 않는 인터넷 연결 부분을 판매하게 됩니다. 우리 모두가 하루 24시간 비디오를 스트리밍하는 것은 아니기 때문에 비용을 지불하지만 특정 시간에 사용하지 않는 인터넷이 많이 있습니다.

그리고 이것은 AI 연구소가 비용을 지불할 리소스입니다! 우리 네트워크를 사용하면 온라인에 접속하여 공개 웹사이트를 보고 AI 데이터를 스크랩할 수 있습니다. 그런 다음 이는 교육 목적으로 사용되어 미래의 AI 모델을 만들고 일반 사람들의 변화에 ​​대해 보상합니다. 

 

데이터 수집한 후 Grass가 어떻게 사용되는가?

 

공개 웹사이트에서 데이터를 스크랩하면 구조화되지 않은 상태로 도착합니다. 웹사이트의 언어 데이터를 상상해 보세요. 문장과 단락 대신에 이해할 수 있는 순서 없이 수천 자리의 문자와 숫자의 문자열만 표시됩니다. 데이터 구조화는 이러한 숫자를 인식 가능한 형식으로 만드는 프로세스를 의미합니다. 이 예에서는 실제로 읽고 해석할 수 있도록 구성합니다. AI 모델이 데이터를 사용하려면 데이터를 특정 방식으로 구성해야 하므로 이는 분명히 AI 파이프라인에서 중요한 단계입니다.

준비의 또 다른 구성 요소는 데이터를 정리하는 것입니다. 이상치는 모델이 학습할 때 제시하는 결과를 왜곡할 수 있으므로 훈련을 시작하기 전에 이러한 이상치를 버리는 것이 중요합니다. 더욱이, 데이터 전쟁이 격화되고 기업들이 서로를 방해하려고 시도함에 따라 의도적인 중독 사례가 더 많아지기 시작했습니다. 이들은 기업 정보를 얻기 위해 서로 정보를 수집하려고 할 때 상대방을 방해하기 위해 의도적으로 웹 사이트에 잘못된 정보를 포함함으로써 이를 수행합니다. 이는 먼저 세심한 준비 없이는 데이터를 AI 모델에 간단히 연결할 수 없는 또 하나의 이유입니다.

Socrates는 LLM 교육을 목적으로 AI 연구소가 액세스를 요청할 수 있는 대규모 데이터 저장소로 시작되었습니다. 그러나 현재는 스크레이핑 및 데이터 준비 프로세스를 자동화하고 스크레이핑 된 후 데이터에 태그를 지정하는 데 사용할 자체 모델을 교육하는 작업이 진행 중입니다. 이는 실제로 데이터 계층을 과도하게 구동하여 전반적으로 분산형 AI의 발전을 가속화할 것입니다.

 

이러한 서비스를 수행하는 데 분산형 네트워크가 필요한 이유는?


현존하는 대규모 웹사이트 중 다수는 민간 중앙 집중식 AI 기업의 지분을 보유하고 있으며 소규모 경쟁업체가 발판을 마련하는 것을 막는 데 관심을 갖고 있습니다. 아직 자신의 데이터가 얼마나 가치 있는지 깨닫기 시작하지 않은 기업도 대규모 AI 연구소를 제외한 모든 연구소의 액세스 비용을 엄청나게 높이는 정책을 도입하기 시작했습니다. 예를 들어 Reddit에서는 엄청난 양의 언어 데이터를 가져올 수 있지만 회사는 작년에 API에 대해 엄청난 금액을 청구하기 시작했으며 이제는 사람들이 직접 스크랩하는 것을 막으려고 합니다.

실제로 이는 알려진 데이터 센터의 IP 주소를 차단함으로써 작동하는 경우가 많습니다. 많은 기업이 Grass의 분산되고 공평한 설계에 비해 중앙 집중화되고 추출적인 Grass와 같은 네트워크를 운영하고 있으며 이러한 네트워크는 스크래핑을 위해 데이터 센터에 의존하는 경우가 많습니다. 웹사이트는 이러한 IP 주소를 차단하므로 AI 연구소가 이를 볼 수 있는 유일한 실제 방법은 Grass와 같은 분산 네트워크를 통해서입니다.

 

Grass는 기존 데이터 프로비저닝 방법보다 어떻게 더 나은가?


Grass가 만들어진 이유는 한 가지입니다. AI의 등장은 Web 2.0에서 발생한 일부 잘못을 바로잡을 수 있는 기회이기 때문입니다. 우리는 현재 인터넷이 발전하는 방식에 만족하지 않으며, 이러한 인프라를 구축하는 것이 Web3 개발에 대한 우리의 가치를 홍보하는 가장 좋은 방법이라고 믿습니다. 우리가 자랑스러워하는 세 가지는 다음과 같습니다.

1. Grass는 사용자가 소유하고 운영하는 네트워크입니다. 노드를 실행하고 Grass 포인트를 얻으면 네트워크 운영을 도우면서 네트워크 자체에 대한 지분을 얻게 됩니다. 사용자에게 인센티브를 제공하면 약간의 인센티브만 제공하는 다른 네트워크와 달리 Grass는 공평하고 집단적인 프로젝트로 설계되었습니다. 이는 AI가 성장함에 따라 Bill Gates와 Elon Musk뿐만 아니라 우리 모두가 혜택을 받는다는 것을 의미합니다.


2. Grass는 현재 누구나 AI의 성장에 노출될 수 있는 가장 쉬운 방법입니다. 노드를 실행하는 것은 Chrome 확장 프로그램에 가입하고 설치하는 것만큼 쉽습니다. 나머지 작업은 앱이 자동으로 수행합니다. Grass는 AI에 참여하는 능동적인 방법이 아닌 수동적인 방법입니다. 즉, 누구나 사실상 아무런 노력 없이 기여할 수 있습니다.

 

3. Grass는 기존 인공 지능 훈련에 유용할 뿐만 아니라 웹 데이터에 액세스 할 수 있는 대체 경로를 만들어 분산형 오픈 소스 AI 생성을 가능하게 합니다. 아무도 이렇게 하지 않으면, Google 및 Microsoft와 같은 회사는 모든 것을 색인화한 유일한 주체로서 공개 웹을 관리할 수 있는 권한을 갖게 될 것입니다. 그런 다음 그들은 이 힘을 사용하여 AI 개발에 대한 독점권을 주장할 수 있습니다. 왜냐하면 (지금 알고 있듯이) 훈련 데이터가 없으면 AI 모델도 없기 때문입니다. 이 서비스를 제공하고 소크라테스처럼 데이터를 구조화하기 위한 레일을 생성함으로써 Grass는 모든 사람이 액세스 할 수 있는 공개 웹 데이터를 만들기 위해 노력하고 있습니다.


이것은 많은 정보였지만 AI 개발에서 Grass가 수행하는 역할, 현재 임무가 무엇인지, 그리고 그것이 왜 그렇게 중요하다고 생각하는지에 대해 더 잘 이해하셨기를 바랍니다. 여기에 우리와 함께 참여함으로써 귀하는 네트워크 구축 작업에 대한 보상만 받는 것이 아닙니다. 여러분은 더 나은, 더 공정하고, 더 정의로운 세상을 만드는 데 도움을 주고 있습니다. AI 자체와 마찬가지로 모든 것은 데이터 계층에서 시작됩니다. 이 인프라를 구축하고 우리가 살고 싶은 세상을 만드는 데 도움을 주셔서 감사합니다.

 

한줄요약

 

그래스에 접속해서 컴퓨터를 켜놓으면 알아서 여기서 만든 AI 학습에 도움이 되고 도움이 되는 만큼 보상을 한다.  

반응형
반응형
최근에 올라온 글
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30