Yo! În calitate de furnizor de transformatoare, sunt adesea întrebat despre ce seturi de date sunt utilizate în mod obișnuit pentru a antrena modelele Transformer. Este un subiect super interesant și astăzi o voi dezvălui pentru voi toți.
În primul rând, să înțelegem de ce seturile de date contează atât de mult atunci când vine vorba de antrenarea modelelor Transformer. Aceste modele sunt ca acești cursanți super inteligenți, dar au nevoie de o mulțime de date pentru a învăța cu adevărat bine și pentru a putea face tot felul de lucruri interesante, cum ar fi traducerea în limbă, generarea de text și chiar să răspundă la întrebări, așa cum fac eu acum.
1. Seturi de date Wikipedia
Unul dintre cele mai populare seturi de date sunt datele de la Wikipedia. Este imens și acoperă o gamă largă de subiecte. Ai articole despre istorie, știință, tehnologie, cultură și cam tot ce se află sub soare. Limbajul folosit în articolele Wikipedia este, de asemenea, destul de divers și bine structurat.


Lucrul minunat despre utilizarea datelor Wikipedia este că sunt disponibile publicului. Puteți doar să mergeți și să răzuiți informațiile de care aveți nevoie (desigur, urmând regulile și reglementările adecvate). Modelele Transformer pot învăța multe din el, inclusiv vocabular, gramatică și cunoștințe despre diferite domenii. De exemplu, dacă antrenezi un model pentru a face o întrebare de cunoștințe generale - răspuns, datele Wikipedia pot oferi o bază solidă. Modelul poate înțelege modul în care diferitele concepte sunt legate, cum ar fi modul în care o anumită teorie științifică este conectată la aplicațiile sale din lumea reală.
2. BookCorpus
BookCorpus este un alt set de date minunat. După cum sugerează și numele, este alcătuit dintr-o colecție mare de cărți. Cărțile sunt diferite de articolele Wikipedia. Ele au adesea o structură narativă, iar limbajul folosit poate fi mai creativ și mai nuanțat.
Când utilizați BookCorpus pentru a antrena un model Transformer, modelul poate învăța despre tehnici de povestire, dezvoltarea personajelor și diferite stiluri de scriere. Acest lucru este foarte util dacă doriți să pregătiți un model pentru sarcini precum scrierea creativă sau generarea de text într-un context mai literar. Modelul poate începe să imite fluxul și ritmul cărților bine scrise și poate genera text care se citește mai lin și mai captivant.
3. Crawl comun
Common Crawl este un set de date masiv. Practic, este o colecție imensă de pagini web care sunt accesate cu crawlere și arhivate în mod regulat. Amploarea Common Crawl este uluitoare. Are petabytes de date.
Avantajul utilizării Common Crawl este că reprezintă utilizarea limbajului din lumea reală pe internet. Aveți tot felul de conținut, de la articole de știri și bloguri la postări pe rețelele sociale și recenzii de produse. Aceasta înseamnă că un model Transformer instruit pe Common Crawl poate înțelege și genera text care este similar cu ceea ce oamenii scriu și citesc de fapt online. Cu toate acestea, dezavantajul este că datele sunt destul de zgomotoase. Există o mulțime de mesaje nedorite, cum ar fi spam, reclame și conținut prost scris. Deci, trebuie să faceți multă curățare și preprocesare înainte de a-l folosi pentru a vă antrena modelul.
4. Seturi de date Hugging Face
Hugging Face are această colecție foarte grozavă de seturi de date. Au organizat o mulțime de seturi de date diferite pentru sarcini diferite. Aveți seturi de date pentru analiza sentimentelor, recunoașterea entităților numite și traducerea automată, pentru a numi doar câteva.
Lucrul frumos despre seturile de date Hugging Face este că sunt ușor de accesat și utilizat. Hugging Face oferă o bibliotecă Python care vă permite să descărcați și să preprocesați seturile de date cu doar câteva linii de cod. De asemenea, au o mulțime de documentație și exemple, așa că, chiar dacă sunteți nou în lucrul cu seturi de date, puteți începe destul de repede. Aceste seturi de date sunt, de asemenea, bine organizate și deseori vin cu împărțiri predefinite pentru instruire, validare și testare, ceea ce face procesul de instruire mult mai simplu.
5. Seturi de date TREC (Text Retrieval Conference).
Seturile de date TREC sunt utilizate în principal pentru preluarea informațiilor și sarcini de răspuns la întrebări. Acestea conțin o colecție de documente și un set de întrebări la care trebuie să se răspundă pe baza acelor documente.
Aceste seturi de date sunt grozave, deoarece sunt concepute special pentru a testa și a instrui modele despre cum să găsească informații relevante într-un set mare de texte. Modelele de transformatoare instruite pe seturile de date TREC pot deveni foarte bune la scanarea rapidă a documentelor și la extragerea celor mai relevante răspunsuri. Acest lucru este foarte util în aplicații precum motoarele de căutare și bibliotecile digitale, unde utilizatorii caută informații specifice.
Acum, permiteți-mi să vă spun puțin despre transformatoarele pe care le furnizăm. Avem niște produse de înaltă calitate, cum ar fiTransformator rapid și silentios Răspuns rapid Ultra silențios. Acest transformator nu este doar rapid, ci și ultra-silențios, perfect pentru locurile în care zgomotul poate fi o problemă.
Avem șiTransformator umplut cu ulei. Aceste tipuri de transformatoare sunt excelente pentru aplicații de mare putere. Sunt proiectate pentru a gestiona cantități mari de electricitate și sunt foarte fiabile.
Și pentru cei care au nevoie de și mai multă putere, avemTransformator de distribuție a puterii umplut cu ulei de mare capacitate. Acest băiat rău poate distribui o cantitate imensă de putere, făcându-l ideal pentru uz industrial.
Dacă sunteți interesat de oricare dintre aceste produse sau dacă aveți întrebări despre seturile de date pentru antrenarea modelelor Transformer, nu ezitați să contactați. Suntem aici pentru a vă ajuta să luați cele mai bune decizii pentru nevoile dvs. Fie că sunteți un cercetător care dorește să antreneze următorul model mare de transformator sau o afacere care are nevoie de transformatoare de înaltă calitate, noi vă oferim acoperirea. Să începem o conversație și să vedem cum putem lucra împreună!
Referințe
- Brown, Tom B., şi colab. „Modelele lingvistice sunt puține – studenții împușcați”. Progrese în sistemele de procesare a informațiilor neuronale 33 (2020): 1877 - 1901.
- Raffel, Colin și colab. „🤗 Seturi de date: O comunitate - bibliotecă pentru procesarea limbajului natural.” arXiv preprint arXiv:2010.10759 (2020).
- Callan, Jamie, et al. „TREC - Raport de urmărire cu 8 întrebări cu răspunsuri.” Conferință de recuperare a textului. Vol. 8. 2000.






