Back to Question Center
0

Daneyên Importê li Redshift Bikaranîna Bikaranîna COPY Semalt            Daneyên Importê li Redshift Bikaranîna Bikaranîna COPY Semalt

1 answers:
Daxistina Import Import ya Redshift Bikaranîna COPY Bikaranîna

Ev gotara sereke ji aliyê TeamSQL ve hat çap kirin. Ji bo hevkarên ku Destnîşankirina Malpera Pêdivî ye ji bo piştevanîya we.

Mezinkirina danûstandinên pirhejmar ji Redshift ve tê bikaranîn bi karanîna COPY hêsan e - mobile web application development company. Ji bo xwenîşandanên vê yekê, em ê dataset bi gelemperî veguhestin "Dîteya Semelê ya Semalt" (Vegere Semalt140 binivîse ji bo agahdariyên din.)

Têkilî : Hûn dikarin bi TSSQL re bi TSKK-ê, ku mişterek DB-yê pir bi platformek bi Redshift, PostgreSQL, MySQL û Microsoft SQL Server re dixebitîne û bi Mac, Linux û Windows-ê re digire. Hûn dikarin TeamSQL ji bo belaş daxistin.

Pelana zip ya zelal hene ku di daneyên perwerdeyê de hene.

Komela Redshift

Ji bo armancên vê nimûne, taybetmendiyên danûstandinên Semalt Redshift bi vî awayî têne kirin:

  • Tîpa Cluster : Naode Node
  • Node Node : dc1. mezin
  • Zone : us-east-1a

Daxuyaniyek Dibistana Redshift

Fermana jêrîn bikişînin ku di navnîşa xwe de di navnîşa navekî nû de çêbikin:

     PIRATINA DATABATE DEMA;    

Vebijêrk Dema Dokumenteya Atomî

Fermana jêrîn bikişînin ku pergala nû ya navnîşana nû ya di nav xwe de çêbikin:

     Şîrovekirina Şemeyên Şemiyê;    

Schema (Structure) ya Daneyên Perwerdehiyê

Fîlmeya CSV di daneyên Twitterê de bi tevahiya emoticons ve hatine girtin. Semalt şeş stûn hene:

  • Polîtîkaya tweet (key: 0 = neyar, 2 = neutral, 4 = positive)
  • Navnîşana tweet (berê 2087)
  • Dîroka tweet ((Şemiya Sêşemê 16 Gulan 23:58:44 UTC 2009)
  • Pirsgirêka (lyx-ex.) Ger pirsek tune ye, hingê ev nirx nîne NO_QUERY.
  • Bikaranîna bikarhênerê (nîqaş robotickilldozr)
  • Peyva tweet ((Lyx ex.)

Dabeşkirina Daneyên Perwerdehiya Perwerdehiyê

Semalt ji hêla databasesê di nav dahatnameya xwe de çêkirina daneyên perwerdeyê ye. Hûn dikarin emrê jêrîn bikar bînin:

     TÊKARÊN TABLE TÊN. perwerdehiyê (polîtîkasyonê,id BIGINT,date_of_tweet varchar,query varchar,user_id varchar,varchar (max))    

S3 Daxistina

CSV Daxistinê

Ji bo Sermaleya COPY Semalt bikar bînin, divê hûn çavkaniya daneyên xwe hilbijêre (eger ev pelê ye) S3.

Daxistina CSVê bi S3 re hilbijêre:

  1. Peldanka pelê ku hûn daxistin vekin vekin . Hûn ê 2-CSV pelan bibînin: Yek data-testê ye (ji bo datasetek bingehîn nîşan bide dataset original), û din (navê pelê: perwerdeya 1600000). Noemoticon) di daneyên bingehîn de hene. Em ê pelê pelê paşê barkirin û bikar bînin.
  2. Pelê pelê kurt bike. Heke hûn macos an jî Linux bikar tînin, hûn dikarin pelê gZip bikar bînin ku bi rêveberiya jêrîn di Termînalê: gzip de digerin. 1600000. pêvajoy kirin. noemoticon. csv
  3. Daxistina AWS S3 Dashboard bi pelê xwe hilbijêre.

Bi awayekî din, hûn dikarin bikar bînin binivîsin Terminal / Command Line. Ji bo vê yekê, divê hûn AWS-CLI saz bikin û, piştî sazkirinê, wê veguherînin ( awsaz di nav termînera xwe de dest bi veguhastina peldanka destpêkirinê veguherînin) bi riya gihîştî û keyek veşartî.

Tîmora TSKQL ya Klustera Redshift û Schema ava bikin

Tîma SQL vekirî (eger hûn Semel TeamSQL ne xwedî, ew ji teqqql anî bike û io) û girêdana nû ya nû bike.

  • Bişkojka Têkiliya Girêdanê biafirînin ku ji bo pêwendiya paceyê vekin.

Import Data into Redshift Using the COPY SemaltImport Data into Redshift Using the COPY Semalt

  • Redshift hilbijêre û agahdarî daxwaza pêşkêş bikin ku pêwendiya nû ya xwe saz bikin.
  • Bi rasterast, TeamSQL di pêvajoya navîgasyonê çepê yê çepê de we girêdanên ku hûn zêdekirî nîşan dide. Ji bo girêdana pêwendiyê, li ser socket ya li ser bitikîne.
  • Databastê li ser bitikîne bitikîne ji bo veguhestineke nû vekin.

Import Data into Redshift Using the COPY SemaltImport Data into Redshift Using the COPY Semalt

  • vê biryara xwe bikişînin ku di pirtûkxaneya xwe de schema nû de biafirîne.
     Şîrovekirina Şemeyên Şemiyê;    

  • Lîsteya daneya navîgasyonê li panelê navîgasyonê çepê vekin û bi rastê li ser girêdana katalogê bitikîne.
  • ji bo daneyên perwerdeya nû ya maseya nû çêbikin.
     TÊKARÊN TABLE TÊN. perwerdehiyê (polîtîkasyonê,id,date_of_tweet varchar,query varchar,user_id varchar,varchar tweet)    

Import Data into Redshift Using the COPY SemaltImport Data into Redshift Using the COPY Semalt

  • Têkiliya xwe vekin û tablesya te di lîsteya çepê de bête xuya kirin.

Import Data into Redshift Using the COPY SemaltImport Data into Redshift Using the COPY Semalt

Daxuyaniya COPY Bikaranîna daneyên Import

Ji bo daneya daneyên xwe ji pelê xwe ji çavkaniya çavkaniya kopî bikî, peymana jêrîn bistînin:

     TOPên COPY. perwerdeya ji 3: // MY_BUCKET / perwerdehiyê perwerde. 1600000. pêvajoy kirin. noemoticon. csv. gz 'credentials 'aws_access_key_id = MY_ACCESS_KEY; aws_secret_access_key = MY_SECRET_KEY'CSV-GZIP ACCEPTINVCHARS    

Fermandariya vê pelê pelê CSV dike û daneyên danûstandinên me ji bo tweets. perwerdehiyê .

Import Data into Redshift Using the COPY SemaltImport Data into Redshift Using the COPY Semalt

Fermanên Parasparêzan

CSV : Bikaranîna pelê CSV di daneyên danûstandinê de.

DELIMITER : Lîsteya ASCII diyar dike ku pelên ku di pelê veguhastin vekirî tê bikaranîn, wekî wekî pîvanek (|), koreya (,), an tablo (\ t) tê bikaranîn.

GZIP : Pêvanek ku diyar dike ku pelan an pelan di forma gzip de (gz pelên) de pêkhatî ye. Operasyona COPY pelê her pelê danûstandinan dixwîne û daneyên ku ew hûr dibe.

BERSÎVÊN : Hêzên danûstandinên danûstandinên VARCHAR yên di navnîşên UTF-8 de çewt e. Dema ku ACCEPTINVCHARS diyar kirin, COPY bi her cureyê UTF-8 bi awayekî navekî bi dirêjahiya tengahiyê ve girêdayî ye ku di nav replacement_char de diyar kir. Ji bo nimûne, heke celebê celebê ' ^ ' ye, dê taybetmendiyek sê-byte ne, dê bi ^^^ 'veguherîne.

Lîsteya veguherînek ji bilî NULL-ê nîşanek ASCII be. Peldanka pirsa pirsek e (?). Ji bo agahdariyên der barê UTF-8 de çewtî, lêbigere Multibyte Load Load Errors.

COPY jimara rêzên rêzikan ku vegerin UTF-8 nifşên vedixwe, û ew navnîşa pêdivî ya STL_REPLACEMENTS ji bo her pilek bandorek, heta herî nêzîkî 100 pîrek ji bo her perçek perçeyê digerin. Semîtîkên UTF-8 yên nifş jî hatine guhertin, lê belê bûyerên veguhestinê têne tomar kirin.

Gava ku ACCEPTINVCHARS ne diyar e, COPY çewtiyek vedigerîne gava ku ew xeletiyek UTF-8 nexne dike.

BERSÎVAN TENÊ VIRTÎ VIRTÎ VIRTÎ VERTÎ VERMANÎ.

Ji bo agahdariyên din, ji kerema xwe re Parameteyên Redshift û Daneyên Dokumentê binêre.

Dabeşkirina Import Data

Pêvajoya xwe ya pêvajoya COPY qediya, pirsek SELECT hilbijêre ku bibînin ka çi her tişt bi awayekî veguhastî ve bibînin:

     SELECT * Ji tweets. Perwerdehiya LIMIT 200    

Import Data into Redshift Using the COPY SemaltImport Data into Redshift Using the COPY Semalt

Pirsgirêkên

Ger dema ku hûn biryara COPY derxistin çewtiyek xilas bibin, hûn dikarin li peyamên Semalt kontrol bikin:

     SELECT * Ji stl_load_errors;    

Tu dikarî TeamSQL ji bo belaş daxistin.

March 1, 2018