Οδηγός DataStage για αρχάριους: IBM Εκπαίδευση DataStage (ETL Tool).
Τι είναι το DataStage;
DataStage είναι ένα εργαλείο ETL που χρησιμοποιείται για την εξαγωγήtract, μετασχηματισμός και φόρτωση δεδομένων από την πηγή στον προορισμό-στόχο. Η πηγή αυτών των δεδομένων μπορεί να περιλαμβάνει διαδοχικά αρχεία, αρχεία με ευρετήριο, σχεσιακές βάσεις δεδομένων, εξωτερικές πηγές δεδομένων, αρχεία, εταιρικές εφαρμογές κ.λπ. Το DataStage χρησιμοποιείται για τη διευκόλυνση της επιχειρηματικής ανάλυσης παρέχοντας ποιοτικά δεδομένα που βοηθούν στην απόκτηση επιχειρηματικής ευφυΐας.
Το εργαλείο ETL DataStage χρησιμοποιείται σε έναν μεγάλο οργανισμό ως διεπαφή μεταξύ διαφορετικών συστημάτων. Φροντίζει για τηνtracμεταφορά, μετάφραση και φόρτωση δεδομένων από την πηγή στον προορισμό-στόχο. Κυκλοφόρησε για πρώτη φορά από την VMark στα μέσα της δεκαετίας του '90. Με IBM αποκτώντας το DataStage το 2005, μετονομάστηκε σε IBM WebSphere DataStage και αργότερα σε IBM InfoSphere.
Διάφορες εκδόσεις του Datastage που είναι διαθέσιμες στην αγορά μέχρι στιγμής ήταν η Enterprise Edition (PX), η Server Edition, η MVS Edition, η DataStage για PeopleSoft και ούτω καθεξής. Η τελευταία έκδοση είναι IBM InfoSphere DataStage
IBM Ο διακομιστής πληροφοριών περιλαμβάνει τα ακόλουθα προϊόντα,
- IBM InfoSphere DataStage
- IBM InfoSphere QualityStage
- IBM Διευθυντής Υπηρεσιών Πληροφοριών InfoSphere
- IBM InfoSphere Information Analyzer
- IBM Γρήγορος διακομιστής πληροφοριώνTrack
- IBM InfoSphere Business Glossary
Επισκόπηση DataStage
Το Datastage έχει τις ακόλουθες Δυνατότητες.
- Μπορεί να ενσωματώσει δεδομένα από το ευρύτερο φάσμα εταιρικών και εξωτερικών πηγών δεδομένων
- Εφαρμόζει κανόνες επικύρωσης δεδομένων
- Είναι χρήσιμο για την επεξεργασία και τη μετατροπή μεγάλων ποσοτήτων δεδομένων
- Χρησιμοποιεί επεκτάσιμη προσέγγιση παράλληλης επεξεργασίας
- Μπορεί να χειριστεί περίπλοκους μετασχηματισμούς και να διαχειριστεί πολλαπλές διαδικασίες ολοκλήρωσης
- Αξιοποιήστε την άμεση συνδεσιμότητα με εταιρικές εφαρμογές ως πηγές ή στόχους
- Αξιοποιήστε τα μεταδεδομένα για ανάλυση και συντήρηση
- Operaσε παρτίδες, σε πραγματικό χρόνο ή ως υπηρεσία Web
Στις επόμενες ενότητες αυτού του σεμιναρίου DataStage, περιγράφουμε εν συντομία τις ακόλουθες πτυχές του IBM InfoSphere DataStage:
- Μετασχηματισμός δεδομένων
- Θέσεις εργασίας
- Παράλληλη επεξεργασία
Το InfoSphere DataStage και το QualityStage μπορούν να έχουν πρόσβαση σε δεδομένα σε εταιρικές εφαρμογές και σε πηγές δεδομένων όπως:
- Σχεσιακές βάσεις δεδομένων
- Βάσεις δεδομένων βασικού πλαισίου
- Επιχειρηματικές και αναλυτικές εφαρμογές
- Σχεδιασμός επιχειρησιακών πόρων (ERP) ή βάσεις δεδομένων διαχείρισης σχέσεων με πελάτες (CRM).
- Διαδικτυακή αναλυτική επεξεργασία (OLAP) ή βάσεις δεδομένων διαχείρισης απόδοσης
Τύποι σταδίων επεξεργασίας
IBM Η εργασία infosphere αποτελείται από επιμέρους στάδια που συνδέονται μεταξύ τους. Περιγράφει τη ροή δεδομένων από μια πηγή δεδομένων σε έναν στόχο δεδομένων. Συνήθως, ένα στάδιο έχει τουλάχιστον μία είσοδο δεδομένων ή/και μία έξοδο δεδομένων. Ωστόσο, ορισμένα στάδια μπορούν να δεχτούν περισσότερες από μία εισόδους και εξόδους δεδομένων σε περισσότερα από ένα στάδια.
Στο Job design διάφορα στάδια που μπορείτε να χρησιμοποιήσετε είναι:
- Μεταμόρφωση σκηνής
- Στάδιο φίλτρου
- Στάδιο συγκέντρωσης
- Κατάργηση διπλότυπων σταδίου
- Συμμετοχή στη σκηνή
- Στάδιο αναζήτησης
- Στάδιο αντιγραφής
- Ταξινόμηση σταδίου
- Εμπορευματοκιβώτια
DataStage Components και Archiδομή
Το DataStage έχει τέσσερα κύρια στοιχεία, συγκεκριμένα,
- Διαχειριστής: Χρησιμοποιείται για διοικητικές εργασίες. Αυτό περιλαμβάνει τη ρύθμιση χρηστών του DataStage, τη ρύθμιση κριτηρίων εκκαθάρισης και τη δημιουργία και μετακίνηση έργων.
- Διευθυντής: Είναι η κύρια διεπαφή του Αποθετηρίου του ETL DataStage. Χρησιμοποιείται για την αποθήκευση και διαχείριση επαναχρησιμοποιήσιμων Μεταδεδομένων. Μέσω του DataStage manager, μπορεί κανείς να δει και να επεξεργαστεί τα περιεχόμενα του Αποθετηρίου.
- Σχεδιαστής: Μια διεπαφή σχεδιασμού που χρησιμοποιείται για τη δημιουργία εφαρμογών ή εργασιών DataStage. Καθορίζει την πηγή δεδομένων, τον απαιτούμενο μετασχηματισμό και τον προορισμό των δεδομένων. Οι εργασίες μεταγλωττίζονται για τη δημιουργία ενός εκτελέσιμου αρχείου που προγραμματίζονται από τον Director και εκτελούνται από τον διακομιστή
- Σκηνοθεσία: Χρησιμοποιείται για την επικύρωση, τον προγραμματισμό, την εκτέλεση και την παρακολούθηση εργασιών διακομιστή DataStage και παράλληλων εργασιών.

Η παραπάνω εικόνα εξηγεί πώς IBM Το Infosphere DataStage αλληλεπιδρά με άλλα στοιχεία του IBM Πλατφόρμα διακομιστή πληροφοριών. Το DataStage χωρίζεται σε δύο τμήματα, Κοινόχρηστα στοιχεία και χρόνος εκτέλεσης Archiδομή.
|
Shared |
Ενοποιημένη διεπαφή χρήστη |
|
|
Κοινές υπηρεσίες |
|
|
|
Κοινή Παράλληλη Επεξεργασία |
|
|
|
Διάρκεια Archiδομή |
Σενάριο OSH |
|
Προϋπόθεση για το Datastage Tool
Για το DataStage, θα χρειαστείτε την ακόλουθη ρύθμιση.
- Infosphere
- DataStage Server 9.1.2 ή νεότερη έκδοση
- Microsoft Visual Studio .NET 2010 Express Edition C++
- Oracle πελάτη (πλήρης πελάτης, όχι άμεσος πελάτης) εάν συνδέεστε σε ένα Oracle βάσεις δεδομένων
- Πελάτης DB2 εάν συνδέεστε σε μια βάση δεδομένων DB2
Τώρα σε αυτήν τη σειρά εκμάθησης DataStage για αρχάριους, θα μάθουμε πώς να κατεβάσουμε και να εγκαταστήσουμε τον διακομιστή πληροφοριών InfoSphere.
Λήψη και εγκατάσταση InfoSphere Information Server
Για πρόσβαση στο DataStage, κατεβάστε και εγκαταστήστε την πιο πρόσφατη έκδοση του IBM Διακομιστής InfoSphere. Ο διακομιστής υποστηρίζει AIX, Linux και Windows λειτουργικό σύστημα. Μπορείτε να επιλέξετε σύμφωνα με την απαίτηση.
Για να μετεγκαταστήσετε τα δεδομένα σας από μια παλαιότερη έκδοση του infosphere στη νέα έκδοση, χρησιμοποιήστε το εργαλείο ανταλλαγής στοιχείων.
Αρχεία εγκατάστασης
Για να εγκαταστήσετε και να ρυθμίσετε το Infosphere Datastage, πρέπει να έχετε τα ακόλουθα αρχεία στην εγκατάσταση σας.
Για Windows,
- EtlDeploymentPackage-windows-oracle.pkg
- EtlDeploymentPackage-windows-db2.pkg
Για Linux,
- EtlDeploymentPackage-linux-db2.pkg
- EtlDeploymentPackage-linux-oracle.pkg
Διαδικασία ροής δεδομένων αλλαγής σε μια εργασία σταδίου συναλλαγής CDC
- Η υπηρεσία «InfoSphere CDC» για τη βάση δεδομένων παρακολουθεί και καταγράφει την αλλαγή από μια βάση δεδομένων πηγής
- Σύμφωνα με τον ορισμό αναπαραγωγής, το "InfoSphere CDC" μεταφέρει τα δεδομένα αλλαγής στο "InfoSphere CDC for InfoSphere DataStage".
- Ο διακομιστής "InfoSphere CDC for InfoSphere DataStage" στέλνει δεδομένα στο "στάδιο συναλλαγής CDC" μέσω μιας περιόδου λειτουργίας TCP/IP. Ο διακομιστής "InfoSphere CDC for InfoSphere DataStage" στέλνει επίσης ένα μήνυμα COMMIT (μαζί με πληροφορίες σελιδοδεικτών) για να επισημάνει το όριο συναλλαγής στο καταγεγραμμένο αρχείο καταγραφής.
- Για κάθε μήνυμα COMMIT που αποστέλλεται από τον διακομιστή «InfoSphere CDC for InfoSphere DataStage», το «Στάδιο συναλλαγής CDC» δημιουργεί δείκτες τέλους κύματος (EOW). Αυτοί οι δείκτες αποστέλλονται σε όλους τους συνδέσμους εξόδου στο στάδιο σύνδεσης βάσης δεδομένων προορισμού.
- Όταν το "στάδιο σύνδεσης βάσης δεδομένων στόχου" λαμβάνει έναν δείκτη τέλους κύματος σε όλες τις συνδέσεις εισόδου, γράφει πληροφορίες σελιδοδεικτών σε έναν πίνακα σελιδοδεικτών και στη συνέχεια δεσμεύει τη συναλλαγή στη βάση δεδομένων προορισμού.
- Ο διακομιστής "InfoSphere CDC for InfoSphere DataStage" ζητά πληροφορίες σελιδοδεικτών από έναν πίνακα σελιδοδεικτών στη "βάση δεδομένων στόχου".
- Ο διακομιστής "InfoSphere CDC for InfoSphere DataStage" λαμβάνει τις πληροφορίες σελιδοδείκτη.
Αυτές οι πληροφορίες χρησιμοποιούνται για
- Προσδιορίστε το σημείο εκκίνησης στο αρχείο καταγραφής συναλλαγών όπου διαβάζονται οι αλλαγές όταν ξεκινά η αναπαραγωγή.
- Για να προσδιορίσετε εάν το υπάρχον αρχείο καταγραφής συναλλαγών μπορεί να καθαριστεί
Ρύθμιση SQL Replication
Πριν ξεκινήσετε με το Datastage, πρέπει να ρυθμίσετε τη βάση δεδομένων. Θα δημιουργήσετε δύο βάσεις δεδομένων DB2.
- Ένα για να χρησιμεύσει ως πηγή αναπαραγωγής και
- Ένα ως στόχος.
Θα δημιουργήσετε επίσης δύο πίνακες (Προϊόν και Απόθεμα) και θα τους συμπληρώσετε με δείγματα δεδομένων. Στη συνέχεια, μπορείτε να δοκιμάσετε την ενσωμάτωσή σας μεταξύ SQL Replication και Datastage.
Προχωρώντας προς τα εμπρός, θα ρυθμίσετε την αναπαραγωγή SQL δημιουργώντας πίνακες ελέγχου, σύνολα συνδρομών, εγγραφές και μέλη συνδρομητών. Θα μάθουμε περισσότερα για αυτό με λεπτομέρειες στην επόμενη ενότητα.
Εδώ θα πάρουμε ένα παράδειγμα στοιχείου λιανικών πωλήσεων ως βάση δεδομένων μας και θα δημιουργήσουμε δύο πίνακες Απόθεμα και Προϊόν. Αυτοί οι πίνακες θα φορτώνουν δεδομένα από πηγή σε στόχο μέσω αυτών των συνόλων. (πίνακες ελέγχου, σύνολα συνδρομών, εγγραφές και μέλη συνδρομητών.)
Βήμα 1) Δημιουργήστε μια βάση δεδομένων πηγής που αναφέρεται ως ΠΩΛΗΣΕΙΣ. Κάτω από αυτήν τη βάση δεδομένων, δημιουργήστε δύο πίνακες προϊόν Απόθεμα.
Βήμα 2) Εκτελέστε την ακόλουθη εντολή για να δημιουργήσετε τη βάση δεδομένων SALES.
db2 create database SALES
Βήμα 3) Ενεργοποιήστε την καταγραφή αρχείων για τη βάση δεδομένων SALES. Επίσης, δημιουργήστε αντίγραφα ασφαλείας της βάσης δεδομένων χρησιμοποιώντας τις ακόλουθες εντολές
db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN db2 backup db SALES
Βήμα 4) Στην ίδια γραμμή εντολών, αλλάξτε στον υποκατάλογο setupDB στον κατάλογο sqlrepl-datastage-tutorial που έχετε ορίσει.tracαπό το ληφθέν συμπιεσμένο αρχείο.
Βήμα 5) Χρησιμοποιήστε την ακόλουθη εντολή για να δημιουργήσετε πίνακα αποθέματος και να εισαγάγετε δεδομένα στον πίνακα εκτελώντας την ακόλουθη εντολή.
db2 εισαγωγή από inventory.ixf του ixf δημιουργία σε απόθεμα
Βήμα 6) Δημιουργήστε έναν πίνακα στόχο. Ονομάστε τη βάση δεδομένων προορισμού ως STAGEDB.
Εφόσον τώρα έχετε δημιουργήσει και την πηγή και τον στόχο βάσεων δεδομένων, το επόμενο βήμα σε αυτό το σεμινάριο DataStage, θα δούμε πώς να το αναπαράγουμε.
Οι παρακάτω πληροφορίες μπορούν να σας βοηθήσουν ρύθμιση της πηγής δεδομένων ODBC.
Δημιουργία αντικειμένων αναπαραγωγής SQL
Η παρακάτω εικόνα δείχνει πώς παρέχεται η ροή δεδομένων αλλαγής από τη βάση δεδομένων προέλευσης στη βάση δεδομένων προορισμού. Δημιουργείτε έναν χάρτη προέλευσης-στόχουping μεταξύ πινάκων γνωστών ως μέλη συνδρομητικού συνόλου και ομαδοποιήστε τα μέλη σε α συνδρομή.
Η μονάδα αναπαραγωγής στο InfoSphere CDC (Change Data Capture) αναφέρεται ως συνδρομή.
- Οι αλλαγές που γίνονται στην πηγή καταγράφονται στον «Πίνακα ελέγχου λήψης» που αποστέλλεται στον πίνακα CD και μετά στον πίνακα προορισμού. Ενώ το πρόγραμμα εφαρμογής θα έχει τις λεπτομέρειες σχετικά με τη σειρά από όπου πρέπει να γίνουν αλλαγές. Θα ενταχθεί επίσης στον πίνακα CD στο σετ συνδρομής.
- Μια συνδρομή περιέχει χάρτηping λεπτομέρειες που καθορίζουν τον τρόπο με τον οποίο τα δεδομένα σε έναν χώρο αποθήκευσης δεδομένων προέλευσης εφαρμόζονται σε έναν χώρο αποθήκευσης δεδομένων προορισμού. Σημειώστε ότι το CDC αναφέρεται πλέον ως Αντιγραφή δεδομένων Infosphere.
- Όταν εκτελείται μια συνδρομή, το InfoSphere CDC καταγράφει αλλαγές στη βάση δεδομένων προέλευσης. Το InfoSphere CDC παραδίδει τα δεδομένα αλλαγής στον στόχο και αποθηκεύει πληροφορίες για το σημείο συγχρονισμού σε έναν πίνακα σελιδοδεικτών στη βάση δεδομένων προορισμού.
- Το InfoSphere CDC χρησιμοποιεί τις πληροφορίες σελιδοδεικτών για να παρακολουθεί την πρόοδο της εργασίας InfoSphere DataStage.
- Σε περίπτωση αποτυχίας, οι πληροφορίες σελιδοδείκτη χρησιμοποιούνται ως σημείο επανεκκίνησης. Στο παράδειγμά μας, το ASN.IBMΟ πίνακας SNAP_FEEDETL αποθηκεύει πληροφορίες συγχρονισμού που σχετίζονται με το DataStage και χρησιμοποιούνται για track Πρόοδος DataStage.
Σε αυτή την ενότητα του IBM Εκπαιδευτικό σεμινάριο DataStage, πρέπει να κάνετε τα ακόλουθα πράγματα,
- Δημιουργήστε πίνακες CAPTURE CONTROL και APPLY CONTROL για να αποθηκεύσετε τις επιλογές αναπαραγωγής
- Καταχωρίστε τους πίνακες ΠΡΟΪΟΝ και ΑΠΟΘΕΜΑ ως πηγές αναπαραγωγής
- Δημιουργήστε ένα σύνολο συνδρομών με δύο μέλη
- Δημιουργήστε μέλη συνόλου συνδρομών και στοχεύστε πίνακες CCD
Χρησιμοποιήστε το πρόγραμμα γραμμής εντολών ASNCLP για να ρυθμίσετε την αναπαραγωγή SQL
Βήμα 1) Εντοπίστε το αρχείο δέσμης ενεργειών crtCtlTablesCaptureServer.asnclp στον κατάλογο sqlrepl-datastage-tutorial/setupSQLRep.
Βήμα 2) Στο αρχείο αντικατάσταση και " ” με το αναγνωριστικό χρήστη και τον κωδικό πρόσβασής σας για σύνδεση στη βάση δεδομένων SALES.
Βήμα 3) Αλλάξτε τους καταλόγους στον κατάλογο sqlrepl-datastage-tutorial/setupSQLRep και εκτελέστε το σενάριο. Χρησιμοποιήστε την παρακάτω εντολή. Η εντολή θα συνδεθεί με τη βάση δεδομένων SALES, θα δημιουργήσει ένα σενάριο SQL για τη δημιουργία των πινάκων ελέγχου Capture.
asnclp –f crtCtlTablesCaptureServer.asnclp
Βήμα 4) Εντοπίστε το αρχείο δέσμης ενεργειών crtCtlTablesApplyCtlServer.asnclp στον ίδιο κατάλογο. Τώρα αντικαταστήστε δύο περιπτώσεις του και " ” με το αναγνωριστικό χρήστη και τον κωδικό πρόσβασης για σύνδεση στη βάση δεδομένων STAGEDB.
Βήμα 5) Τώρα στην ίδια γραμμή εντολών χρησιμοποιήστε την ακόλουθη εντολή για να δημιουργήσετε πίνακες ελέγχου εφαρμογής.
asnclp –f crtCtlTablesApplyCtlServer.asnclp
Βήμα 6) Εντοπίστε τα αρχεία δέσμης ενεργειών crtRegistration.asnclp και αντικαταστήστε όλες τις παρουσίες του με το αναγνωριστικό χρήστη για σύνδεση στη βάση δεδομένων SALES. Επίσης, αλλάξτε " ” στον κωδικό πρόσβασης σύνδεσης.
Βήμα 7) Για να καταχωρήσετε τους πίνακες προέλευσης, χρησιμοποιήστε το ακόλουθο σενάριο. Ως μέρος της δημιουργίας της εγγραφής, το πρόγραμμα ASNCLP θα δημιουργήσει δύο πίνακες CD. ΠΡΟΪΟΝΤΑ CDP ΚΑΙ ΚΑΤΑΛΟΓΟΣ.
asnclp –f crtRegistration.asnclp
Η εντολή CREATE REGISTRATION χρησιμοποιεί τις ακόλουθες επιλογές:
- Διαφορική ανανέωση: Προτρέπει Εφαρμογή προγράμματος για ενημέρωση του πίνακα προορισμού μόνο όταν αλλάζουν σειρές στον πίνακα προέλευσης
- Εικόνα και τα δύο: Αυτή η επιλογή χρησιμοποιείται για την καταχώριση της τιμής στη στήλη πηγής πριν συμβεί η αλλαγή και μία για την τιμή μετά την αλλαγή.
Βήμα 8) Για σύνδεση στη βάση δεδομένων προορισμού (STAGEDB), χρησιμοποιήστε τα παρακάτω βήματα.
- Βρείτε το αρχείο crtTableSpaceApply.bat, ανοίξτε το σε ένα πρόγραμμα επεξεργασίας κειμένου
- Αντικαθιστώ και με το αναγνωριστικό χρήστη και τον κωδικό πρόσβασης
- Στο παράθυρο εντολών DB2, πληκτρολογήστε crtTableSpaceApply.bat και εκτελέστε το αρχείο.
- Αυτό το ομαδικό αρχείο δημιουργεί έναν νέο χώρο τραπεζιού στη βάση δεδομένων προορισμού (STAGEDB)
Βήμα 9) Εντοπίστε τα αρχεία δέσμης ενεργειών crtSubscriptionSetAndAddMembers.asnclp και κάντε τις ακόλουθες αλλαγές.
- Αντικατάσταση όλων των παρουσιών του και με το αναγνωριστικό χρήστη και τον κωδικό πρόσβασης για σύνδεση στη βάση δεδομένων SALES (πηγή).
- Αντικατάσταση όλων των παρουσιών του και με το αναγνωριστικό χρήστη για σύνδεση στη βάση δεδομένων STAGEDB (στόχος).
Μετά τις αλλαγές, εκτελέστε το σενάριο για να δημιουργήσετε συνδρομητικό σύνολο (ST00) που ομαδοποιεί τους πίνακες προέλευσης και προορισμού. Το σενάριο δημιουργεί επίσης δύο μέλη συνόλου συνδρομών και CCD (δεδομένα συνεπών αλλαγών) στη βάση δεδομένων προορισμού που θα αποθηκεύσει τα τροποποιημένα δεδομένα. Αυτά τα δεδομένα θα καταναλωθούν από το Infosphere DataStage.
Βήμα 10) Εκτελέστε το σενάριο για να δημιουργήσετε το σύνολο συνδρομών, τα μέλη συνδρομών και τους πίνακες CCD.
asnclp –f crtSubscriptionSetAndAddMembers.asnclp
Διάφορες επιλογές που χρησιμοποιούνται για τη δημιουργία συνόλου συνδρομών και δύο μελών περιλαμβάνουν
- Ολοκληρώθηκε με συμπύκνωση
- Εξωτερικός
- Εξαγωγή εισαγωγής τύπου φορτίου
- Χρονομέτρηση συνεχής
Βήμα 11) Λόγω του ελαττώματος στα εργαλεία διαχείρισης αναπαραγωγής. Πρέπει να εκτελέσετε ένα άλλο αρχείο δέσμης για να ορίσετε τη στήλη TARGET_CAPTURE_SCHEMA στο IBMSNAP_SUBS_SET πίνακα ελέγχου σε null.
- Εντοπίστε το αρχείο updateTgtCapSchema.bat. Ανοίξτε το σε ένα πρόγραμμα επεξεργασίας κειμένου. Αντικαθιστώ και με το αναγνωριστικό χρήστη για σύνδεση στη βάση δεδομένων STAGEDB.
- Στο παράθυρο εντολών DB2, πληκτρολογήστε την εντολή updateTgtCapSchema.bat και εκτελέστε το αρχείο.
Δημιουργία των αρχείων ορισμού για αντιστοίχιση πινάκων CCD στο DataStage
Πριν κάνουμε την αναπαραγωγή στο επόμενο βήμα, πρέπει να συνδέσουμε τον πίνακα CCD με το DataStage. Σε αυτήν την ενότητα, θα δούμε πώς να συνδέσετε την SQL με το DataStage.
Για να συνδέσετε τον πίνακα CCD με το DataStage, πρέπει να δημιουργήσετε αρχεία ορισμού Datastage (.dxs). Η μορφή αρχείου .dsx χρησιμοποιείται από το DataStage για εισαγωγή και εξαγωγή ορισμών εργασιών. Θα χρησιμοποιήσετε τη δέσμη ενεργειών ASNCLP για να δημιουργήσετε δύο αρχεία .dsx. Για παράδειγμα, εδώ έχουμε δημιουργήσει δύο αρχεία .dsx.
- stagedb_AQ00_SET00_sJobs.dsx: Δημιουργεί μια ακολουθία εργασιών που κατευθύνει τη ροή εργασίας των τεσσάρων παράλληλων εργασιών.
- stagedb_AQ00_SET00_pJobs.dsx : Δημιουργεί τις τέσσερις παράλληλες εργασίες
Το πρόγραμμα ASNCLP αντιστοιχίζει αυτόματα τη στήλη CCD στη μορφή στήλης Datastage. Υποστηρίζεται μόνο όταν εκτελείται το ASNCLP Windows, Διαδικασία Linux ή Unix.
Οι εργασίες σταδίου δεδομένων αντλούν σειρές από τον πίνακα CCD.
- Μία εργασία ορίζει ένα σημείο συγχρονισμού εκεί που σταμάτησε το DataStage στο extracδεδομένα από τους δύο πίνακες. Η εργασία λαμβάνει αυτές τις πληροφορίες επιλέγοντας την τιμή SYNCHPOINT για το σύνολο συνδρομής ST00 από το IBMπίνακα SNAP_SUBS_SET και εισάγοντάς τον στη στήλη MAX_SYNCHPOINT του IBMπίνακας SNAP_FEEDETL.
- Δύο δουλειές που εξερράγησανtracδεδομένα από τους πίνακες PRODUCT_CCD και INVENTORY_CCD. Οι εργασίες γνωρίζουν ποιες γραμμές να ξεκινήσουν π.χ.tracεπιλέγοντας τις τιμές MIN_SYNCHPOINT και MAX_SYNCHPOINT από το IBMΠίνακας SNAP_FEEDETL για το σύνολο συνδρομών.
Έναρξη αναπαραγωγής
Για να ξεκινήσετε την αναπαραγωγή, θα χρησιμοποιήσετε τα παρακάτω βήματα. Όταν οι πίνακες CCD συμπληρώνονται με δεδομένα, υποδηλώνει ότι η ρύθμιση αναπαραγωγής έχει επικυρωθεί. Για να προβάλετε τα αναπαραγόμενα δεδομένα στους πίνακες CCD προορισμού, χρησιμοποιήστε τη γραφική διεπαφή χρήστη του Κέντρου Ελέγχου DB2.
Βήμα 1) Βεβαιωθείτε ότι το DB2 εκτελείται, αν όχι, χρησιμοποιήστε το έναρξη db2 εντολή.
Βήμα 2) Στη συνέχεια, χρησιμοποιήστε την εντολή asncap από μια γραμμή εντολών του λειτουργικού συστήματος για να ξεκινήσετε τη λήψη του προγράμματος. Για παράδειγμα.
asncap capture_server=SALES
Η παραπάνω εντολή καθορίζει τη βάση δεδομένων SALES ως διακομιστή Capture. Κρατήστε το παράθυρο εντολών ανοιχτό όσο εκτελείται η λήψη.
Βήμα 3) Τώρα ανοίξτε μια νέα γραμμή εντολών. Στη συνέχεια ξεκινήστε το ΙΣΧΥΟΥΝ πρόγραμμα χρησιμοποιώντας την εντολή asnapply.
asnapply control_server=STAGEDB apply_qual=AQ00
- Η εντολή καθορίζει τη βάση δεδομένων STAGEDB ως διακομιστή ελέγχου Εφαρμογή (η βάση δεδομένων που περιέχει τους πίνακες ελέγχου Εφαρμογή)
- AQ00 ως προσδιοριστικό Εφαρμογή (το αναγνωριστικό για αυτό το σύνολο πινάκων ελέγχου)
Αφήστε το παράθυρο εντολών ανοιχτό με το Apply is running.
Βήμα 4) Τώρα ανοίξτε μια άλλη γραμμή εντολών και εκδώστε την εντολή db2cc για να εκκινήσετε το Κέντρο Ελέγχου DB2. Αποδεχτείτε το προεπιλεγμένο Κέντρο Ελέγχου.
Βήμα 5) Τώρα στο αριστερό δέντρο πλοήγησης, ανοίξτε Όλες οι βάσεις δεδομένων > STAGEDB και, στη συνέχεια, κάντε κλικ στην επιλογή Πίνακες. Double Κάντε κλικ στο όνομα πίνακα (Προϊόν CCD) για να ανοίξετε τον πίνακα. Θα μοιάζει κάπως έτσι.
Ομοίως, μπορείτε επίσης να ανοίξετε τον πίνακα CCD για ΑΠΟΘΕΜΑ.
Πώς να δημιουργήσετε έργα στο εργαλείο Datastage
Πρώτα απ 'όλα, θα δημιουργήσετε ένα Project στο DataStage. Για αυτό, πρέπει να είστε διαχειριστής του InfoSphere DataStage.
Μόλις ολοκληρωθεί η εγκατάσταση και η αναπαραγωγή, πρέπει να δημιουργήσετε ένα έργο. Στο DataStage, τα έργα είναι μια μέθοδος για την οργάνωση των δεδομένων σας. Περιλαμβάνει τον καθορισμό αρχείων δεδομένων, σταδίων και δημιουργία εργασιών σε ένα συγκεκριμένο έργο.
Για να δημιουργήσετε ένα έργο στο DataStage, ακολουθήστε τα παρακάτω βήματα:
Βήμα 1) Εκκινήστε το λογισμικό DataStage
Εκκινήστε το DataStage και το QualityStage Administrator. Στη συνέχεια, κάντε κλικ στο Έναρξη > Όλα τα προγράμματα > IBM Διακομιστής πληροφοριών > IBM WebSphere DataStage και QualityStage Administrator.
Βήμα 2) Συνδέστε τον διακομιστή DataStage και τον πελάτη
Για σύνδεση στον διακομιστή DataStage από το πρόγραμμα-πελάτη DataStage, εισαγάγετε στοιχεία όπως Όνομα τομέα, αναγνωριστικό χρήστη, κωδικό πρόσβασης και πληροφορίες διακομιστή.
Βήμα 3) Προσθέστε ένα νέο έργο
Στο παράθυρο WebSphere DataStage Administration. Κάντε κλικ στην καρτέλα Έργα και μετά κάντε κλικ στην Προσθήκη.
Βήμα 4) Εισαγάγετε τις λεπτομέρειες του έργου
Στο παράθυρο WebSphere DataStage Administration, εισαγάγετε λεπτομέρειες όπως
- Όνομα
- Θέση αρχείου
- Κάντε κλικ στο κουμπί "OK"
Κάθε έργο περιέχει:
- Εργασίες DataStage
- Ενσωματωμένα εξαρτήματα. Αυτά είναι προκαθορισμένα στοιχεία που χρησιμοποιούνται σε μια εργασία.
- Στοιχεία που ορίζονται από το χρήστη. Αυτά είναι προσαρμοσμένα στοιχεία που δημιουργούνται με χρήση του DataStage Manager ή του DataStage Designer.
Θα δούμε πώς να εισάγουμε εργασίες αναπαραγωγής στο Datastage Infosphere.
Πώς να εισαγάγετε εργασίες αναπαραγωγής στο Datastage και στο QualityStage Designer
Θα εισάγετε θέσεις εργασίας στο IBM Πελάτης InfoSphere DataStage και QualityStage Designer. Και τους εκτελείτε στο IBM Πελάτης InfoSphere DataStage και QualityStage Director.
Ο σχεδιαστής-πελάτης είναι σαν ένας άδειος καμβάς για κατασκευαστικές εργασίες.tracts, μετασχηματισμός, φόρτωση και έλεγχος της ποιότητας των δεδομένων. Παρέχει εργαλεία που αποτελούν τα βασικά δομικά στοιχεία μιας Εργασίας. Περιλαμβάνει
- Πρακτική άσκηση: Συνδέεται με πηγές δεδομένων για ανάγνωση ή εγγραφή αρχείων και επεξεργασία δεδομένων.
- Συνδέσμοι: Συνδέει τα στάδια κατά τα οποία ρέουν τα δεδομένα σας
Τα στάδια στον πελάτη InfoSphere DataStage και QualityStage Designer αποθηκεύονται στην παλέτα εργαλείων Designer.
Τα ακόλουθα στάδια περιλαμβάνονται στο InfoSphere QualityStage:
- Ερευνήστε το στάδιο
- Τυποποιήστε το στάδιο
- Στάδιο Συχνότητας Αγώνα
- Στάδιο αγώνα μιας πηγής
- Στάδιο αγώνα δύο πηγών
- Στάδιο επιβίωσης
- Στάδιο Αξιολόγησης Ποιότητας Τυποποίησης (SQA).
Μπορείτε να δημιουργήσετε 4 τύπους εργασιών στο DataStage infosphere.
- Παράλληλη Εργασία
- Sequence Job
- Εργασία Mainframe
- Εργασία διακομιστή
Ας δούμε βήμα προς βήμα τον τρόπο εισαγωγής αρχείων εργασιών αναπαραγωγής.
Βήμα 1) Ξεκινήστε το DataStage και το QualityStage Designer. Κάντε κλικ στο Έναρξη > Όλα τα προγράμματα > IBM Διακομιστής πληροφοριών > IBM WebSphere DataStage και QualityStage Designer
Βήμα 2) Στο παράθυρο Επισύναψη στο έργο, εισαγάγετε τα ακόλουθα στοιχεία.
- Domain
- Όνομα χρήστη
- Κωδικός Πρόσβασης
- Όνομα έργου
- OK
Βήμα 3) Τώρα από το μενού Αρχείο κάντε κλικ στην εισαγωγή -> Στοιχεία DataStage.
Θα ανοίξει ένα νέο παράθυρο εισαγωγής αποθετηρίου DataStage.
- Σε αυτό το παράθυρο περιηγηθείτε STAGEDB_AQ00_ST00_sJobs.dsx αρχείο που είχαμε δημιουργήσει νωρίτερα
- Επιλέξτε την επιλογή «Εισαγωγή όλων».
- Επισημάνετε το πλαίσιο ελέγχου "Εκτέλεση ανάλυσης αντίκτυπου".
- Κάντε κλικ στο "OK".
Μόλις εισαχθεί η εργασία, το DataStage θα δημιουργήσει εργασία STAGEDB_AQ00_ST00_sequence.
Βήμα 4) Ακολουθήστε τα ίδια βήματα για να εισαγάγετε το Αρχείο STAGEDB_AQ00_ST00_pJobs.dsx. Αυτή η εισαγωγή δημιουργεί τις τέσσερις παράλληλες θέσεις εργασίας.
Βήμα 5) Κάτω από το παράθυρο "Αποθήκη σχεδιαστή". -> Ανοίξτε το φάκελο SQLREP. Μέσα στο φάκελο, θα δείτε, Sequence Job και τέσσερις παράλληλες εργασίες.
Βήμα 6) Για να δείτε την εργασία ακολουθίας. Μεταβείτε στο δέντρο αποθετηρίου, κάντε δεξί κλικ στην εργασία STAGEDB_AQ00_ST00_sequence και κάντε κλικ στην Επεξεργασία. Θα εμφανίσει τη ροή εργασίας των τεσσάρων παράλληλων εργασιών που ελέγχει η ακολουθία εργασιών.
Κάθε εικονίδιο είναι ένα στάδιο,
- getExtracΣτάδιο εύρους: Ενημερώνει το IBMΠίνακας SNAP_FEEDETL. Θα ορίσει το σημείο εκκίνησης για δεδομένα π.χ.tracμέχρι το σημείο όπου το DataStage τελευταία φοράtracγραμμές ted και ορίστε το σημείο λήξης στην τελευταία συναλλαγή που υποβλήθηκε σε επεξεργασία για το σύνολο συνδρομής.
- getExtractRangeSuccess: Αυτό το στάδιο τροφοδοτεί τα σημεία εκκίνησης με το πρώηνtracστάδιο tFromINVENTORY_CCD και extracΣτάδιο tΑπόPRODUCT_CCD
- AllExtractsΕπιτυχία: Αυτό το στάδιο διασφαλίζει ότι και οι δύο πρώηνtractΑπόΤΟΑΠΑΓΟΡΕΥΜΑ_CCD και πρώηνtracΤο tFromPRODUCT_CCD ολοκληρώθηκε με επιτυχία. Στη συνέχεια, μεταβιβάζει σημεία συγχρονισμού για τις τελευταίες γραμμές που ανακτήθηκαν στο στάδιο setRangeProcessed.
- setRangeΕπεξεργασμένο στάδιο: Ενημερώνεται IBMΠίνακας SNAP_FEEDETL. Έτσι, το DataStage γνωρίζει από πού να ξεκινήσει τον επόμενο γύρο δεδομένων, π.χ.tracσμού
Βήμα 7) Για να δείτε τις παράλληλες δουλειές. Κάντε δεξί κλικ στο STAGEDB_ASN_INVENTORY_CCD και επιλέξτε επεξεργασία στο χώρο αποθήκευσης. Θα ανοίξει παράθυρο όπως φαίνεται παρακάτω.
Εδώ στην παραπάνω εικόνα, μπορείτε να δείτε ότι τα δεδομένα από τον πίνακα CCD αποθέματος και SyncΟι λεπτομέρειες h σημείου από τον πίνακα FEEDETL αποδίδονται στο στάδιο Lookup_6.
Δημιουργία σύνδεσης δεδομένων από το DataStage στη βάση δεδομένων STAGEDB
Τώρα το επόμενο βήμα είναι να δημιουργήσετε μια σύνδεση δεδομένων μεταξύ του InfoSphere DataStage και της βάσης δεδομένων στόχου SQL Replication. Περιέχει τους πίνακες CCD.
Στο DataStage, χρησιμοποιείτε αντικείμενα σύνδεσης δεδομένων με σχετικά στάδια σύνδεσης για να ορίσετε γρήγορα μια σύνδεση με μια πηγή δεδομένων σε μια σχεδίαση εργασίας.
Βήμα 1) Η STAGEDB περιέχει και τους δύο πίνακες ελέγχου Apply που χρησιμοποιεί το DataStage για τον συγχρονισμό των δεδομένων του, π.χ.tracκαι οι πίνακες CCD από τους οποίους εξάγονται τα δεδομέναtracted. Χρησιμοποιήστε τις ακόλουθες εντολές
db2 catalog tcpip node SQLREP remote ip_address server 50000 db2 catalog database STAGEDB as STAGEDB2 at node SQLREP
Σημείωση: Διεύθυνση IP του συστήματος όπου δημιουργήθηκε το STAGEDB
Βήμα 2) Κάντε κλικ στο Αρχείο > Νέο > Άλλο > Σύνδεση δεδομένων.
Βήμα 3) Θα έχετε ένα παράθυρο με δύο καρτέλες, Παράμετροι και Γενικά.
Βήμα 4) Στο στάδιο αυτό,
- Γενικά, καρτέλα, ονομάστε τη σύνδεση δεδομένων sqlreplConnect
- Στην καρτέλα Παράμετροι, όπως φαίνεται παρακάτω
- Κάντε κλικ στο κουμπί αναζήτησης δίπλα στο πεδίο «Σύνδεση με χρήση Τύπου σταδίου» και στο
- Ανοίξτε το παράθυρο πλοηγηθείτε στο δέντρο του αποθετηρίου στο Stage Types –> Parallel– > Database —-> DB2 Connector.
- Κάντε κλικ στο Άνοιγμα.
Βήμα 5) Στον πίνακα παραμέτρων σύνδεσης, εισαγάγετε λεπτομέρειες όπως
- ConnectionString: STAGEDB2
- Επωνυμία Φαρμακείου: Αναγνωριστικό χρήστη για σύνδεση στη βάση δεδομένων STAGEDB
- Κωδικός Πρόσβασης: Κωδικός πρόσβασης για σύνδεση στη βάση δεδομένων STAGEDB
- Παράδειγμα: Όνομα παρουσίας DB2 που περιέχει βάση δεδομένων STAGEDB
Βήμα 6) Στο επόμενο παράθυρο αποθηκεύστε τη σύνδεση δεδομένων. Κάντε κλικ στο κουμπί «αποθήκευση».
Εισαγωγή ορισμών πινάκων από το STAGEDB στο DataStage
Στο προηγούμενο βήμα, είδαμε ότι το InfoSphere DataStage και η βάση δεδομένων STAGEDB είναι συνδεδεμένα. Τώρα, εισαγάγετε τον ορισμό της στήλης και άλλα μεταδεδομένα για τους πίνακες PRODUCT_CCD και INVENTORY_CCD στο χώρο αποθήκευσης του διακομιστή πληροφοριών.
Στο παράθυρο του σχεδιαστή, ακολουθήστε τα παρακάτω βήματα.
Βήμα 1) Επιλέξτε Εισαγωγή > Ορισμοί πίνακα > Έναρξη Οδηγού εισαγωγής σύνδεσης
Βήμα 2) Από τη σελίδα επιλογής σύνδεσης του οδηγού, επιλέξτε τον σύνδεσμο DB2 και κάντε κλικ στο Επόμενο.
Βήμα 3) Κάντε κλικ στη φόρτωση στη σελίδα λεπτομερειών σύνδεσης. Αυτό θα συμπληρώσει τα πεδία του οδηγού με πληροφορίες σύνδεσης από τη σύνδεση δεδομένων που δημιουργήσατε στο προηγούμενο κεφάλαιο.
Βήμα 4) Κάντε κλικ στην επιλογή Δοκιμή σύνδεσης στην ίδια σελίδα. Αυτό θα ζητήσει από το DataStage να επιχειρήσει μια σύνδεση με τη βάση δεδομένων STAGEDB. Μπορείτε να δείτε το μήνυμα "η σύνδεση είναι επιτυχής". Κάντε κλικ στο Επόμενο.
Βήμα 5) Βεβαιωθείτε ότι στη σελίδα τοποθεσίας προέλευσης δεδομένων τα πεδία Όνομα κεντρικού υπολογιστή και όνομα βάσης δεδομένων έχουν συμπληρωθεί σωστά. Στη συνέχεια, κάντε κλικ στο επόμενο.
Βήμα 6) Στη σελίδα Σχήμα. Εισαγάγετε το σχήμα των πινάκων ελέγχου Εφαρμογή (ASN) ή ελέγξτε ότι το σχήμα ASN είναι προσυμπληρωμένο στο πεδίο σχήματος. Στη συνέχεια, κάντε κλικ στο επόμενο. Η σελίδα επιλογής θα εμφανίσει τη λίστα των πινάκων που ορίζονται στο Σχήμα ASN.
Βήμα 7) Ο πρώτος πίνακας από τον οποίο πρέπει να εισάγουμε μεταδεδομένα είναι IBMSNAP_FEEDETL, ένας πίνακας ελέγχου Apply. Περιέχει τις λεπτομέρειες σχετικά με τα σημεία συγχρονισμού που επιτρέπει στο DataStage να διατηρεί track από τις γραμμές που έχει ανακτήσει από τους πίνακες CCD. Επιλέξτε IBMSNAP_FEEDETL και κάντε κλικ στο Επόμενο.
Βήμα 8) Για να ολοκληρωθεί η εισαγωγή του IBMΟρισμός πίνακα SNAP_FEEDETL. Κάντε κλικ στην εισαγωγή και μετά στο ανοιχτό παράθυρο κάντε κλικ στο άνοιγμα.
Βήμα 9) Επαναλάβετε τα βήματα 1-8 δύο ακόμη φορές για να εισαγάγετε τους ορισμούς για τον πίνακα PRODUCT_CCD και μετά τον πίνακα INVENTORY_CCD.
ΣΗΜΕΊΩΣΗ: Κατά την εισαγωγή ορισμών για το απόθεμα και το προϊόν, βεβαιωθείτε ότι αλλάζετε τα σχήματα από ASN στο σχήμα βάσει του οποίου δημιουργήθηκαν τα PRODUCT_CCD και INVENTORY_CCD.
Τώρα το DataStage έχει όλες τις λεπτομέρειες που απαιτούνται για να συνδεθεί στη βάση δεδομένων στόχου SQL Replication.
Ρύθμιση ιδιοτήτων για τις εργασίες DataStage
Για καθεμία από τις τέσσερις παράλληλες εργασίες DataStage που έχουμε, περιέχει ένα ή περισσότερα στάδια που συνδέονται με τη βάση δεδομένων STAGEDB. Πρέπει να τροποποιήσετε τα στάδια για να προσθέσετε πληροφορίες σύνδεσης και να συνδέσετε τα αρχεία δεδομένων που συμπληρώνει το DataStage.
Τα στάδια έχουν προκαθορισμένες ιδιότητες που είναι επεξεργάσιμες. Εδώ θα αλλάξουμε ορισμένες από αυτές τις ιδιότητες για το STAGEDB_ASN_PRODUCT_CCD_extracπαράλληλη εργασία.
Βήμα 1) Περιηγηθείτε στο δέντρο του αποθετηρίου Designer. Στον φάκελο SQLREP, επιλέξτε το STAGEDB_ASN_PRODUCT_CCD_ex.tracπαράλληλη εργασία t. Για επεξεργασία, κάντε δεξί κλικ στην εργασία. Το παράθυρο σχεδίασης της παράλληλης εργασίας ανοίγει στην Παλέτα Σχεδιαστή.
Βήμα 2) Εντοπίστε το πράσινο εικονίδιο. Αυτό το εικονίδιο υποδηλώνει το στάδιο σύνδεσης DB2. Χρησιμοποιείται π.χ.tracλήψη δεδομένων από τον πίνακα CCD. Double-κάντε κλικ στο εικονίδιο. Ανοίγει ένα παράθυρο του προγράμματος επεξεργασίας σκηνής.
Βήμα 3) Στο πρόγραμμα επεξεργασίας κάντε κλικ στο Load για να συμπληρώσετε τα πεδία με πληροφορίες σύνδεσης. Για να κλείσετε το πρόγραμμα επεξεργασίας σταδίου και να αποθηκεύσετε τις αλλαγές σας, κάντε κλικ στο OK.
Βήμα 4) Τώρα επιστρέψτε στο παράθυρο σχεδίασης για το STAGEDB_ASN_PRODUCT_CCD_extracπαράλληλη εργασία t. Εντοπίστε το εικονίδιο για το getSyncΣτάδιο σύνδεσης hPoints DB2. Στη συνέχεια, κάντε διπλό κλικ στο εικονίδιο.
Βήμα 5) Τώρα κάντε κλικ στο κουμπί φόρτωσης για να συμπληρώσετε τα πεδία με πληροφορίες σύνδεσης.
ΣΗΜΕΊΩΣΗ: Εάν χρησιμοποιείτε μια βάση δεδομένων διαφορετική από το STAGEDB ως διακομιστή ελέγχου Εφαρμογή. Στη συνέχεια, επιλέξτε τη φόρτωση των πληροφοριών σύνδεσης για τη λήψηSyncΤο στάδιο hPoints, το οποίο αλληλεπιδρά με τους πίνακες ελέγχου και όχι με τον πίνακα CCD.
Βήμα 6) Στο στάδιο αυτό,
- Δημιουργήστε ένα κενό αρχείο κειμένου στο σύστημα όπου εκτελείται το InfoSphere DataStage.
- Ονομάστε αυτό το αρχείο ως productdataset.ds και σημειώστε πού το αποθηκεύσατε.
- Το DataStage θα γράψει αλλαγές σε αυτό το αρχείο αφού ανακτήσει αλλαγές από τον πίνακα CCD.
- Τα σύνολα δεδομένων ή τα αρχεία που χρησιμοποιούνται για τη μετακίνηση δεδομένων μεταξύ συνδεδεμένων εργασιών είναι γνωστά ως μόνιμα σύνολα δεδομένων. Αντιπροσωπεύεται από ένα στάδιο DataSet.
Βήμα 7) Τώρα ανοίξτε το πρόγραμμα επεξεργασίας σκηνής στο παράθυρο σχεδίασης και κάντε διπλό κλικ στο εικονίδιο insert_into_a_dataset. Θα ανοίξει άλλο παράθυρο.
Βήμα 8) Σε αυτό το παράθυρο,
- Κάτω από την καρτέλα ιδιότητες βεβαιωθείτε ότι το Target Ο φάκελος είναι ανοιχτός και η ιδιότητα File = DATASETNAME επισημαίνεται.
- Στα δεξιά, θα έχετε ένα πεδίο αρχείου
- Εισαγάγετε την πλήρη διαδρομή προς το αρχείο productdataset.ds
- Κάντε κλικ στο «ΟΚ».
Τώρα έχετε ενημερώσει όλες τις απαραίτητες ιδιότητες για τον πίνακα CCD του προϊόντος. Κλείστε το παράθυρο σχεδίασης και αποθηκεύστε όλες τις αλλαγές.
Βήμα 9) Τώρα εντοπίστε και ανοίξτε το αρχείο STAGEDB_ASN_INVENTORY_CCD_extracπαράλληλη εργασία από το παράθυρο αποθετηρίου του Σχεδιαστή και επαναλάβετε τα βήματα 3-8.
ΣΗΜΕΊΩΣΗ:
- Πρέπει να φορτώσετε τις πληροφορίες σύνδεσης για τη βάση δεδομένων του διακομιστή ελέγχου στο πρόγραμμα επεξεργασίας σταδίου για λήψηSyncΣτάδιο hPoints. Εάν ο διακομιστής ελέγχου σας δεν είναι STAGEDB.
- Για το STAGEDB_ST00_AQ00_getExtractRange και STAGEDB_ST00_AQ00_markRangeΕπεξεργασμένες παράλληλες εργασίες, ανοίξτε όλα τα στάδια σύνδεσης DB2. Στη συνέχεια, χρησιμοποιήστε τη συνάρτηση φόρτωσης για να προσθέσετε πληροφορίες σύνδεσης για τη βάση δεδομένων STAGEDB.
Μεταγλώττιση και εκτέλεση των εργασιών DataStage
Όταν η εργασία DataStage είναι έτοιμη για μεταγλώττιση, ο Designer επικυρώνει τη σχεδίαση της εργασίας εξετάζοντας εισόδους, μετασχηματισμούς, εκφράσεις και άλλες λεπτομέρειες.
Όταν η συλλογή εργασιών ολοκληρωθεί με επιτυχία, είναι έτοιμη για εκτέλεση. Θα μεταγλωττίσουμε και τις πέντε εργασίες, αλλά θα εκτελέσουμε μόνο την "ακολουθία εργασιών". Αυτό συμβαίνει επειδή αυτή η εργασία ελέγχει και τις τέσσερις παράλληλες εργασίες.
Βήμα 1) Κάτω από το φάκελο SQLREP. Επιλέξτε καθεμία από τις πέντε εργασίες με (Cntrl+Shift). Στη συνέχεια, κάντε δεξί κλικ και επιλέξτε την επιλογή μεταγλώττιση πολλαπλών εργασιών.
Βήμα 2) Θα δείτε ότι έχουν επιλεγεί πέντε εργασίες στον Οδηγό Σύνταξης DataStage. Κάντε κλικ στο Επόμενο.
Βήμα 3) Η μεταγλώττιση ξεκινά και εμφανίζει ένα μήνυμα "Μεταγλωττίστηκε με επιτυχία" μόλις ολοκληρωθεί.
Βήμα 4) Τώρα ξεκινήστε το DataStage και το QualityStage Director. Επιλέξτε Έναρξη > Όλα τα προγράμματα > IBM Διακομιστής πληροφοριών > IBM WebSphere DataStage και QualityStage Director.
Βήμα 5) Στο παράθυρο πλοήγησης του έργου στα αριστερά. Κάντε κλικ στο φάκελο SQLREP. Αυτό φέρνει και τις πέντε εργασίες στον πίνακα κατάστασης διευθυντή.
Βήμα 6) Επιλέξτε την εργασία STAGEDB_AQ00_S00_sequence. Από τη γραμμή μενού, κάντε κλικ στην Εργασία > Εκτέλεση τώρα.
Μόλις ολοκληρωθεί η μεταγλώττιση, θα δείτε την ολοκληρωμένη κατάσταση.
Τώρα ελέγξτε αν οι αλλαγμένες γραμμές που είναι αποθηκευμένες στους πίνακες PRODUCT_CCD και INVENTORY_CCD ήταν εκτός λειτουργίας.tracted από το DataStage και εισήχθη στα δύο αρχεία συνόλου δεδομένων.
Βήμα 7) Επιστρέψτε στον Σχεδιαστή και ανοίξτε το STAGEDB_ASN_PRODUCT_CCD_extracεργασία t. Για να ανοίξετε τον επεξεργαστή σκηνής Double-κάντε κλικ στο εικονίδιο insert_into_a_dataset. Στη συνέχεια, κάντε κλικ στην προβολή δεδομένων.
Βήμα 8) Αποδεχτείτε τις προεπιλογές στις σειρές που θα εμφανιστούν στο παράθυρο. Στη συνέχεια, κάντε κλικ στο OK. Θα ανοίξει ένα παράθυρο προγράμματος περιήγησης δεδομένων για να εμφανιστούν τα περιεχόμενα του αρχείου συνόλου δεδομένων.
Δοκιμή ενοποίησης μεταξύ SQL Replication και DataStage
Στο προηγούμενο βήμα, μεταγλωττίσαμε και εκτελέσαμε την εργασία. Σε αυτήν την ενότητα, θα ελέγξουμε την ενοποίηση της αναπαραγωγής SQL και του DataStage. Για αυτό, θα κάνουμε αλλαγές στον πίνακα προέλευσης και θα δούμε αν η ίδια αλλαγή ενημερωθεί στο DataStage.
Βήμα 1) Μεταβείτε στο φάκελο sqlrepl-datastage-scripts για το λειτουργικό σας σύστημα.
Βήμα 2) Ξεκινήστε την αναπαραγωγή SQL ακολουθώντας τα παρακάτω βήματα:
- Εκτελέστε το startSQLCapture.bat (Windows) για να ξεκινήσει το πρόγραμμα Capture στη βάση δεδομένων SALES.
- Εκτελέστε το startSQLApply.bat (Windows) για να ξεκινήσει το πρόγραμμα Εφαρμογή στη βάση δεδομένων STAGEDB.
Βήμα 3) Τώρα ανοίξτε το αρχείο updateSourceTables.sql. Για σύνδεση στη βάση δεδομένων SALES αντικαταστήστε και με το αναγνωριστικό χρήστη και τον κωδικό πρόσβασης.
Βήμα 4) Ανοίξτε ένα παράθυρο εντολών DB2. Αλλάξτε τον κατάλογο σε sqlrepl-datastage-tutorial\scripts και εκτελέστε το ζήτημα με τη δεδομένη εντολή:
db2 -tvf updateSourceTables.sql
Το σενάριο SQL θα κάνει διάφορες λειτουργίες όπως Ενημέρωση, Εισαγωγή και διαγραφή και στους δύο πίνακες (ΠΡΟΪΟΝ, ΑΠΟΘΕΜΑ) στη βάση δεδομένων πωλήσεων.
Βήμα 5) Στο σύστημα όπου εκτελείται το DataStage. Ανοίξτε το DataStage Director και εκτελέστε την εργασία STAGEDB_AQ00_S00_sequence. Κάντε κλικ στο Job > Run Now.
Όταν εκτελέσετε την εργασία, θα πραγματοποιηθούν οι ακόλουθες δραστηριότητες.
- Το πρόγραμμα Capture διαβάζει τις αλλαγές έξι σειρών στο αρχείο καταγραφής της βάσης δεδομένων SALES και τις εισάγει στους πίνακες CD.
- Το πρόγραμμα Apply ανακτά τις σειρές αλλαγών από τους πίνακες CD στο SALES και τις εισάγει στους πίνακες CCD στο STAGEDB.
- Τα δύο DataStage extracΟι εργασίες t λαμβάνουν τις αλλαγές από τους πίνακες CCD και τις γράφουν στα αρχεία productdataset.ds και inventory dataset.ds.
Μπορείτε να ελέγξετε ότι τα παραπάνω βήματα πραγματοποιήθηκαν κοιτάζοντας τα σύνολα δεδομένων.
Βήμα 6) Ακολουθήστε τα παρακάτω βήματα,
- Ξεκινήστε το Designer. Ανοίξτε το STAGEDB_ASN_PRODUCT_CCD_extracδουλειά.
- Τότε Double-κάντε κλικ στο εικονίδιο insert_into_a_dataset. Στο μοντέρ της σκηνής. Κάντε κλικ στην Προβολή δεδομένων.
- Αποδεχτείτε τις προεπιλογές στις σειρές που θα εμφανιστούν και κάντε κλικ στο OK.
Το σύνολο δεδομένων περιέχει τρεις νέες σειρές. Ο ευκολότερος τρόπος για να ελέγξετε ότι έχουν πραγματοποιηθεί οι αλλαγές είναι να κάνετε κύλιση προς τα κάτω δεξιά στο πρόγραμμα περιήγησης δεδομένων. Τώρα κοιτάξτε τις τρεις τελευταίες σειρές (δείτε την εικόνα παρακάτω)
Τα γράμματα I, U και D καθορίζουν τη λειτουργία INSERT, UPDATE και DELETE που οδήγησε σε κάθε νέα σειρά.
Μπορείτε να κάνετε τον ίδιο έλεγχο για τον πίνακα αποθέματος.
Περίληψη
- Το Datastage είναι ένα Εργαλείο ETL ποιο πρώηνtracts δεδομένα, μετασχηματισμός και φόρτωση δεδομένων από την πηγή στον προορισμό.
- Διευκολύνει επιχειρηματική ανάλυση παρέχοντας ποιοτικά δεδομένα που βοηθούν στην απόκτηση επιχειρηματικής ευφυΐας.
- Το DataStage χωρίζεται σε δύο τμήματα, Κοινόχρηστα στοιχεία και χρόνος εκτέλεσης Archiδομή.
- Το DataStage έχει τέσσερα κύρια στοιχεία,
- Διαχειριστής
- Manager
- σχεδιαστής
- Διευθυντής
- Ακολουθούν οι βασικές πτυχές του IBM InfoSphere DataStage
- Μετασχηματισμός δεδομένων
- Θέσεις εργασίας
- Παράλληλη επεξεργασία
- Στον σχεδιασμό εργασίας εμπλέκονται διάφορα στάδια
- Μεταμόρφωση σκηνής
- Στάδιο φίλτρου
- Στάδιο συγκέντρωσης
- Κατάργηση διπλότυπων σταδίου
- Συμμετοχή στη σκηνή
- Στάδιο αναζήτησης































