Data Mining
Data mining adalah istilah yang digunakan untuk mendeskripsikan penemuan atau “mining” pengetahuan dari sejumlah besar data. Yang termasuk data mining antara lain knowledge extraction, pattern analysis, data archaeology, information harvesting, pattern searching, dan data dredging. Berikut merupakan karakteristik umum dan objektivitas data mining.
- Data seringnya terpendam dalam dalam database yang sangat besar yang kadang-kadang datanya sudah bertahun-tahun.
- Lingkungan data mining biasanya berupa arsitektur client-server atau arsitektur system informasi berbasis web.
- Tool baru yang canggih, termasuk tool visualisasi tambahan, membantu mennghilangkan lapisan informasi yang terpendam dalam file-file yang berhubungan atau record-record arsip public.
- Pemilik biasanya seorang end user, didukung dengan data drill dan tool penguasaan query yang lain untuk menanyakan pertanyaan ad hoc, dan mendapatkan jawaban secepatnya, dengan sedikit atau tidak ada kemampuan pemrograman.
- Tool data mining dengan kesediaannya dikombinasikan dengan spreadsheet dan tool software pengembangan yang lainnya.
- Karena besarnya jumlah data dan usaha pencarian yang besar-besaran, kadang-kadang diperlukan penggunaan proses parallel untuk data mining.
Bagaimana Data mining Bekerja
Data mining secara umum mencari untuk mengidentifikasikan empat tipe pattern utama yaitu:
- Associations, menemukan secara umum mengacu pada pengelompokan hal-hal.
- Predictions, memberitahukan kejadian-kejadian alami di masa yang akan datang di even yang tepat berdasar pada apa yang terjadi di masa lampau.
- Cluster, mengidentifikasikan pengelompokan hal-hal natural berdasar pada karakteristik yang diketahui.
- Sequential relationship, menemukan event dengan waktu yang berurutan.
Proses Data Mining
Proses dta mining terdiri dari beberapa step antara lain
- Pemahaman bisnis.
- Pemahaman data.
- Persiapaan data.
- Pembangunan model.
- Testing dan evaluasi.
- Deployment.
MetodeData Mining
- Klasifikasi.
- Decision tree.
- Cluster analysis untuk data mining.
- Association rule mining.
Data Warehouse
Data warehouse merupakan sekelompok data yang diproduksi untuk mendukung pembuatan keputusan; juga merupakan tempat penyimpanan saat ini dan data historis dari potensi ketertarikan manager seluruh perusahaan. Karakteristik data warehouse sebagai berikut
- Subject oriented.
- Integrated.
- Time variant (time series).
- Nonvolatile.
Yang termasuk karakteristik tambahan data warehouse antara lain
- Web based.
- Relational/multidimensional.
- Client/server.
- Real time.
- Include metadata.
Data Mart, merupakan subset dari data warehouse, biasanya terdiri dari subjek area tunggal. Dependent data mart merupakan subset yang dibuat langsung dari data warehouse. Sedangkan independent data mart merupakan warehouse kecil yang didesain untuk unit strategi bisnis atau departemen, tapi sumbernya bukan dari EDW. Operational data store, menyediakan form customer information file (CIF) yang saat ini wajar diterima. Enterprise Data Warehouse (EDW) merupakan skala besar data warehouse yang digunakan melalui perusahaan untuk mendukung keputusan. Metadata merupakan data tentang data. Metadata mendeskripsikan struktur dari dan beberapa pengertian tentang data, dengan demikian berkontribusi pada penggunaan yang efektif da tidak efektif.
Proses Data Warehouse.
Berikut merupakan komponen utama dalam proses data warehouse.
- Data source.
- Data extraction.
- Data loading.
- Comprehensive database.
- Metadata.
- Middleware tools.
Arsitektur data warehouse.
Arsitektur data warehouse terbagi dalam tiga bagian yaitu
- Data warehouse itu sendiri, yang terdiri dari data-data dan software yang berasosiasi.
- Data acquisition (back-end) software, yang mengekstrak data dari system legal dan sumber-sumber eksternal, mengkonsolidasi dan merangkumnya, dan memprosesnya ke dalam data warehouse.
- Client (front-end) software, yang mengijinkan user mengakses dan menganalisis data dari warehouse.
Data integration membandingkan tiga proses utama, ketika diimplementasikan dengan benar, mengijinkan data untuk diakses dan dan membuat mudah diakses pada array ETL dan tool analisisdan lingkungana data warehouse. Extraction, Transformation, and Load (ETL) merupakan jantung dari sisi teknis proses data warehouse. Proses ETL terdiri dari pengekstrakan (membaca data dari satu atau lebih database.), transformasi ( mengkonvert data yang telah diekstrak dari bentuk yang sebelumnya menjadi bentuk yang dibutuhkan sehingga dapat ditempatkan ke dalam data warehouse atau database yang lain.), dan load (meletakkan data ke dalam data warehouse).
Beberapa manfaat data warehouse adalah data warehouse menyediakan model data umum untuk semua data yang menarik terlepas dari sumber data itu sehingga lebih mudah untuk melaporkan dan menganalisa informasi, informasi dalam data warehouse berada di bawah kontrol pengguna data warehouse sehingga jika sistem sumber data dibersihkan informasi dalam warehouse dapat disimpan dengan aman untuk waktu yang lama, data warehouse menyediakan pengambilan data tanpa memperlambat sistem operasional, dan data warehouse memfasilitasi aplikasi decision support system.
ingin lebih jelas ini materinya: link materi
Tidak ada komentar:
Posting Komentar