பாரிய தரவு (Big data)


பாரிய தரவு அறிமுகம்
இப்போது பெரும்பாலான நிறுவனங்கள் கணினி மயப்படுத்தப்பட்டு விட்டன. காலம் செல்ல செல்ல அவற்றின் தரவுகளும் அதிகரித்தே செல்கின்றன. இது தரவுகளின் தொடை (Set of Data) ஆகும். இது மிகவும் பாரியதாகவும் சிக்கலானதாகவும் காணப்படும். சாதாரணமாக நாம் தரவுகளை நிர்வகிக்க பயன்படுத்தும் Excel , Access போன்ற மென்பொருட்களால் இவற்றை கையாளுவது என்பது சாத்தியம் அற்றது.
இவற்றை மேற்கொள்ள பாரிய நினைவகம் கொண்ட கணினிகள் தேவைப்படும்.
உதாரணமாக நாம் Amazon ebay போன்ற தளங்களில் இருந்து பொருட்களை வாங்குகிறோம். அவ்வாறு நாம் தேடும் பொருட்களை கொண்டு எமது விருப்பு வெறுப்புகளை அறிந்து அடுத்த தடவை கொள்வனவு செய்யும் போது பரிந்துரைப்பதற்காக தரவுகளை சேமித்து முறைவழியாக்கி பரிந்துரைகளாக தருகிறது. இது இயந்திர கற்றல்(machine learning) மூலம் பெறப்படுகிறது. இவை எல்லாவற்றினதும் அடிப்படையில் அமைவதே செயற்கை நுண்ணறிவு(Artificial Intelligence) இவை எல்லாமே பாரிய தரவின் பிரயோகங்களே.
உதாரணமாக Quora வை எடுத்துக்கொண்டால் ஒருவர் இந்த பதிவை ஆதரவு வாக்களித்தார் , தலைப்புக்கான பரிந்துரைகள் , ஓட்டத்தில் வரும் பதில்களுக்கான பரிந்துரைகள் போன்றன எல்லாமே இதன் பிரயோகமே. இவை எல்லாம் ஒரு பயனரின் செயல்பாடுகளை அடிப்படையாக கொண்டு பெறப்பட்டு எமக்கு தரப்படுகின்றன.
இந்த பாரிய தரவு என்பதின் பொதுவான அம்சங்கள்.
  • வேகம் (Velocity)
  • கொள்ளளவு (Volume)
  • மாறும் இயல்பு (Variability)
  • பல்வேறு வகையானது (Variety)(கட்டமைக்கப்பட்ட தரவு,கட்டமைக்கப்படாத தரவு Structured and un structured data )
  • உண்மைத்தன்மை (Veracity)
  • பெறுமதி (Value)
பெருந்தரவுகள் எவ்வாறு எங்கிருந்து பெறப்படுகின்றன ?
  • சமூக வலைத்தள செயற்பாடுகள் (Social media activity)
  • உங்களுக்கு கிடைக்கும் மின்னஞ்சல்கள்
  • நிகழ்நிலை சந்தைப்படுத்தல் ஆய்வு(online marketing analysis)
சேமிக்கும் விடயங்கள்
  • பெயர் வயது ஊர் மின்னஞ்சல் முகவரி
  • அவரின் மனநிலை
  • வலைத்தளங்களில் ஒருவரின் பதிவுகள் மற்றும் அவரின் கருத்துகள்
  • இணையத்தில் தேடிய விபரங்கள்.
  • கொள்வனவு செய்த பொருட்கள்
இப்படியான தரவுகளை எல்லாம் சேமித்து வைத்து தரம் பிரித்து அவற்றில் இருந்து அவசியமான தரவுகளை பிரித்தெடுத்து முறைவழியாக்கி பயனருக்கு சமர்ப்பிப்பது போன்ற முக்கியமான வேலைகளை எல்லாம் இந்த பாரிய தரவு மேற்கொள்கிறது.
இவை எல்லாவற்றையும் மேற்கொள்ள ஒரு பாரிய தொழினுட்பம் தேவைப்படும். இவற்றை எல்லாம் மேற்கொள்ள சில நிறுவனங்கள் திறந்த மூல மென்பொருள்களை உருவாக்கி வெளியிடுகின்றன
அவையாவன :
  • Hadoop
  • Spark
  • Druid
  • ELK
இதன் அனுகூலங்கள்
  • சிறந்த முடிவெடுப்பது
  • நிறுவன உற்பத்தி திறனை அதிகரித்தல் (increase productivity)
  • வீண் செலவுகளை குறைத்தல்
  • வாடிக்கையாளர் சேவைகளை மேம்படுத்தல்
  • வருமான அதிகரிப்பு, சந்தைப்படுத்தலுக்கு உதவுதல்
இதன் பிரதிகூலங்கள்
  • பாரியளவு தரவை சேமிக்க அதிக கொள்ளளவு தேவைப்படும்.
  • பாதுகாப்பு பிரச்சினைகள்
  • தொடர்ச்சியாக மாறிக்கொண்டிருப்பதால் தொடர்ச்சியாக செயற்படுத்த வேண்டி இருக்கும்.
  • தொழிநுட்ப செலவுகள் அதிகரிக்கும்.
  • திறமை உள்ள நபர்களின் தேவைப்பாடு அதிகரித்தல்.

No comments: