பாரிய தரவு (Big data)


பாரிய தரவு அறிமுகம்
இப்போது பெரும்பாலான நிறுவனங்கள் கணினி மயப்படுத்தப்பட்டு விட்டன. காலம் செல்ல செல்ல அவற்றின் தரவுகளும் அதிகரித்தே செல்கின்றன. இது தரவுகளின் தொடை (Set of Data) ஆகும். இது மிகவும் பாரியதாகவும் சிக்கலானதாகவும் காணப்படும். சாதாரணமாக நாம் தரவுகளை நிர்வகிக்க பயன்படுத்தும் Excel , Access போன்ற மென்பொருட்களால் இவற்றை கையாளுவது என்பது சாத்தியம் அற்றது.
இவற்றை மேற்கொள்ள பாரிய நினைவகம் கொண்ட கணினிகள் தேவைப்படும்.
உதாரணமாக நாம் Amazon ebay போன்ற தளங்களில் இருந்து பொருட்களை வாங்குகிறோம். அவ்வாறு நாம் தேடும் பொருட்களை கொண்டு எமது விருப்பு வெறுப்புகளை அறிந்து அடுத்த தடவை கொள்வனவு செய்யும் போது பரிந்துரைப்பதற்காக தரவுகளை சேமித்து முறைவழியாக்கி பரிந்துரைகளாக தருகிறது. இது இயந்திர கற்றல்(machine learning) மூலம் பெறப்படுகிறது. இவை எல்லாவற்றினதும் அடிப்படையில் அமைவதே செயற்கை நுண்ணறிவு(Artificial Intelligence) இவை எல்லாமே பாரிய தரவின் பிரயோகங்களே.
உதாரணமாக Quora வை எடுத்துக்கொண்டால் ஒருவர் இந்த பதிவை ஆதரவு வாக்களித்தார் , தலைப்புக்கான பரிந்துரைகள் , ஓட்டத்தில் வரும் பதில்களுக்கான பரிந்துரைகள் போன்றன எல்லாமே இதன் பிரயோகமே. இவை எல்லாம் ஒரு பயனரின் செயல்பாடுகளை அடிப்படையாக கொண்டு பெறப்பட்டு எமக்கு தரப்படுகின்றன.
இந்த பாரிய தரவு என்பதின் பொதுவான அம்சங்கள்.
  • வேகம் (Velocity)
  • கொள்ளளவு (Volume)
  • மாறும் இயல்பு (Variability)
  • பல்வேறு வகையானது (Variety)(கட்டமைக்கப்பட்ட தரவு,கட்டமைக்கப்படாத தரவு Structured and un structured data )
  • உண்மைத்தன்மை (Veracity)
  • பெறுமதி (Value)
பெருந்தரவுகள் எவ்வாறு எங்கிருந்து பெறப்படுகின்றன ?
  • சமூக வலைத்தள செயற்பாடுகள் (Social media activity)
  • உங்களுக்கு கிடைக்கும் மின்னஞ்சல்கள்
  • நிகழ்நிலை சந்தைப்படுத்தல் ஆய்வு(online marketing analysis)
சேமிக்கும் விடயங்கள்
  • பெயர் வயது ஊர் மின்னஞ்சல் முகவரி
  • அவரின் மனநிலை
  • வலைத்தளங்களில் ஒருவரின் பதிவுகள் மற்றும் அவரின் கருத்துகள்
  • இணையத்தில் தேடிய விபரங்கள்.
  • கொள்வனவு செய்த பொருட்கள்
இப்படியான தரவுகளை எல்லாம் சேமித்து வைத்து தரம் பிரித்து அவற்றில் இருந்து அவசியமான தரவுகளை பிரித்தெடுத்து முறைவழியாக்கி பயனருக்கு சமர்ப்பிப்பது போன்ற முக்கியமான வேலைகளை எல்லாம் இந்த பாரிய தரவு மேற்கொள்கிறது.
இவை எல்லாவற்றையும் மேற்கொள்ள ஒரு பாரிய தொழினுட்பம் தேவைப்படும். இவற்றை எல்லாம் மேற்கொள்ள சில நிறுவனங்கள் திறந்த மூல மென்பொருள்களை உருவாக்கி வெளியிடுகின்றன
அவையாவன :
  • Hadoop
  • Spark
  • Druid
  • ELK
இதன் அனுகூலங்கள்
  • சிறந்த முடிவெடுப்பது
  • நிறுவன உற்பத்தி திறனை அதிகரித்தல் (increase productivity)
  • வீண் செலவுகளை குறைத்தல்
  • வாடிக்கையாளர் சேவைகளை மேம்படுத்தல்
  • வருமான அதிகரிப்பு, சந்தைப்படுத்தலுக்கு உதவுதல்
இதன் பிரதிகூலங்கள்
  • பாரியளவு தரவை சேமிக்க அதிக கொள்ளளவு தேவைப்படும்.
  • பாதுகாப்பு பிரச்சினைகள்
  • தொடர்ச்சியாக மாறிக்கொண்டிருப்பதால் தொடர்ச்சியாக செயற்படுத்த வேண்டி இருக்கும்.
  • தொழிநுட்ப செலவுகள் அதிகரிக்கும்.
  • திறமை உள்ள நபர்களின் தேவைப்பாடு அதிகரித்தல்.

Torrent வலைத்தளங்கள் எவ்வாறு இயங்குகின்றன?


இதற்கு முதலில் தெரிந்திருக்க வேண்டியது,
  • சேவை பயனர் Client Server
  • Peer to Peer
போன்ற வலையமைப்பு மாதிரியங்கள்(Network models) ஆகும்.

சேவை பயனர் (Client Server )

ஒரு கோப்பு (File) ஓன்று ஒரேயொரு சேவையகத்தில் (Server) இல் இருக்கும். அந்த கோப்பு (File) தேவைப்படுபவர்கள் அந்த சேவையகத்தில் (Server) உடன் வேண்டுதல்(request) செய்து அந்த கோப்பை பதிவிறக்கம் செய்யலாம்.
ஆனால் குறைவான நபர்கள் பதிவிறக்கம்(Download) செய்யும் போது சேவையகத்தில் பாதிப்புகள் ஏற்படாது அதுவே அதே சேவையகத்தில் இருந்து பலர் ஒரே நேரத்தில் பதிவிறக்கும் போது அதன் பட்டை அகலத்தில்(Band Width) தாக்கம் ஏற்படும். சேவையகம் அதிக Load ஆக இருக்கும். அத்துடன் பதிவிறக்கும் போது வேகம் குறைவாக இருக்கும்.

Peer to Peer
ஒரு பரீட்சையில் ஒவ்வொரு பாடத்தையும் ஒவ்வொரு மாணவர்கள் படித்திருப்பார்கள். ஒவ்வொருவரும் படித்த பாடங்களை ஒரு தாளில்(Paper) குறித்து வைத்திருப்பார்கள்.(அது தானுங்க Bit paper)
உதாரணமாக :
  1. Python - கண்ணம்மா
  2. PHP - பொன்னம்மா
  3. SQL - சின்னம்மா
மாதிரி.
ஒரு விடை தேவையான ஒருவர் ஒரு கேள்வி எந்த பாடத்துடன் தொடர்பானது என்று கண்டுபிடித்து, அந்த பாடத்தை படித்த அந்த மாணவனிடம் அந்த கேள்விக்கான பதிலை வேண்டுவார் (Answer request). அப்போது ஒவ்வொருவரும் தமது பதிலை பகிர்ந்து கொள்வார்கள். அப்போது ஒருவருக்கும் சுமைதாக்காது(Load). வேகமாகவும் இருக்கும்.

கேள்விக்கு வரலாம். இந்த Torrent எப்படி இயங்குகிறது?
  • Peer to Peer முறையை பயன்படுத்தும்

  • முதலில் Torrent இல் ஒரு கோப்பை இணைக்கும் போது அது சின்ன சின்ன துண்டுகளாக(Pieces) பிரிக்கப்பட்டு Server இல் சேர்த்து வைக்கப்படிருக்கும்.
  • Torrent வலைப்பக்கத்தில் இருந்து பதிவிறக்கும் போது .torrent என்ற கோப்பு நீட்சியோடு(File extension) ஒரு கோப்பு பதிவிறக்கப்படும். அது தான் மேலே சொன்ன Bit Paper. அதாவது எந்த file எங்கு இருக்கிறது, அதன் Link என்பன சொல்லப்பட்டிருக்கும்.
  • அதே போல ஒரே ஒழுங்கில்(Sequential) தான் பதிவிறக்க வேண்டும் என்ற அவசியமும் இல்லை. எழுந்த மாறான ஒழுங்கிலும்(Random) பதிவிறக்கம் செய்யலாம்.அந்த நேரம் எந்த கோப்பு கிடைக்கிறதோ அது பதிவிறக்கப்படும். அதற்கு ஏற்றபடி பதிவிறக்க வேகம் மாறும்.
  • இந்த யாரிடம் எந்த கோப்பு இருக்கும், யாருக்கு பதில் கோரிக்கையை அனுப்ப வேண்டும்,கடைசியாக எல்லாவற்றையும் ஒழுங்க்காக்கி தருதல் என்பதை எல்லாம் செய்வது தான் இந்த μTorrent போன்ற Torrent Tracking Software களின் வேலை.
உதாரணமாக,
  • Server இல் இருந்து கனகம்மா என்ற ஒருவருக்கு 100 துண்டுகள் போகும். பொன்னம்மாவுக்கு 100 அல்லது 101 துண்டுகள் போகும். இப்படி நிறைய பேருக்கு போயிருக்கும்.
  • பொன்னம்மாவிடம் இல்லாத துண்டுகள் கனகம்மாவிடம் இருந்தால் பொன்னம்மா கனகம்மாவிடம் இருந்து பெறுவார். இதில் கனகம்மா Seeds எனப்படுவார். அதாவது இல்லாததை கொடுப்பார்.
  • இதில் பொன்னம்மா Peer எனப்படுவார். அதாவது பெறுபவர்.
  • பதிவிறக்கிக்கொண்டு இருக்கும் அதே நேரத்தில் வேறு துண்டுகளை கொடுத்துக் கொண்டு இருப்பவர் Leachers எனப்படுவர்.
  • இப்படியே கனகம்மாவும் இல்லாத துண்டுகளை பெறுவார். இப்படி நிறைய பேர் தன்னிடம் இல்லாத துண்டுகளை வேண்டிக்கொண்டும் இருப்பதை கொடுத்துக்கொண்டும் இருப்பார்கள்.
  • ஒவ்வொரு பதிவிறக்கிய துண்டுக்கும் Server இன் Link-இணைப்பு ஒன்று இருக்கும். இதை வைத்து தான் அந்த Torrent file மூலமாக யாரிடம் அந்த துண்டுகள் இருக்கிறது என்று கண்டுபிடித்து இணைப்புகளை ஏற்படுத்தி நாம் பதிவிறக்கம் செய்து கொண்டிருப்போம்.
இதில்
  • சின்னையா என்று ஒருவர் புதிதாக பதிவிறக்க போகிறார் அவருக்கு Server இல் இருந்து 50 அல்லது எத்தனை துண்டுகளும் கிடைக்கலாம். அதோடு மேலே சொன்ன கனகம்மா,பொன்னம்மா என்போரிடம் இருந்து சின்னையாவிடம் இல்லாத துண்டுகள் கிடைக்கும். இப்படி நிறைய பேரிடம் இருந்து கிடைக்கும்.
இப்படி தான் இந்த Torrent வேலை செய்கிறது.

கீழே உள்ள பதிவிறங்கி கொண்டிருக்கும் படத்தை வைத்து உதாரணம்
மேலே படத்தில் குறிக்கப்பட்ட எண்களை வைத்து பார்க்கவும்.
  1. கோப்பின் மொத்த அளவு.
  2. பதிவிறக்கும் வேகம்.
  3. பதிவிறக்கும் வேகம் மேலே 2 இல் உள்ளது போல
  4. இன்னொருவருக்கு பதிவேற்றும் / அடுத்த துண்டுக்கு வேண்டுதல் அனுப்புவதற்கான வேகம்.
  5. துண்டுகளை கொடுப்பவர்
  6. துண்டுகளை பெறுபவர்
  7. துண்டுகளின் எண்ணிக்கை

Torrent - என்ன நன்மைகள்???
  1. வேகம்,அகல பட்டை(Bandwidth) பிரச்சினை இல்லை
  2. Server Load ஆகாது. ஒரே Server இல் கோப்பை சேமித்து வைத்து கோடிக் கணக்கான பேருக்கு வழங்கலாம். அதனால் Server செலவு குறைவு.

Torrent - என்ன தீமைகள் ???
  1. தருபவர்களின் (Seeds) எண்ணிக்கை குறைய வேகம் குறையலாம்.
  2. Torrent File உடன் சேர்ந்து Malware ஏதாவது வருவதற்கான சாத்தியங்கள் உண்டு.

Torrent பதிவிறக்கும் போது VPN அவசியமா???
  • சட்டரீதியான உள்ளடக்கங்களை பதிவிறக்கும் போது அவசியமில்லை.
  • திரைப்படங்கள் மற்றும் வேறு Copyright உள்ளடக்கங்களை சட்டரீதியற்ற முறையில் பதிவிறக்கும் போது ISP- Internet Service Provider களின் பார்வையில் இருந்து தப்பிக்க VPN அவசியம். ஓசி VPN ஐ பயன்படுத்தும் போது ஒரு நாட்டின் அரசாங்கத்தால் பதிவிறக்கியோரின் தகவல்கள் கேட்கப்படும் பொது VPN நிறுவனம் தகவல் வழங்க கூடிய சாத்தியங்கள் உண்டு.
  • அதனால் பணம் கொடுத்து VPN கொள்வனவு செய்து பயன்படுத்தும் போது ஓரளவு பாதுகாப்பாக இருக்கலாம்.
பொறுப்பு துறப்பு : சட்ட ரீதியற்ற உள்ளடக்கங்களை VPN மூலம் பதிவிறக்குவது இங்கு ஊக்குவிக்கப்படவில்லை. இப்படி செய்யலாம் என்று ஒரு தகவல் மாத்திரமே வழங்கப்பட்டது. இதன் மூலம் ஏற்படும் எந்த இழப்புக்கும் கம்பனி பொறுப்பேற்காது.

Client Server முறை தீமைகள் ( சாதாரணமாக நாம் பதிவிறக்கம் செய்யும் முறை )
  1. Server Load ஆகும்.
  2. நிறைய பேர் பதிவிறக்கும் போது Bandwidth குறையும். அதாவது ஒரு நேரத்தில் வீதியில் ஒரு வாகனம் செல்வதும் ஒரே நேரத்தில் 100 வாகனம் செல்வதும் போல.
  3. அப்படி வேகம் குறைந்து பதிவிறக்க முடியாவிட்டால் இன்னொரு Server இல் அந்த கோப்பை சேமித்து வைக்க வேண்டி ஏற்படுவதால் Server செலவு அதிகரிக்கும்

சட்டவிரோதமானதா ???
இல்லை. சட்டவிரோதமான உள்ளடக்கங்களை(Content) களை பதிவிறக்கும் போது மட்டும் சட்டவிரோதமானது. இதை தவிர்த்து பல வழங்குனர்கள் சட்டரீதியாகவே பதிவிறக்கும் வசதியை வழங்குகிறார்கள்

(இதில் உள்ள வலை பக்கத்தில் உள்ள வழங்குனர்கள் 10 Best Websites For Legal Torrents And Safe Download | 2019 Edition