Back to Question Center
0

સેમ્ટ બૉટ્સ, કરોળિયા અને ક્રાઉલર્સ સાથે કેવી રીતે કામ કરવા તેના પર ટિપ્સ આપે છે

1 answers:

સર્ચ એન્જિન મૈત્રીપૂર્ણ યુઆરએલ બનાવવા સિવાય, .htaccess માધ્યમ ફાઇલ વેબમાસ્ટરને ચોક્કસ બૉટોને તેમની વેબસાઇટ ઍક્સેસ કરવાથી અવરોધે છે. આ રોબોટ્સને અવરોધિત કરવાની એક રીત robots - tours around south america.txt ફાઇલ મારફતે છે. જો કે, રોસ બાર્બર, સેમલટ કસ્ટમર સક્સેસ મેનેજર, જણાવે છે કે તેણે કેટલાક ક્રોલર્સને આ વિનંતીને અવગણીને જોયું છે. તમારી સામગ્રીને અનુક્રમિત કરવાથી રોકવા માટે .htaccess ફાઇલનો ઉપયોગ કરવાનો શ્રેષ્ઠ માર્ગ છે.

આ બૉટ્સ શું છે?

ઈન્ડેક્ષિંગ હેતુઓ માટે ઇન્ટરનેટ પરથી નવી સામગ્રીને કાઢી નાખવા માટે તેઓ સર્ચ એન્જિન દ્વારા ઉપયોગમાં લેવાતા સૉફ્ટવેરનો એક પ્રકાર છે.

તેઓ નીચેની કાર્યો કરે છે:

  • તમે લિંક કરેલી વેબ પૃષ્ઠોની મુલાકાત લો
  • ભૂલો માટે તમારો HTML કોડ તપાસો
  • તેઓ કયા પૃષ્ઠોને તમે લિંક કરી રહ્યા છો તે સાચવે છે અને તમારી સામગ્રીને કયા વેબ પૃષ્ઠો લિંક કરે છે તે જુઓ
  • તેઓ તમારી સામગ્રી ઇન્ડેક્સ

જો કે, કેટલાક બૉટો દૂષિત છે અને ઇમેઇલ સરનામા અને સ્વરૂપો માટે તમારી સાઇટ શોધો જે સામાન્ય રીતે તમને અવાંછિત સંદેશા અથવા સ્પામ મોકલવા માટે વપરાય છે. અન્ય લોકો તમારા કોડમાં સુરક્ષા ખામીઓ પણ જુએ છે.

વેબ ક્રોલર્સને બ્લૉક કરવા માટે શું જરૂરી છે?

.htaccess ફાઇલનો ઉપયોગ કરતા પહેલા, તમારે નીચેની બાબતોની તપાસ કરવી જરૂરી છે:

1. તમારી સાઇટ અપાચે સર્વર પર ચાલી હોવી જોઈએ. આજકાલ, તે વેબ હોસ્ટિંગ કંપનીઓ, જે તેમની નોકરીમાં અડધી યોગ્ય છે, તમને આવશ્યક ફાઇલની ઍક્સેસ આપે છે.

2. તમારી પાસે તમારી વેબસાઇટની કાચો સર્વર લૉગ્સની ઍક્સેસ હોવી જોઈએ જેથી કરીને તમે બૉટો તમારા વેબ પૃષ્ઠોની મુલાકાત લઈ રહ્યાં છે તે શોધી શકો.

નોંધો કે તમે બધા હાનિકારક બૉટોને અવરોધિત કરી શકશો નહીં જ્યાં સુધી તમે તેમને બધાને બ્લૉક નહીં કરો, તમે જે મદદ કરો છો તે પણ તે ઉપયોગી છે. દરરોજ નવા બૉટ્સ આવે છે, અને વૃદ્ધો ફેરફાર થાય છે. સૌથી કાર્યક્ષમ માર્ગ એ તમારો કોડ સુરક્ષિત કરવાનો છે અને બૉટોને સ્પામ કરવા માટે તે મુશ્કેલ બનાવે છે.

બૉટો ઓળખવા

બૉટો આઇપી એડ્રેસ દ્વારા અથવા તેમના "યુઝર એજન્ટ સ્ટ્રિંગ" દ્વારા ઓળખી શકાય છે, જે તેઓ HTTP હેડરોમાં મોકલે છે. ઉદાહરણ તરીકે, Google "Googlebot."

નો ઉપયોગ કરે છે

તમારે આ સૂચિની જરૂર 302 બૉટ્સ સાથે કરી શકો છો જો તમારી પાસે પહેલાથી બોટનું નામ છે જે તમે .htaccess

નો ઉપયોગ કરવાનું દૂર રાખવા માંગો છો.

અન્ય માર્ગ એ છે કે સર્વરમાંથી બધી લોગ ફાઈલો ડાઉનલોડ કરો અને તેમને ટેક્સ્ટ એડિટરનો ઉપયોગ કરીને ખોલવા. સર્વર પરનું તેમનું સ્થાન તમારા સર્વરના રૂપરેખાંકનને આધારે બદલાઈ શકે છે. તમારા વેબ હોસ્ટથી સહાય.

જો તમે જાણતા હોવ કે કયું પૃષ્ઠ જોવામાં આવ્યું હતું, અથવા મુલાકાતના સમય, અનિચ્છનીય બોટ સાથે આવવું સહેલું છે. તમે આ પરિમાણો સાથે લોગ ફાઇલ શોધી શકો છો.

એકવાર, તમે નોંધ્યું છે કે બૉટને તમારે અવરોધિત કરવાની જરૂર છે; તો પછી તમે તેમને .htaccess ફાઇલમાં શામેલ કરી શકો છો. મહેરબાની કરીને નોંધ કરો કે બોટને અવરોધવાથી તેને અટકાવવા માટે પૂરતું નથી. તે નવા IP અથવા નામ સાથે પાછા આવી શકે છે.

તેમને અવરોધિત કેવી રીતે કરવું

.htaccess ફાઇલની એક નકલ ડાઉનલોડ કરો. જો જરૂરી હોય તો બેકઅપ કરો

પદ્ધતિ 1: IP દ્વારા અવરોધિત કરવાનું

આ કોડ સ્નીપેટ IP સરનામા 197.0.0.1

નો ઉપયોગ કરીને બોટને અવરોધે છે

ઓર્ડર ઇન્કાર, પરવાનગી આપો

197.0.0.1

થી નકાર

પ્રથમ રેખાનો અર્થ એ છે કે સર્વર, તમે ઉલ્લેખિત કરેલા પેટર્નથી મેળ ખાતી બધી વિનંતીઓને અવરોધિત કરશે અને બીજા બધાને મંજૂરી આપશે.

બીજી રેખા સર્વરને 403 ઈશ્યુ કરવાની ફરજ પાડે છે: પ્રતિબંધિત પૃષ્ઠ

પદ્ધતિ 2: વપરાશકર્તા એજન્ટો દ્વારા બ્લોકીંગ

અપાચેનો ફરીથી લખો એન્જિન

નો ઉપયોગ કરવાનો સૌથી સહેલો રસ્તો છે

પુન: પ્રકાશિત એન્જીન ઑન

રીવ્રીટકોન્ડ% {HTTP_USER_AGENT} BotUserAgent

પુનર્લેખન-નિયમ - [એફ, એલ]

પ્રથમ વાક્ય ખાતરી કરે છે કે પુનર્લેખન મોડ્યુલ સક્ષમ કરેલું છે. રેખા બે તે શરત છે જેનો નિયમ લાગુ પડે છે. લીટી 4 માં "એફ" એ સર્વરને 403 પરત કરવાની ફરજ પાડે છે: ફોરબિડન જ્યારે "એલ" નો અર્થ છે કે આ છેલ્લો નિયમ છે.

પછી તમે તમારા સર્વર પર. Htaccess મા નિર્ધારિત ફાઇલ અપલોડ કરો અને હાલના એક પર ફરીથી લખશો. સમય સાથે, તમારે બોટના IP અપડેટ કરવાની જરૂર પડશે. જો તમે કોઈ ભૂલ કરો છો, તો બૅકઅપ અપલોડ કરો.

November 29, 2017