পাইথন রেগুলার এক্সপ্রেশন

রেগুলার এক্সপ্রেশন হল টেক্সট প্যাটার্ন মেলানোর জন্য একটি শক্তিশালী ভাষা। এই পৃষ্ঠাটি আমাদের পাইথন অনুশীলনের জন্য যথেষ্ট নিয়মিত এক্সপ্রেশনগুলির একটি প্রাথমিক ভূমিকা দেয় এবং পাইথনে রেগুলার এক্সপ্রেশনগুলি কীভাবে কাজ করে তা দেখায়। Python "re" মডিউল নিয়মিত এক্সপ্রেশন সমর্থন প্রদান করে।

পাইথনে একটি নিয়মিত অভিব্যক্তি অনুসন্ধান সাধারণত লেখা হয়:

match = re.search(pat, str)

re.search() পদ্ধতি একটি রেগুলার এক্সপ্রেশন প্যাটার্ন এবং একটি স্ট্রিং নেয় এবং স্ট্রিংয়ের মধ্যে সেই প্যাটার্নের জন্য অনুসন্ধান করে। যদি অনুসন্ধান সফল হয়, অনুসন্ধান() একটি মিল বস্তু প্রদান করে বা অন্যথায় কিছুই নয়। অতএব, অনুসন্ধানটি সফল হয়েছে কিনা তা পরীক্ষা করার জন্য সাধারণত একটি যদি-বিবৃতি দ্বারা অনুসন্ধানটি অনুসরণ করা হয়, যেমনটি নিম্নলিখিত উদাহরণে দেখানো হয়েছে যা প্যাটার্ন 'শব্দ:' অনুসন্ধান করে একটি 3 অক্ষরের শব্দ (নীচে বিস্তারিত):

import re

str = 'an example word:cat!!'
match = re.search(r'word:\w\w\w', str)
# If-statement after search() tests if it succeeded
if match:
  print('found', match.group()) ## 'found word:cat'
else:
  print('did not find')

কোড match = re.search(pat, str) সার্চের ফলাফলকে "match" নামের একটি ভেরিয়েবলে সংরক্ষণ করে। তারপর যদি-বিবৃতি ম্যাচ পরীক্ষা করে -- যদি সত্য অনুসন্ধান সফল হয় এবং match.group() হল মিলিত পাঠ্য (যেমন 'word:cat')। অন্যথায় যদি মিলটি মিথ্যা হয় (আরো নির্দিষ্ট করার জন্য কিছুই নয়), তাহলে অনুসন্ধানটি সফল হয়নি এবং কোন মিলিত পাঠ্য নেই।

প্যাটার্ন স্ট্রিং এর শুরুতে 'r' একটি পাইথন "কাঁচা" স্ট্রিংকে চিহ্নিত করে যা ব্যাকস্ল্যাশের মধ্য দিয়ে যায় পরিবর্তন ছাড়াই যা রেগুলার এক্সপ্রেশনের জন্য খুবই সহজ (জাভা এই বৈশিষ্ট্যটি খারাপভাবে প্রয়োজন!)। আমি সুপারিশ করি যে আপনি সবসময় একটি অভ্যাস হিসাবে 'r' দিয়ে প্যাটার্ন স্ট্রিং লিখুন।

মৌলিক নিদর্শন

রেগুলার এক্সপ্রেশনের ক্ষমতা হল তারা প্যাটার্ন নির্দিষ্ট করতে পারে, শুধু নির্দিষ্ট অক্ষর নয়। এখানে সবচেয়ে মৌলিক নিদর্শন রয়েছে যা একক অক্ষরের সাথে মেলে:

  • a, X, 9, < -- সাধারন অক্ষরগুলো ঠিক নিজেদের সাথে মিলে যায়। যে মেটা-অক্ষরগুলি নিজেদের সাথে মেলে না কারণ তাদের বিশেষ অর্থ রয়েছে: . ^ $ * +? { [ ] \ | () (নিচে বিস্তারিত)
  • . (একটি পিরিয়ড) -- নতুন লাইন '\n' ছাড়া যেকোনো একক অক্ষরের সাথে মেলে
  • \w -- (ছোট হাতের w) একটি "শব্দ" অক্ষরের সাথে মেলে: একটি অক্ষর বা অঙ্ক বা আন্ডারবার [a-zA-Z0-9_]। উল্লেখ্য যে যদিও "শব্দ" এর জন্য স্মৃতিচিহ্ন, এটি শুধুমাত্র একটি একক শব্দ চারের সাথে মেলে, একটি সম্পূর্ণ শব্দ নয়। \W (বড় হাতের W) যেকোন অ-শব্দ অক্ষরের সাথে মেলে।
  • \b -- শব্দ এবং অ-শব্দের মধ্যে সীমানা
  • \s -- (ছোট হাতের গুলি) একটি একক হোয়াইটস্পেস অক্ষরের সাথে মেলে -- স্পেস, নিউলাইন, রিটার্ন, ট্যাব, ফর্ম [ \n\r\t\f]। \S (বড় হাতের S) যেকোনো নন-হোয়াইটস্পেস অক্ষরের সাথে মেলে।
  • \t, \n, \r -- ট্যাব, নতুন লাইন, রিটার্ন
  • \d -- দশমিক সংখ্যা [0-9] (কিছু পুরানো রেজেক্স ইউটিলিটিগুলি \d সমর্থন করে না, তবে তারা সবগুলি \w এবং \s সমর্থন করে)
  • ^ = শুরু, $ = শেষ -- স্ট্রিংয়ের শুরু বা শেষের সাথে মেলে
  • \ -- একটি চরিত্রের "বিশেষত্ব" বাধা দেয়। সুতরাং, উদাহরণস্বরূপ, ব্যবহার করুন \. একটি পিরিয়ড বা \\ একটি স্ল্যাশ মেলাতে। যদি আপনি নিশ্চিত না হন যে একটি অক্ষরের বিশেষ অর্থ আছে, যেমন '@', তাহলে আপনি এটির সামনে একটি স্ল্যাশ রাখার চেষ্টা করতে পারেন, \@৷ যদি এটি একটি বৈধ পালানোর ক্রম না হয়, যেমন \c, আপনার পাইথন প্রোগ্রাম একটি ত্রুটির সাথে থামবে।

মৌলিক উদাহরণ

কৌতুক: তিন চোখ বিশিষ্ট শূকরকে কি বলে? piiig!

একটি স্ট্রিংয়ের মধ্যে একটি প্যাটার্নের জন্য নিয়মিত অভিব্যক্তি অনুসন্ধানের প্রাথমিক নিয়মগুলি হল:

  • অনুসন্ধানটি শুরু থেকে শেষ পর্যন্ত স্ট্রিং দিয়ে এগিয়ে যায়, প্রথম মিল পাওয়ায় থামে
  • সমস্ত প্যাটার্ন অবশ্যই মিলিত হতে হবে, তবে সমস্ত স্ট্রিং নয়৷
  • match = re.search(pat, str) সফল হলে, ম্যাচটি কোনটি নয় এবং বিশেষ করে match.group() হল মেলে লেখা পাঠ্য
  ## Search for pattern 'iii' in string 'piiig'.
  ## All of the pattern must match, but it may appear anywhere.
  ## On success, match.group() is matched text.
  match = re.search(r'iii', 'piiig') # found, match.group() == "iii"
  match = re.search(r'igs', 'piiig') # not found, match == None

  ## . = any char but \n
  match = re.search(r'..g', 'piiig') # found, match.group() == "iig"

  ## \d = digit char, \w = word char
  match = re.search(r'\d\d\d', 'p123g') # found, match.group() == "123"
  match = re.search(r'\w\w\w', '@@abcd!!') # found, match.group() == "abc"

পুনরাবৃত্তি

আপনি যখন প্যাটার্নে পুনরাবৃত্তি নির্দিষ্ট করতে + এবং * ব্যবহার করেন তখন জিনিসগুলি আরও আকর্ষণীয় হয়ে ওঠে

  • + -- এর বাম দিকে প্যাটার্নের 1 বা তার বেশি ঘটনা, যেমন 'i+' = এক বা একাধিক i's
  • * -- এর বাম দিকে প্যাটার্নের 0 বা তার বেশি ঘটনা
  • ? -- প্যাটার্নের বাম দিকে 0 বা 1 ঘটনা মেলে

বাম এবং বৃহত্তম

প্রথমে অনুসন্ধানটি প্যাটার্নের জন্য সবচেয়ে বামদিকের মিল খুঁজে পায়, এবং দ্বিতীয়ত এটি যতটা সম্ভব স্ট্রিং ব্যবহার করার চেষ্টা করে -- অর্থাৎ + এবং * যতদূর সম্ভব যান (+ এবং *কে "লোভী" বলা হয়)।

পুনরাবৃত্তি উদাহরণ

  ## i+ = one or more i's, as many as possible.
  match = re.search(r'pi+', 'piiig') # found, match.group() == "piii"

  ## Finds the first/leftmost solution, and within it drives the +
  ## as far as possible (aka 'leftmost and largest').
  ## In this example, note that it does not get to the second set of i's.
  match = re.search(r'i+', 'piigiiii') # found, match.group() == "ii"

  ## \s* = zero or more whitespace chars
  ## Here look for 3 digits, possibly separated by whitespace.
  match = re.search(r'\d\s*\d\s*\d', 'xx1 2   3xx') # found, match.group() == "1 2   3"
  match = re.search(r'\d\s*\d\s*\d', 'xx12  3xx') # found, match.group() == "12  3"
  match = re.search(r'\d\s*\d\s*\d', 'xx123xx') # found, match.group() == "123"

  ## ^ = matches the start of string, so this fails:
  match = re.search(r'^b\w+', 'foobar') # not found, match == None
  ## but without the ^ it succeeds:
  match = re.search(r'b\w+', 'foobar') # found, match.group() == "bar"

ইমেল উদাহরণ

ধরুন আপনি 'xyz alice-b@google.com বেগুনি বানর' স্ট্রিং এর ভিতরে ইমেল ঠিকানাটি খুঁজে পেতে চান। আমরা এটিকে একটি চলমান উদাহরণ হিসাবে ব্যবহার করব যাতে আরো রেগুলার এক্সপ্রেশন বৈশিষ্ট্য প্রদর্শন করা যায়। এখানে প্যাটার্ন r'\w+@\w+' ব্যবহার করে একটি প্রচেষ্টা:

  str = 'purple alice-b@google.com monkey dishwasher'
  match = re.search(r'\w+@\w+', str)
  if match:
    print(match.group())  ## 'b@google'

অনুসন্ধানটি এই ক্ষেত্রে সম্পূর্ণ ইমেল ঠিকানা পায় না কারণ \w '-' বা 'এর সাথে মেলে না। ঠিকানায় আমরা নীচের রেগুলার এক্সপ্রেশন বৈশিষ্ট্যগুলি ব্যবহার করে এটি ঠিক করব৷

বর্গাকার বন্ধনী

বর্গাকার বন্ধনীগুলি অক্ষরের একটি সেট নির্দেশ করতে ব্যবহার করা যেতে পারে, তাই [abc] 'a' বা 'b' বা 'c' এর সাথে মেলে। কোড \w, \s ইত্যাদি বর্গাকার বন্ধনীর মধ্যেও কাজ করে একটি ব্যতিক্রম যে ডট (.) মানে শুধু একটি আক্ষরিক বিন্দু। ইমেল সমস্যার জন্য, বর্গাকার বন্ধনী হল 'যোগ করার একটি সহজ উপায়।' এবং '-' অক্ষরের সেটে যা @ এর চারপাশে r'[\w.-]+@[\w.-]+' প্যাটার্ন সহ প্রদর্শিত হতে পারে পুরো ইমেল ঠিকানা পেতে:

  match = re.search(r'[\w.-]+@[\w.-]+', str)
  if match:
    print(match.group())  ## 'alice-b@google.com'
(আরো বর্গাকার-বন্ধনী বৈশিষ্ট্য) আপনি একটি ব্যাপ্তি নির্দেশ করতে একটি ড্যাশও ব্যবহার করতে পারেন, তাই [az] সমস্ত ছোট হাতের অক্ষরের সাথে মেলে। একটি ব্যাপ্তি নির্দেশ না করে একটি ড্যাশ ব্যবহার করতে, ড্যাশটি সবশেষে রাখুন, যেমন [abc-]। একটি বর্গাকার-বন্ধনী সেটের শুরুতে একটি আপ-হ্যাট (^) এটিকে উল্টে দেয়, তাই [^ab] মানে 'a' বা 'b' ছাড়া যেকোনো অক্ষর।

গ্রুপ নিষ্কাশন

একটি রেগুলার এক্সপ্রেশনের "গ্রুপ" ফিচার আপনাকে মিলিত টেক্সটের কিছু অংশ বাছাই করতে দেয়। ধরুন ইমেইল সমস্যার জন্য আমরা আলাদাভাবে ইউজারনেম এবং হোস্ট এক্সট্রাক্ট করতে চাই। এটি করার জন্য, প্যাটার্নে ব্যবহারকারীর নাম এবং হোস্টের চারপাশে বন্ধনী ( ) যুক্ত করুন, এইভাবে: r'([\w.-]+)@([\w.-]+)'। এই ক্ষেত্রে, প্যাটার্নটি কী মিলবে তা বন্ধনীগুলি পরিবর্তন করে না, পরিবর্তে তারা মিল পাঠ্যের ভিতরে যৌক্তিক "গোষ্ঠী" স্থাপন করে। একটি সফল অনুসন্ধানে, match.group(1) হল ১ম বাম বন্ধনীর সাথে মিলিত পাঠ্য এবং match.group(2) হল ২য় বাম বন্ধনীর সাথে সম্পর্কিত পাঠ্য। প্লেইন match.group() এখনও যথারীতি পুরো ম্যাচ টেক্সট।

  str = 'purple alice-b@google.com monkey dishwasher'
  match = re.search(r'([\w.-]+)@([\w.-]+)', str)
  if match:
    print(match.group())   ## 'alice-b@google.com' (the whole match)
    print(match.group(1))  ## 'alice-b' (the username, group 1)
    print(match.group(2))  ## 'google.com' (the host, group 2)

রেগুলার এক্সপ্রেশনের সাথে একটি সাধারণ ওয়ার্কফ্লো হল যে আপনি যে জিনিসটি খুঁজছেন তার জন্য আপনি একটি প্যাটার্ন লেখেন, আপনি যে অংশগুলি চান তা বের করতে বন্ধনীর গোষ্ঠী যোগ করুন।

findall

findall() সম্ভবত re মডিউলের একক সবচেয়ে শক্তিশালী ফাংশন। উপরে আমরা একটি প্যাটার্নের জন্য প্রথম মিল খুঁজে পেতে re.search() ব্যবহার করেছি। findall() *সমস্ত* মিলগুলি খুঁজে পায় এবং স্ট্রিংগুলির একটি তালিকা হিসাবে সেগুলিকে ফেরত দেয়, প্রতিটি স্ট্রিং একটি ম্যাচের প্রতিনিধিত্ব করে।
  ## Suppose we have a text with many email addresses
  str = 'purple alice@google.com, blah monkey bob@abc.com blah dishwasher'

  ## Here re.findall() returns a list of all the found email strings
  emails = re.findall(r'[\w\.-]+@[\w\.-]+', str) ## ['alice@google.com', 'bob@abc.com']
  for email in emails:
    # do something with each found email string
    print(email)

ফাইল সহ findall

ফাইলগুলির জন্য, আপনি ফাইলের লাইনগুলির উপর পুনরাবৃত্তি করার জন্য একটি লুপ লেখার অভ্যাস করতে পারেন এবং তারপর আপনি প্রতিটি লাইনে findall() কল করতে পারেন। পরিবর্তে, findall() কে আপনার জন্য পুনরাবৃত্তি করতে দিন -- অনেক ভালো! শুধু findall() এ পুরো ফাইলের পাঠ্যটি ফিড করুন এবং এটিকে একটি একক ধাপে সমস্ত মিলের একটি তালিকা ফেরত দিন (মনে রাখবেন যে f.read() একটি একক স্ট্রিংয়ে একটি ফাইলের পুরো পাঠ্য ফেরত দেয়):

  # Open file
  f = open('test.txt', encoding='utf-8')
  # Feed the file text into findall(); it returns a list of all the found strings
  strings = re.findall(r'some pattern', f.read())

Findall এবং Groups

বন্ধনী ( ) গ্রুপ প্রক্রিয়া findall() এর সাথে একত্রিত করা যেতে পারে। যদি প্যাটার্নে 2 বা তার বেশি বন্ধনী গোষ্ঠী অন্তর্ভুক্ত থাকে, তাহলে স্ট্রিংগুলির একটি তালিকা ফেরত দেওয়ার পরিবর্তে, findall() *tuples* এর একটি তালিকা প্রদান করে। প্রতিটি টিপল প্যাটার্নের একটি মিল উপস্থাপন করে, এবং টিপলের ভিতরে রয়েছে গ্রুপ(1), গ্রুপ(2) .. ডেটা। তাই যদি ইমেল প্যাটার্নে 2টি বন্ধনী গোষ্ঠী যুক্ত করা হয়, তাহলে findall() টিপলের একটি তালিকা প্রদান করে, প্রতিটি দৈর্ঘ্য 2 যাতে ব্যবহারকারীর নাম এবং হোস্ট থাকে, যেমন ('alice', 'google.com')।

  str = 'purple alice@google.com, blah monkey bob@abc.com blah dishwasher'
  tuples = re.findall(r'([\w\.-]+)@([\w\.-]+)', str)
  print(tuples)  ## [('alice', 'google.com'), ('bob', 'abc.com')]
  for tuple in tuples:
    print(tuple[0])  ## username
    print(tuple[1])  ## host

একবার আপনার কাছে টিপলের তালিকা হয়ে গেলে, আপনি প্রতিটি টিপলের জন্য কিছু গণনা করতে এটিকে লুপ করতে পারেন। যদি প্যাটার্নে কোন বন্ধনী অন্তর্ভুক্ত না থাকে, তাহলে findall() আগের উদাহরণের মতো পাওয়া স্ট্রিংগুলির একটি তালিকা প্রদান করে। প্যাটার্নে যদি বন্ধনীর একটি একক সেট অন্তর্ভুক্ত থাকে, তাহলে findall() সেই একক গোষ্ঠীর সাথে সম্পর্কিত স্ট্রিংগুলির একটি তালিকা প্রদান করে। (অস্পষ্ট ঐচ্ছিক বৈশিষ্ট্য: কখনও কখনও প্যাটার্নে আপনার প্যারেন ( ) গ্রুপিং থাকে, কিন্তু আপনি যা বের করতে চান না। সেক্ষেত্রে, শুরুতে a ?: দিয়ে প্যারেন লিখুন, যেমন (?: ) এবং সেই বাম প্যারেন হবে একটি গ্রুপ ফলাফল হিসাবে গণনা করা হয় না.)

RE ওয়ার্কফ্লো এবং ডিবাগ

রেগুলার এক্সপ্রেশন প্যাটার্নগুলি শুধুমাত্র কয়েকটি অক্ষরে অনেক অর্থ প্যাক করে, কিন্তু সেগুলি এত ঘন, আপনি আপনার প্যাটার্নগুলি ডিবাগ করতে অনেক সময় ব্যয় করতে পারেন৷ আপনার রানটাইম সেট আপ করুন যাতে আপনি একটি প্যাটার্ন চালাতে পারেন এবং এটি সহজে যা মেলে তা মুদ্রণ করতে পারেন, উদাহরণস্বরূপ একটি ছোট পরীক্ষার পাঠ্যে এটি চালানো এবং findall() এর ফলাফল প্রিন্ট করে। যদি প্যাটার্নের সাথে কিছু মেলে না, তাহলে প্যাটার্নটিকে দুর্বল করার চেষ্টা করুন, এর কিছু অংশ মুছে ফেলুন যাতে আপনি অনেকগুলি মিল পান। যখন এটি কিছুই মেলে না, তখন আপনি কোন অগ্রগতি করতে পারবেন না কারণ দেখার মতো কিছু নেই। একবার এটি খুব বেশি মেলে, তারপর আপনি যা চান তা আঘাত করার জন্য ক্রমবর্ধমানভাবে এটিকে শক্ত করার জন্য কাজ করতে পারেন।

অপশন

পুনরায় ফাংশনগুলি প্যাটার্ন ম্যাচের আচরণ পরিবর্তন করার জন্য বিকল্পগুলি গ্রহণ করে। বিকল্প পতাকা অনুসন্ধান() বা Findall() ইত্যাদিতে একটি অতিরিক্ত আর্গুমেন্ট হিসেবে যোগ করা হয়েছে, যেমন re.search(pat, str, re.IGNORECASE)।

  • IGNORECASE -- ম্যাচিংয়ের জন্য বড়/ছোট হাতের পার্থক্য উপেক্ষা করুন, তাই 'a' 'a' এবং 'A' উভয়ের সাথে মিলে যায়।
  • DOTALL -- ডট (.) কে নতুন লাইনের সাথে মেলে - সাধারণত এটি নিউলাইন ছাড়া অন্য কিছুর সাথে মেলে। এটি আপনাকে ট্রিপ করতে পারে -- আপনি মনে করেন .* সবকিছুর সাথে মিলে যায়, কিন্তু ডিফল্টরূপে এটি একটি লাইনের শেষ অতিক্রম করে না। মনে রাখবেন যে \s (হোয়াইটস্পেস) নতুন লাইন অন্তর্ভুক্ত করে, তাই আপনি যদি একটি নতুন লাইন অন্তর্ভুক্ত করতে পারে এমন একটি সাদা স্থানের সাথে মিল করতে চান তবে আপনি শুধুমাত্র \s* ব্যবহার করতে পারেন
  • মাল্টিলাইন -- অনেক লাইন দিয়ে তৈরি একটি স্ট্রিং-এর মধ্যে, প্রতিটি লাইনের শুরু এবং শেষের সাথে ^ এবং $কে মেলাতে অনুমতি দিন। সাধারণত ^/$ পুরো স্ট্রিংয়ের শুরু এবং শেষের সাথে মেলে।

লোভী বনাম অ-লোভী (ঐচ্ছিক)

এটি ঐচ্ছিক বিভাগ যা অনুশীলনের জন্য প্রয়োজনীয় নয় এমন একটি আরও উন্নত নিয়মিত অভিব্যক্তি কৌশল দেখায়।

ধরুন আপনার কাছে ট্যাগ সহ পাঠ্য আছে: <b>foo</b> এবং <i>অত্যাধিক</i>

ধরুন আপনি '(<.*>)' প্যাটার্নের সাথে প্রতিটি ট্যাগ মেলানোর চেষ্টা করছেন -- এটি প্রথমে কী মেলে?

ফলাফলটি একটু আশ্চর্যজনক, কিন্তু .* এর লোভনীয় দিকটি এটিকে পুরো '<b>foo</b> এবং <i>অত্যাধিক</i>' একটি বড় ম্যাচ হিসাবে মেলে। সমস্যা হল যে .* প্রথমে থামার পরিবর্তে যতদূর সম্ভব যায় > (ওরফে এটি "লোভী")।

রেগুলার এক্সপ্রেশনের একটি এক্সটেনশন আছে যেখানে আপনি একটি যোগ করেন? শেষে, যেমন .*? অথবা .+?, তাদের পরিবর্তন করে অ-লোভী হতে। এখন যত তাড়াতাড়ি সম্ভব তারা থামে। সুতরাং প্যাটার্ন '(<.*?>)' প্রথম ম্যাচ হিসেবে শুধু '<b>' পাবে, এবং দ্বিতীয় ম্যাচ হিসেবে '</b>' পাবে, এবং এভাবে প্রতিটি <..> জোড়া পালাক্রমে পাবে। শৈলী সাধারণত আপনি একটি .* ব্যবহার করেন? অবিলম্বে কিছু কংক্রিট মার্কার (> এই ক্ষেত্রে) দ্বারা অনুসরণ করা যা .*? রান প্রসারিত করতে বাধ্য হয়।

*? এক্সটেনশনের উৎপত্তি পার্লে, এবং রেগুলার এক্সপ্রেশন যা পার্লের এক্সটেনশনগুলিকে অন্তর্ভুক্ত করে সেগুলি পার্ল সামঞ্জস্যপূর্ণ রেগুলার এক্সপ্রেশন - pcre নামে পরিচিত। পাইথন pcre সমর্থন অন্তর্ভুক্ত করে। অনেক কমান্ড লাইন ইউটিলস ইত্যাদির একটি পতাকা থাকে যেখানে তারা pcre প্যাটার্ন গ্রহণ করে।

"এক্স এ থামানো ছাড়া এই সমস্ত অক্ষরগুলির" এই ধারণাটি কোড করার জন্য একটি পুরানো কিন্তু ব্যাপকভাবে ব্যবহৃত কৌশলটি বর্গাকার-বন্ধনী শৈলী ব্যবহার করে। উপরের জন্য আপনি প্যাটার্নটি লিখতে পারেন, কিন্তু .* এর পরিবর্তে সমস্ত অক্ষর পেতে, [^>]* ব্যবহার করুন যা সমস্ত অক্ষরকে এড়িয়ে যায় যা > নয় (প্রধান ^ "উল্টায়" বর্গ বন্ধনী সেট, তাই এটি মেলে কোন চর বন্ধনীতে নেই)।

প্রতিস্থাপন (ঐচ্ছিক)

re.sub(pat, replacement, str) ফাংশন প্রদত্ত স্ট্রিং-এ প্যাটার্নের সমস্ত উদাহরণ অনুসন্ধান করে এবং তাদের প্রতিস্থাপন করে। প্রতিস্থাপনের স্ট্রিংটিতে '\1', '\2' অন্তর্ভুক্ত থাকতে পারে যা মূল মিলিত পাঠ্য থেকে গোষ্ঠী(1), গোষ্ঠী(2) এবং আরও অনেক কিছু থেকে পাঠ্যকে নির্দেশ করে।

এখানে একটি উদাহরণ যা সমস্ত ইমেল ঠিকানা অনুসন্ধান করে এবং ব্যবহারকারীকে (\1) রাখার জন্য সেগুলিকে পরিবর্তন করে কিন্তু হোস্ট হিসাবে yo-yo-dyne.com আছে৷

  str = 'purple alice@google.com, blah monkey bob@abc.com blah dishwasher'
  ## re.sub(pat, replacement, str) -- returns new string with all replacements,
  ## \1 is group(1), \2 group(2) in the replacement
  print(re.sub(r'([\w\.-]+)@([\w\.-]+)', r'\1@yo-yo-dyne.com', str))
  ## purple alice@yo-yo-dyne.com, blah monkey bob@yo-yo-dyne.com blah dishwasher

ব্যায়াম

নিয়মিত অভিব্যক্তি অনুশীলন করতে, শিশুর নাম অনুশীলন দেখুন।