sobota, 29 listopada 2008

Tip: Jak pobrać tytuł strony www. Niezawodnie.

Jest kilka sposobów na odczytywanie dokumentów tekstowych i wyszukiwanie w nich określonych treści. Często najbardziej niezawodne jest użycie do tego celu wyrażeń regularnych, czyli inaczej mówiąc regexa. Oto przykład jak pobrać tytuł witryny:

public string GetHTMLPageTitle(string file)
{
  Match m = Regex.Match(file, @"<title>\s*(.+?)\s*</title>");
  if (m.Success)
    return m.Groups[1].Value;
  else
    return string.Empty;  
}

Może się przydać :-)

1 komentarze:

andrzejp pisze...

Jest łatwiejszy regex ;)

"<title>(?<wartosc>.*)</title>"

możemy się później odwołać do grupy nie indeksem, ale nazwą:

Groups["wartosc"]