ViewVC Help
View File | Revision Log | Show Annotations | Download File | View Changeset | Root Listing
root/repos/SiteMapper/SiteMapper.cpp
(Generate patch)

Comparing SiteMapper/SiteMapper.cpp (file contents):
Revision 142 by Douglas Thrift, 2004-03-31T20:53:28-08:00 vs.
Revision 637 by douglas, 2005-12-31T21:32:21-08:00

# Line 4 | Line 4
4   //
5   // $Id$
6  
7 < #include "SiteMapper.hpp"
8 < #include "Matcher.hpp"
9 < #include "Page.hpp"
7 > #include <cxx/standard.hh>
8 >
9 > #include <api/pcre/regex.hpp>
10 > #include <api/exename.hpp>
11 > #include <app/simple.hpp>
12  
13 < string program;
12 < bool debug = false;
13 > #include "SiteMapper.hpp"
14  
15 < int main(int argc, char* argv[])
15 > int Main(const app::Options &options)
16   {
17 <        program = argv[0];
17 >        SiteMapper::program = api::GetExecutablePath().GetName();
18  
19 <        string siteIndex, siteMap;
19 >        cse::String siteIndex, siteMap;
20 >        api::Pcre::RegEx index(_B("^-index=(.+)$")), map(_B("^-map=(.+)$"));
21  
22 <        for (int index = 1; index < argc; index++)
22 >        _foreach (const app::ArgumentList, arg, app::GetArguments())
23          {
24 <                string arg(argv[index]);
23 <                Matcher matcher;
24 >                api::Pcre::RegEx::Match match;
25  
26 <                if (arg == matcher("^-index=(.*)$"))
26 >                if (match = index(*arg))
27                  {
28 <                        siteIndex = matcher[1];
28 >                        siteIndex = match[1];
29                  }
30 <                else if (arg == matcher("^-map=(.*)$"))
30 >                else if (match = map(*arg))
31                  {
32 <                        siteMap = matcher[1];
32 >                        siteMap = match[1];
33                  }
34 <                else if (arg == "-D")
34 >                else if (*arg == _B("-D"))
35                  {
36 <                        if (!debug) debug = true;
36 >                        if (!SiteMapper::debug) SiteMapper::debug = true;
37                  }
38          }
39  
40 <        if (siteIndex != "" && siteMap != "")
40 <        {
41 <                XMLPlatformUtils::Initialize();
42 <                XPathEvaluator::initialize();
43 <
40 >        if (!siteIndex.IsEmpty() && !siteMap.IsEmpty())
41                  SiteMapper mapper(siteIndex, siteMap);
45
46                XPathEvaluator::terminate();
47                XMLPlatformUtils::Terminate();
48        }
42          else
43 <        {
51 <                cout << "Usage: " << program << " -index=index -map=map [-D]\n";
52 <        }
43 >                api::Cout << _B("Usage: ") << SiteMapper::program << _B(" -index=index -map=map [-D]") << ios::NewLine;
44  
45          return 0;
46   }
47  
48 < SiteMapper::SiteMapper(const string& siteIndex, const string& siteMap)
48 > SiteMapper::SiteMapper(const cse::String &siteIndex, const cse::String &siteMap)
49   {
50          oldMap(siteMap);
51          newIndex(siteIndex);
52          newMap(siteMap);
53   }
54  
55 < void SiteMapper::oldMap(const string& siteMap)
56 < {
66 <        support.setParserLiaison(&liaison);
67 <
68 <        XalanDOMString file(siteMap.c_str());
69 <        LocalFileInputSource source(file.c_str());
70 <
71 <        XalanDocument* document = liaison.parseXMLStream(source);
55 > cse::String SiteMapper::program;
56 > bool SiteMapper::debug(false);
57  
58 <        if (document == 0) return;
59 <
60 <        XalanNode* list = evaluator.selectSingleNode(support, document,
61 <                XalanDOMString("/page/section/list").c_str());
58 > void SiteMapper::oldMap(const cse::String &siteMap)
59 > {
60 >        ext::Handle<xml::Document> document(xml::Parse(siteMap));
61 >        ext::Handle<xml::Node> list(*document/_B("page")/_B("section")/_B("list"));
62  
63 <        if (list == 0) return;
63 >        comment = *document/_B("comment()");
64  
65 <        item = evaluator.createXPath(XalanDOMString("item").c_str());
81 <        address = evaluator.createXPath(XalanDOMString("link/@address").c_str());
82 <        link = evaluator.createXPath(XalanDOMString("link").c_str());
83 <        list_ = evaluator.createXPath(XalanDOMString("list").c_str());
65 >        if (debug) api::Cerr << _B("comment = ") << comment << ios::NewLine;
66  
67          oldMap(pages, list);
86
87        evaluator.destroyXPath(item);
88        evaluator.destroyXPath(address);
89        evaluator.destroyXPath(link);
90        evaluator.destroyXPath(list_);
68   }
69  
70 < void SiteMapper::oldMap(vector<Page>& pages, XalanNode* list_)
70 > void SiteMapper::oldMap(ext::Vector<Page> &pages, xml::Node* list)
71   {
72 <        NodeRefList nodes = evaluator.selectNodeList(support, list_, *item);
72 >        xml::NodeSet nodes(*list/_B("item"));
73  
74 <        for (int index = 0; index < nodes.getLength(); index++)
74 >        _foreach (xml::NodeSet, node, nodes)
75          {
76 <                XalanNode* node = nodes.item(index);
77 <                ostringstream url, title;
76 >                cse::String url(**node/_B("link")/_B("@address")), title(**node/_B("link"));
77 >                Page page(url, title);
78 >                ext::Handle<xml::Node> list(**node/_B("list"));
79  
80 <                url << evaluator.evaluate(support, node, *address)->str();
103 <                title << evaluator.evaluate(support, node, *link)->str();
80 >                if (!list.IsEmpty()) oldMap(page.GetChildren(), list);
81  
82 <                Page page(url.str(), title.str());
106 <                XalanNode* list = evaluator.selectSingleNode(support, node,
107 <                        *(this->list_));
108 <
109 <                if (list != 0) oldMap(page.getChildren(), list);
110 <
111 <                pages.push_back(page);
82 >                pages.InsertLast(page);
83          }
84   }
85  
86 < void SiteMapper::newIndex(const string& siteIndex)
86 > void SiteMapper::newIndex(const cse::String &siteIndex)
87   {
88 <        XalanDOMString file(siteIndex.c_str());
89 <        LocalFileInputSource source(file.c_str());
119 <
120 <        XalanDocument* document = liaison.parseXMLStream(source);
88 >        ext::Handle<xml::Document> document(xml::Parse(siteIndex));
89 >        xml::NodeSet nodes(*document/_B("index")/_B("page"));
90  
91 <        if (document == 0) return;
123 <
124 <        address = evaluator.createXPath(XalanDOMString("address").c_str());
125 <        port = evaluator.createXPath(XalanDOMString("port").c_str());
126 <        path = evaluator.createXPath(XalanDOMString("path").c_str());
127 <        title = evaluator.createXPath(XalanDOMString("title").c_str());
128 <
129 <        NodeRefList nodes = evaluator.selectNodeList(support, document,
130 <                XalanDOMString("/index/page").c_str());
131 <
132 <        for (int index = 0; index < nodes.getLength(); index++)
91 >        _foreach (xml::NodeSet, node, nodes)
92          {
93 <                XalanNode* node = nodes.item(index);
94 <                ostringstream address;
93 >                _S<ios::String> address(**node/_B("address"));
94 >                cse::String port(**node/_B("port"));
95  
96 <                address << evaluator.evaluate(support, node, *(this->address))->str();
96 >                if (!port.IsEmpty()) address << _B(":") << port;
97  
98 <                double port = evaluator.evaluate(support, node, *(this->port))->num();
98 >                cse::String path(**node/_B("path")), title(**node/_B("title"));
99 >                Page page(address, path, title);
100 >                static api::Pcre::RegEx blog(_B("^Douglas\\sThrift's\\sWebsite\\s\\|\\sDouglas\\sThrift's\\sBlog:\\s(.+)$")), page_(_B("^Douglas\\sThrift's.+Website\\s\\|\\s(.+)$"));
101  
102 <                if (port >= 0 && port <= 65535)
102 >                if (api::Pcre::RegEx::Match match = blog(page.GetTitle()))
103                  {
104 <                        address << ':' << int(port);
144 <                }
145 <
146 <                ostringstream path, title;
104 >                        static api::Pcre::RegEx archives(_B("^\\w+\\s\\d{4}\\sArchives$"));
105  
106 <                path << evaluator.evaluate(support, node, *(this->path))->str();
149 <                title << evaluator.evaluate(support, node, *(this->title))->str();
150 <
151 <                Page page(address.str(), path.str(), title.str());
152 <                Matcher matcher;
153 <
154 <                if (page == matcher(string("^Douglas\\sThrift's\\sWebsite\\s\\|\\sDou")
155 <                        + "glas\\sThrift's\\sBlog:\\s(.+)$"))
156 <                {
157 <                        if (Matcher("^\\w+\\s\\d\\d\\d\\d\\sArchives$") == matcher[1])
106 >                        if (archives(match[1]))
107                          {
108 <                                page.setTitle(matcher[1]);
108 >                                page.SetTitle(match[1]);
109  
110 <                                if (newIndex(pages, page)) continue;
110 >                                if (newIndex(pages, page))
111 >                                        continue;
112                          }
113 <                        else continue;
113 >                        else
114 >                                continue;
115                  }
116 <                else if (page == matcher("^Douglas\\sThrift's.+Website\\s\\|\\s(.+)$"))
116 >                else if (api::Pcre::RegEx::Match match = page_(page.GetTitle()))
117                  {
118 <                        page.setTitle(matcher[1]);
118 >                        page.SetTitle(match[1]);
119  
120 <                        if (newIndex(pages, page)) continue;
120 >                        if (newIndex(pages, page))
121 >                                continue;
122                  }
123 <                else continue;
123 >                else
124 >                        continue;
125  
126 <                cerr << page.getTitle() << ' ' << page.getChildOf() << '\n';
174 < //              newPages.insert(page);
126 >                newPages[page.GetAddress()][page.GetChildOf()].InsertLast(page);
127          }
176
177        evaluator.destroyXPath(address);
178        evaluator.destroyXPath(port);
179        evaluator.destroyXPath(path);
180        evaluator.destroyXPath(title);
128   }
129  
130 < bool SiteMapper::newIndex(vector<Page>& pages, Page& page)
130 > bool SiteMapper::newIndex(ext::Vector<Page> &pages, Page &page)
131   {
132 <        for (unsigned index = 0; index < pages.size(); index++)
132 >        _foreach (ext::Vector<Page>, page_, pages)
133          {
134 <                if (pages[index] == page.getAddress())
134 >                if (*page_ == page.GetAddress())
135                  {
136 <                        Matcher matcher;
190 <
191 <                        if (pages[index] == page)
136 >                        if (*page_ == page)
137                          {
138 <                                page.setChildren(pages[index].getChildren());
138 >                                page.SetChildren(page_->GetChildren());
139 >
140 >                                *page_ = page;
141  
142 <                                pages[index] = page;
142 >                                api::Cout << _B("Updated: ") << page.GetUrl() << ios::NewLine;
143  
144                                  return true;
145                          }
146 <                        else if (matcher('^' + pages[index].getPath()) == page)
146 >                        else if (page.GetPath().StartsWithAll(page_->GetPath()))
147                          {
148 <                                page.setChildOf(matcher[0]);
148 >                                page.SetChildOf(page_->GetPath());
149  
150 <                                if (matcher('^' + pages[index].getTitle() + "\\s\\|\\s(.+)$")
204 <                                        == page)
205 <                                {
206 <                                        page.setTitle(matcher[1]);
207 <                                }
150 >                                api::Pcre::RegEx title(_S<ios::String>() << _B("^") << page_->GetTitle() << "\\s\\|\\s(.+)$");
151  
152 <                                return newIndex(pages[index].getChildren(), page);
152 >                                if (api::Pcre::RegEx::Match match = title(page.GetTitle()))
153 >                                        page.SetTitle(match[1]);
154 >
155 >                                return newIndex(page_->GetChildren(), page);
156                          }
157                  }
158          }
159  
214        cerr << "Here!\n";
215
160          return false;
161   }
162  
163 < void SiteMapper::newMap(const string& siteMap)
163 > void SiteMapper::newMap(const cse::String &siteMap)
164 > {
165 >        _S<api::FileWriter> file(siteMap);
166 >        _S<ios::FormatWriter> fout(file);
167 >        _S<xml::TextWriter> xml(file);
168 >
169 >        // XXX: xml::TextWriter should have this kind of stuff, no?
170 >        fout << ios::NewLine << _B("<?xml-stylesheet type=\"text/xsl\" href=\"stylesheets/sitemap.xsl\"?>") << ios::NewLine << _B("<!DOCTYPE page SYSTEM \"stylesheets/page.dtd\">");
171 >
172 >        xml.OutputComment(comment);
173 >
174 >        xml::ScopeElement page(xml, _B("page"));
175 >
176 >        xml.OpenElement(_B("title"));
177 >        xml.OutputText(_B("Sitemap"));
178 >        xml.CloseElement();
179 >
180 >        xml::ScopeElement section(xml, _B("section")), list(xml, _B("list"));
181 >
182 >        _foreach (ext::Vector<Page>, page, pages)
183 >        {
184 >                if (newPages.Contains(page->GetAddress()))
185 >                        newMap(page->GetChildren(), page->GetPath(), newPages.Find(page->GetAddress())->Second());
186 >
187 >                xml << *page;
188 >        }
189 > }
190 >
191 > void SiteMapper::newMap(ext::Vector<Page> &pages, const cse::String &childOf, ext::RedBlackMap<cse::String, ext::Vector<Page>, LessThan> &newPages)
192   {
193 <        //
193 >        _foreach (ext::Vector<Page>, page, pages)
194 >                newMap(page->GetChildren(), page->GetPath(), newPages);
195  
196 <        for (unsigned index = 0; index < pages.size(); index++)
196 >        _foreach (ext::Vector<Page>, page, newPages[childOf])
197          {
198 <                cout << pages[index] << '\n';
198 >                api::Cout << _B("Added: ") << page->GetUrl() << ios::NewLine;
199 >
200 >                pages.InsertLast(*page);
201          }
202 +
203 +        newPages.Remove(childOf);
204   }

Diff Legend

Removed lines
+ Added lines
< Changed lines
> Changed lines